互联网

Google公开Megastore论文——解决NoSQL、SQL融合难题

实际上,作为一个建立于Bigtable之上的分布式存储系统,Megastore已经被谷歌使用了数年。Google在2008年的SIGMOD 大会上就已经开始讨论它了,但相关技术信息直到最近才被公布,在上个月举行的创新数据系统研讨会上(CIDR),Google公开了其Megastore 分布式存储技术的白皮书。

论文地址下载:http://www.cidrdb.org/cidr2011/Papers/CIDR11_Paper32.pdf

在该白皮书上,Google对于Megastore的功能描述是——高扩展性并具有高密度交互的可用存储服务,其在Google的基础系统之中,其主要用来解决Appengine的数据存储问题。

Megastore融合NoSQL和SQL

提到Google的Bigtable,必然会提到NoSQL,对于广大的NoSQL研发人员而言,当前最核心问题正纠结于如何将NoSQL与传统的关系型数据库融合,而Megastore就是专门用来解决这一问题的。

Megastore用一种新颖的方式把NoSQL数据存储的可扩展性和传统的关系型数据库融合在一起,并为一致性和高可用性提供了强有力的保证。Google在该论文中指出。目前提供的数据完全按照ACID语义序列进行高密度的排序。

Google重点谈到了现今的Web应用,白皮书中指出,所有的Web应用都面临以下技术瓶颈:可扩展性、快速的争取并发展用户、延迟反应、用户数据(云环境下要保证任何时候都可用)。

“但实际上,这些需求是冲突的”,白皮书指出。“关系数据库提供了一组丰富且方便构建应用程序的功能,但是它们很难扩展到数以亿计的用户。非关系数 据库则有高度的可扩展性。例如谷歌的Bigtable,Apache Hadoop的HBase,或者Facebook的cassandra。但其API有限且松散一致性模型不利于开发应用。在远程数据中心之间传送数据,同 时保证低延迟是具有挑战性的。要注意保证所复制数据的一致性,尤其是传送过程中的错误。”

关系型数据库在Google没有未来

传统的关系数据库管理系统已经被Google所否定,比如MySQL。在该文件中指出,“昂贵的商业数据库系统,如Oracle数据库,会大幅加大用户在云中大幅部署的总成本”。

Megastore的设计原理在于,能够在广域网中同步复制文件写操作、可接受的延时、支持跨数据中心的故障迁移。在两个可扩展的非关系数据库的中间地带,比一个传统的关系数据库更为方便。

Google在该论文中还透露,目前Google有100多个生产应用Megastore作为存储服务,而这些应用的可靠度在 99.99%到100%之间。根据数据中心的距离和写入数据的大小,应用程序的平均读取延迟在万分之一毫秒之内,平均写入延迟在100至400毫秒之间。

NoSQL专家——ACID令人印象深刻

曾经关注了Megastore多年,并不停更新关于Megastore的技术信息的Amazon的技术大牛——James Hamilton日前在其博客中公开表示,很钦佩该技术,他在博客中写道:“Megastore一贯支持阅读和完整更新ACID语义使人印象深刻,即便不能够更新比'每秒数'限制更多的实体组限制。”

CSDN观察:实际上,Megastore已经是Google过时的存储技术,但聊胜于无,Google选择在此时将此论文公开,对于NoSQL的整体技术进步无疑还是有好处的。

Google目前正在使用的存储系统是Spanner架构,在Google的技术规划中,Spanner能够控制一百万到一千万台 服务器,包括10万亿(1013)目录和一千万亿(1018)字节的存储空间。而这所有一切分散在世界各地的数据中心,而Spanner的最强大之处在于 能够为50微妙之内的数据传递提供通道——即便这两个数据中心分布于地球的两端。

原文链接:http://www.informationweek.com/news/internet/google/showArticle.jhtml?articleID=229205494&cid=RSSfeed_IWK_All

[!--page.stats—]
希望看到您的想法,请您发表评论x