Google公开Megastore论文——解决NoSQL、SQL融合难题

实际上，作为一个建立于Bigtable之上的分布式存储系统，Megastore已经被谷歌使用了数年。Google在2008年的SIGMOD 大会上就已经开始讨论它了，但相关技术信息直到最近才被公布，在上个月举行的创新数据系统研讨会上(CIDR)，Google公开了其Megastore 分布式存储技术的白皮书。

论文地址下载：http://www.cidrdb.org/cidr2011/Papers/CIDR11_Paper32.pdf

在该白皮书上，Google对于Megastore的功能描述是——高扩展性并具有高密度交互的可用存储服务，其在Google的基础系统之中，其主要用来解决Appengine的数据存储问题。

Megastore融合NoSQL和SQL

提到Google的Bigtable，必然会提到NoSQL，对于广大的NoSQL研发人员而言，当前最核心问题正纠结于如何将NoSQL与传统的关系型数据库融合，而Megastore就是专门用来解决这一问题的。

Megastore用一种新颖的方式把NoSQL数据存储的可扩展性和传统的关系型数据库融合在一起，并为一致性和高可用性提供了强有力的保证。Google在该论文中指出。目前提供的数据完全按照ACID语义序列进行高密度的排序。

Google重点谈到了现今的Web应用，白皮书中指出，所有的Web应用都面临以下技术瓶颈：可扩展性、快速的争取并发展用户、延迟反应、用户数据（云环境下要保证任何时候都可用）。

“但实际上，这些需求是冲突的”，白皮书指出。“关系数据库提供了一组丰富且方便构建应用程序的功能，但是它们很难扩展到数以亿计的用户。非关系数据库则有高度的可扩展性。例如谷歌的Bigtable，Apache Hadoop的HBase，或者Facebook的cassandra。但其API有限且松散一致性模型不利于开发应用。在远程数据中心之间传送数据，同时保证低延迟是具有挑战性的。要注意保证所复制数据的一致性，尤其是传送过程中的错误。”

关系型数据库在Google没有未来

传统的关系数据库管理系统已经被Google所否定，比如MySQL。在该文件中指出，“昂贵的商业数据库系统，如Oracle数据库，会大幅加大用户在云中大幅部署的总成本”。

Megastore的设计原理在于，能够在广域网中同步复制文件写操作、可接受的延时、支持跨数据中心的故障迁移。在两个可扩展的非关系数据库的中间地带，比一个传统的关系数据库更为方便。

Google在该论文中还透露，目前Google有100多个生产应用Megastore作为存储服务，而这些应用的可靠度在 99.99%到100%之间。根据数据中心的距离和写入数据的大小，应用程序的平均读取延迟在万分之一毫秒之内，平均写入延迟在100至400毫秒之间。

NoSQL专家——ACID令人印象深刻

曾经关注了Megastore多年，并不停更新关于Megastore的技术信息的Amazon的技术大牛——James Hamilton日前在其博客中公开表示，很钦佩该技术，他在博客中写道：“Megastore一贯支持阅读和完整更新ACID语义使人印象深刻，即便不能够更新比'每秒数'限制更多的实体组限制。”

CSDN观察：实际上，Megastore已经是Google过时的存储技术，但聊胜于无，Google选择在此时将此论文公开，对于NoSQL的整体技术进步无疑还是有好处的。

Google目前正在使用的存储系统是Spanner架构，在Google的技术规划中，Spanner能够控制一百万到一千万台服务器，包括10万亿(1013)目录和一千万亿(1018)字节的存储空间。而这所有一切分散在世界各地的数据中心，而Spanner的最强大之处在于能够为50微妙之内的数据传递提供通道——即便这两个数据中心分布于地球的两端。

原文链接：http://www.informationweek.com/news/internet/google/showArticle.jhtml?articleID=229205494&cid=RSSfeed_IWK_All

Google公开Megastore论文——解决NoSQL、SQL融合难题

techsir