在我们无意识中,这个世界已经变成了一个大数据的世界了。

        我们经常讨论大数据,究竟什么是大数据?其实大跟小是一个相对的概念。我觉得有两个原因,一个是我们跟历史比有一个时间点,在过去,我们讨论数据的时候,比如提到Total Data已经是很了不起了,十年前有TB的数据已经是非常大了。时过境迁,今天再谈数据我们用的标量单位是ZT,所以时间纬度上看大数据绝对是数据量太大。还有一个纬度,从某种意义上来讲,我们在讨论大数据的时候也是人们在对数据处理方面的一种无奈。这个实际上是说,我们处理数据的能力小于数据量。换句话说,数据量太大。所以真正直到有一天,如果我们能够通过技术的手段,通过一些新的解决方案,能够随心所欲驾驭大数据的时候,这个时候数据就变成了一种机会。所以今天我就想讨论一下在今后十年整个数字世界会增长44倍,也就是说从2010年的0.9ZB,要增加到十年后的35.2BZ。这个数据变化过程中,其实我们每一个人包括在座的各位都是参与到大数据产业当中。各行各业,不管是企业、个人、政府、还是银行,所有的行业都在这次大数据的变革当中起着推波助澜的作用。数据产生的过程中有大数据产生的大户,比如说搞科技研究的,比如欧洲强离子卫星每秒钟撞出上亿的数据单元。比如社交网络、地球物理,都是数据产生的大户。这些数据产生的大户对大数据产生起到了很大的作用,而更重要的部分是我们个人,包括在座的各位。

        随着互联网的发展,移动社会的普遍应用,包括Facebook的发展和电子商务、音频、视频、图像广泛的应用,使得每一个个体都变成了巨大数据的创造者。这样这个基数就变成了一个天文数字,而新产生的数据很大一部分是结构化数据和非结构化的数据。回到地理信息系统,地理信息系统是在走入这个大数据行业里面的一个比较前列的行业。随着技术的发展,在测绘领域,新的技术为我们提供了很多新的测绘方法,包括遥感技术、GPS技术、和测量技术等等,它能帮助我们收集更多数据这是好的方面。另一方面也无形中推动了数据量的大发展。

        而多媒体信息和传统地理信息的结合也从某种意义上来讲,让地理信息的数据量有了一个跨越式的发展。比如说Google地图,它06年的数据量是70TB,到了2010年已经达到了50TB,随着新的移动互联网、手机设备和LBS的发展,新的地理信息相关数据衍生出很多新的数据种类和增加了很多数据量。

        我们看一下传统上地理信息系统怎么管理和处理这些数据?传统的地理信息系统相对处理数据的种类和类型比较单一、比较简单。主要是矢量数据,就是点、线、面体以及跟矢量数据相关的一些属性信息。空间数据是利用文件系统来管理,我们用关系数据库来关系这种属性数据。所以文件系统加上关系数据库的系统就变成了一个很典型的地理信息的数据管理系统。这个系统里有一个很明显的问题,就是因为数据是在不同的地方管理,所以造成了在计算效率和数据管理,包括保持数据一致性的时候都有一些困难。所以后来有很多空间数据苦来同时管理空间数据和属性数据。

        刚才我也谈到了,地理信息发生了很大的变化,不管是从数据量还是数据的种类都跟以前不可同日而语。原来简单空间数据管理已经不太适用了。我们觉得将来的方式对于矢量数据应该考虑大规模并行的空间数据库来进行管理。面对这种大的数据量和多种类的数据,对于地理信息来讲要解决两方面的问题。一个是信息存储问题。因为有这样的数据量,我们信息存储的平台一定要具有这样的特点,第一容量要大,第二扩展性要好,第三就是要能够兼容异构的数据,能够同时的管理结构化和非结构化的数据。数据的管理还有一个很重要的方面就是怎么分析和处理这个数据?这么大的数据,传统的分析方法有限,所以处理数据的时候有几个关键的地方:

         第一,一定是分布式的处理方式,通过这个方式以达到更高的处理效果。第二,一定要想办法让我们的分析、让我们的计算更加的靠近数据。这么高的数据分析系统有没有?我们说可以有。这是EMC的一个存储系统,这是业界无论是从可靠性还是性能都是最高的。我们看一下它的容量,单一的文件系统可以达到15PB。而这样大的文件系统里面横向的可扩展性能够保证性能即便是这样的大的数据,IO也可以达到1.5兆。

        下面简单说一下分析,有了数据很好,有了数据可以有很多工作可以做,更重要的是怎么从大量数据中挖掘出来信息。传统的方法都是做结构化的数据,数据量比较小,是TB量级的那时候是纵向扩展,接下来大数据时代,一方面数据既有结构化的,也有非结构化的。所以我们将来的分析平台一定是能兼容结构化和非结构化。同时在分析能量上也要分析到PB量的数据。再有一个分析的形态一定是可扩展的,因为数据量不管是大它还是与时俱进的。怎么样让数据动态适应数据的增长,一定要让系统里有一个可扩展的空间和能力。

       举一个例子,EMC分析平台,它有两个核心引擎,一个是Greenplum,它是一个大规模的并行数据库,它有几个很重要的特点,一个是容量大,可以处理PB级数据,另外一个就是可扩展性,我们叫做无共享体系架构。这个体系架构可以部署在一个很多节点构成的数据量,如果我们处理数据量需要扩大,性能需要提高,可以通过增加节点完成工作。数据加载速度可以达到10/秒,因为它是把所有的查询分布到不同的节点进行。这个系统所有的负载均衡都是由系统自动完成的。

        还有一点GPDB是支持地理空间数据的数据库。它通过支持PostGIS可以支持空间计算。刚才我们强调了大数据一定要有大数据的分析头脑,GPDB有内置的分析强大功能,通过SQL的一些调用,可以调到很多分析的函数,包括像SVM这些都是在系统里有支持的。

        再有一点就是支持全文搜索。这种全文搜索集成了Soir,它可以实现自由文本的全文检索。同时并行的体系架构,在全文搜索中是完全被简化的,搜索的效率非常高。刚才讲的这些都是结构化的数据里面用什么样的方式进行分析。对于非结构化的数据,大数据处理现在最好的方式就是Greenplum HD。它在标准的基础上做了很多改进,特别是性能和可靠性上的改进。比如说增加了数字节点内容,可以增加反应速度和避免一些单节点的问题造成系统的问题。同时增加了一些竞像的配套反应,这些都是根据系统可靠性采用的一些方式。

        总的来说Greenplum这个平台是一个大数据完整的分析解决方案,涵盖了所有的数据,不管是结构化数据还是非结构化数据,加上分布式结构体系架构,可以在分析大数据过程中实现高容量高效率。

        刚才前面几位嘉宾都讲了地理信息行业在经历一个很大的转变,这个转变其中有一个方面就是我们要面对的数据是大数据,这对我们所有人来说是一个机会。在以数据为中心的时代,数据非常重要,拥有分析数据、驾驭数据的能力更重要。大数据管理这方面是EMC公司非常有兴趣的,也是我们的专业行项,所以我们非常希望有机会跟在座开发者一起合作,共同推动这次由大数据带来的信息技术的这场变革。

         时间的关系我就先讲这么多,如果有没讲清楚的大家下来可以再讨论,如果对我刚才提到的一些产品有兴趣,我们门口有展台,那边有专业技术人员可以给大家进行详细的演示。

       谢谢大家的时间,也预祝这次地理信息开发者大会圆满成功,谢谢!

QQ 744437114

疯狂软件官网:http://www.fkjava.org

疯狂java视频 android视频:http://www.fkjava.org/video.html