大数据 - 蒂姆·史密斯

“海量资料” 是一个让人难以捉摸的概念。它表示了巨大的数字信息量，大到难以存储转移或分析。 ”海量数据“ 非常庞大以至于它颠覆了目前的科技发展，并且挑战我们发明新一代数据存储技术的工具和技术。所以，“海量数据”不是新的话题。实际上，物理学家在欧洲粒子物理研究所已经为他们不断扩大的数据库纠结了数十年。五十年前，欧洲粒子物理研究所的数据可以被存储在单单一台电脑上。好吧，那台电脑不是你现在用的普通的电脑。这台电脑的主机填满了整个办公楼。想要分析得到的数据，世界各地的物理学家们就得来欧洲粒子物理研究所连接上这个巨大的机器。在七十年代，这些不断增长的海量数据被分配到不同的计算机集上，这些计算机集在研究所里迅速扩张。每个计算机集连着专属的广播网。但是物理学家们的合作研究不能受到这些计算机集的束缚，他们需要访问所有的数据，所以，我们桥接起这些独立的计算机集创建了欧洲粒子物理研究所内部网络。在八十年代，说着不同语言的与此相似的网络扩散到了整个欧洲和美国，使远程访问成为可能但是非常痛苦和麻烦。为了让全球的物理学家们更容易地拿到这些数据, 这些网络必须用同一种语言。我们采用了初出茅庐的美国因特网标准，欧洲也随之采用，之后，1989年，我们设立了欧洲和美国的首要链接在欧洲粒子物理研究所随后，全球因特网迅速流行起来。物理学家们可以轻而易举地从全世界各地远程获取海量数据生成结果，并且在他们自己的研究所里写研究报告。之后，他们想和所有的同行们分享他们的研究成果。为了让数据分享更容易，我们在九十年代早起发明了因特网。物理学家们再也不用需要知道数据储存在哪里他们只需要上网找就可以了。这个主意被人们广泛接受了，随之改变了我们日常生活中人们沟通的方式。在二十一世纪初期， “海量数据”的持续增长超过了欧洲物理研究所的研究能力（尽管他们拥有一幢幢全是计算机的大楼）我们不得不开始散步这些“拍它字节” 数据（拍字节或拍它字节（Petabyte、PB）是一种资讯计量单位，现今通常在标示网络硬盘总容量，或具有大容量的储存媒介之储存容量时使用。）给我们的合作伙伴，从而使用上百各大科学研究院的地方计算机存储资源。为了更好得调配这些互相联系的资源我们研发了一个计算机网格使无缝的全球数据分享成为可能. 这依赖于相互信赖的关系和互相交流。但是这个网格模型可以轻易地被转送到这种关系之外，没有相互信赖的关系和互相交流，每一个人都会对自己的资源表现的很保守，一些公司也不会有同样的信任度。取而代之一种商业化方式的获取信息的方式在最近非常流行，那就是云技术。云技术被很多其他团体用来分析他们的海量数据。像欧洲粒子物理研究所这样的地方专注于研究小得无法想象的粒子却可以成为“海量数据" 的源头这可能会让人感觉很矛盾然而，我们学习这些基本颗粒的方式和这些颗粒作用于彼此的作用力包含了：短暂地创造它们，在加速器里使它们碰撞，在它们在以接近光速运动时记录下它们的迹线。为了能很好地观察这些轨迹，在探测器里，我们装了1.5亿个感应器，这些探测器就像硕大的3D照相机，拍下每一次碰撞- 那是每秒钟1400万张。这构成了很多数据。如果”海量数据“已经存在了那么久，我们为什么现在才听说它呢？老话说得好 ”团结力量大“，不仅是科学研究在利用这个。从各种信息中，我们可以通过拼接相关信息和发现关联性从而导出更多的信息。这，让我们更消息灵通，也可以丰富我们的日常生活。无论是在实时，（比如信息量或金融信息）在短期的演变（比如说医学或气象学）或者在需要预测的情况下（比如说商业，犯罪，疾病发展趋势）。事实上，每一个领域都需要收集海量数据，比如遍布全球的移动感应网络，比如陆地或在空中都有的摄像器，比如网络信息档案集，和捕捉全球网民网上活动的记录器。我们面临的挑战是去发明新的工具与新的技术从而来挖掘这些巨大的存储箱，帮助我们做正确的决定，提高医学诊断正确率，甚至推满足未来社会尚无法想像的需求和渴望。