Frederic Kaplan - How i built an information time machine

翻译人员: Li Yang 校对人员: Neo Liu 这是一张地球的图像。看上去很像那非常有名的从阿波罗号上发回的地球图像。但这里的图像又有一些不同的地方；你可以用鼠标点击它，如果你点击了这个图像，你也就可以放大图像中地球上的几乎任何一个地方。举个例子来看，这是一张俯瞰洛桑联邦理工学院校园的图像。通常，你也可以像从附近的街道上一样，看看这里的一座建筑是什么样子的。这非常令人惊叹。但这场绝妙的旅程中似乎又忽略了什么：那便是时间。我不确定这张图片是什么时候拍的；我甚至不确定它是不是和前面俯瞰学院的那张照片一起拍的。在我的实验室里，我们在开发一种能让我们不仅在空间里旅行的，而且在时间中旅行的工具。我们想探讨的问题是我们有没有可能做出一种像关于过去的谷歌地图一样的东西？我能不能在谷歌地图的顶端添加一行可以滑动变化年份的时间条，来看看这里一百年前是什么样子的，一千年前又是什么样子的？这可能吗？我能不能重新构建出过去的社交网络？我能不能做出中世纪的脸书（Facebook）？我，能不能做出时间机器？或许我们可以直接说，“不，这不可能的。” 又或许我们可以从信息学的角度来思考这个问题。我把这个东西叫做信息蘑菇。数轴上是年代，横轴上是我们能获得的关于那个年代的数字信息。很显然，我们有非常多的关于过去十年的信息，但在越来越久远的年代，我们能获得的信息也越来越少。如果我们想做类似过去的谷歌地图、过去的脸书（Facebook）这样的东西，我们需要扩大图片中获得的数字信息的区域（橙色部分），我们需要让这块区域变成矩形的形状。那我们该怎么做呢？一种方法是把所有我们能得到的资料数字化，我们手边有很多过去的资料，从报纸到数千的纸质图书。我可以把所有这些资料数字化。我可以从它们之中提取信息。当然，在越来越久远的年代，我们有的资料也越来越少。所以，仅仅这样可能还是不够。但我还可以做一些历史学家做的事情。我可以从拥有的资料信息对未知的那些事实进行推断。在计算机学中我们把这个叫做模拟。如果我有一本航海日志，我可以这么想，这不仅仅是一本关于一个威尼斯船长某次特定航程的航海日志。它可以是一本代表了那个年代很多类似航程的航海日志。我在做的便是一个推断的过程。如果我有一张建筑的照片，我可以认为这不仅仅反映的是那一座特定的建筑的特征，它可能也反映了同时代那些建筑的特征，而那些建筑可能正是我们所知甚少的。如果我们想建成一个时间机器，我们需要两样东西。一方面，我们需要大量的档案，另一方面，我们需要一批杰出的专家。我将和你们介绍的便是威尼斯时间机器项目，这是一个由洛桑联邦理工学院和威尼斯大学合作的项目。关于威尼斯很特别的一点便是，它的管理模式非常的官僚主义。他们几乎记录下这里发生的一切，而这很像今天的谷歌。在威尼斯的国家档案馆，你可以找到80千米长的档案资料，它们记录下了过去一千多年中威尼斯人们生活的方方面面。你可以了解到每一艘出入的小船的信息。你可以了解到这座城市发生的每一丁点儿变化。它们都被记录在那里。我们正在开展一个长达十年的数字化项目，它的目标就是把这些海量的档案信息全部转化成一个巨大的信息系统。要达成这个目标，我们每天要把450本书数字化。当然，仅仅数字化是不够的，这些档案中，很多是用拉丁语、托斯卡纳语、威尼斯方言记录下的。所以你需要转写它们，一些情况下你需要翻译它们，你需要将它们编入索引，而这显然不是件容易的事情。尤其要指出的是，传统的光学字符识别方法虽然对于印刷本可以使用且非常有效，但对于这些手写的档案似乎并不太行之有效。我们的解决方案是从语音识别这个领域寻找一些启发。这个领域看上去做的是一些不可能完成的事情，但其实只要加上一些限制条件，它们完全是可以做到的。如果你有一个关于被使用的语言的很好的模型；如果你有一个关于一份条理清晰的档案的很好的模型，这便是那些行政管理的档案文献，它们通常都有很好的条理；如果你把这些海量的档案划分成一些小的部分，其中每一个部分都和其他部分有相近的特征，那么我们便有成功的机会。如果我们到了那个阶段，我们便可以做一些别的事情：我们可以从这些档案文献中提取事件。实际上大概一百亿件事件可以从这些档案中提取出来。而这巨大的信息系统又可以被很多种方法搜索。你可以问这样的问题， “1323年的时候，谁住在这个宫殿里？” “1434年的时候，里亚托的一个集市里，海鲷卖多少钱？ “穆拉诺岛的一个玻璃工人大约十多年前的工资是多少？” 因为这些信息会被用语义编码，你又可以问一些更宏大的问题。然后我们便需要把这些存在于空间中的信息放回到它们原来的空间中去。这样，我们便可以重新构建出这场令人惊叹的关于这座城市的旅程，让它能有一个持续的、超过数千年的发展过程，能让所有的时间和它所在的空间环境达到一种平衡状态。我们可以重新建构这场旅行，用不同的方法将它图像化。但当然，如果我们仅仅考察威尼斯这一座城市，我们便不能做到完全理解它我们需要把它放到更大的欧洲的背景下去观察研究。这便意味着我们需要记录下在欧洲层面上发生的所有事情。我们也可以重新建构威尼斯海上帝国时期的旅程，看它如何一步步控制了亚得里亚海，看它如何变成那个时代最强大的中世纪帝国，它如何几乎控制了从东到南的所有海上航线。同时，因为这些海上航线有着自己的模式和规律，我们甚至可以做一些别的事情。我们可以更进一步，创造出一个模拟系统，模拟出地中海区域的历史，这能让我们甚至重建出我们丢失的信息，能让我们回答出一些别的问题。比如如果你在进行路线规划，你想问， “如果我在1323年6月科孚岛，想前往君士坦丁堡，我能在哪里找到船？” 或许我们可以在当时的两三天的精确度内回答这个问题。 “它需要多少钱？” “遇到海盗的几率有多少？” 当然，你也应该理解，对于这样一个项目，最核心的科学性质疑便是能否量化出它每一步中的不确定性和不一致性。因为到处都有错误，档案中有错误，或许是船长的名字错了，或许是有一些小船从来没有出过海，翻译中也有错误，我们的解释可能有偏差，最关键的是，如果我们加上算法的过程，我们将会在信息识别、信息提取中都存在错误，这样我们拥有的便是非常不确定的信息资料。那我们如何发现并纠正这些偏差呢？我们如何表示出这种不确定性呢？这是非常困难的，我们能做的便是记录下我们过程中的每一步，这不仅仅是翻译出那些历史信息，而且是翻译出那些我们叫做元历史的信息，关于那些历史是如何构建的，我们要记录下每一步。这当然不会保证我们真的能汇聚出关于威尼斯的最可靠的过去，但或许我们真的能重建出一个可能的威尼斯的过去。也许不仅仅有一张地图，也许有很多张地图。这个系统应该承认并接受这些事实，因为我们必须要面对并处理这种新的不确定性，它对于我们这种巨大的数据库而言确实是非常新的。然后，我们应该怎样和更多的人交流我们这项全新的研究呢？再一次地，威尼斯在这里非常地特别，它有自己的优势。在威尼斯每年有数百万的游客前来观光，这使它实际上变成了构建出未来博物馆的最佳的选择之一。想象一下，在横轴上你看到某个特定年份的重新组织建构好的地图，在竖轴上，你看到完成这一重建的档案资料，比如说绘画作品。想象一下，这样一个身临其境的系统能让你深入到威尼斯的每一个特定年份去体验，这显然是你应该和他人分享的经历。另一方面，实际上你体验的这一切都是从一份档案、一份威尼斯的手稿出发构建的，你看到你能从那些档案资料中得到什么，它们是如何被解读出来的，那些档案中的内容又是如何被重现的。这便是这样一件展览品的概念，而它现在正在和这种信息系统一起在日内瓦进行着。总而言之，我们可以说现在研究人类相关的人文学很像 30多年前在生命科学领域发生的一场革命性的变化。这真的是个规模的问题。我们看到很多项目，它们在做的远远超过任何一个单一的研究小组，这对人文学者来说确实是非常新颖的，因为他们通常适应于在小的团队里工作或仅仅和一些研究者一起工作。当你参观威尼斯国家档案馆的时候，你会觉得这远远超过了任何一个团队能做的事情，那应该是共同努力的结果。所以应对这种模式的转换我们应该培养出新的一代人，他们便是“数字人文主义者”，他们应该能准备好迎接这种转变。非常感谢。（鼓掌）