Tip:
Highlight text to annotate it
X
巨量資料是一種難以理解的觀念。 (譯註:又稱大數據。)
它代表數位資料的量,
它大到難以儲存、
傳輸、
或分析。
巨量數據非常龐大,
以至於今日的科技無法處理它
並促使我們來研發新一代的
資料儲存設備以及科技。
所以,巨量資料並不是什麼新東西。
事實上,CERN 的物理學家已經面對這個
資料不斷擴張的挑戰好幾十年了。
五十年前,CERN 的資料可以儲存在
單一一臺電腦裡。
當然,它不是我們一般的電腦,
而是一臺大型電腦,
它塞滿了一整棟房子。
如果要分析資料,
物理學家們會從世界各地飛到 CERN
來使用這臺巨大的機器。
在 1970 年代,我們那不斷擴張的資料
被分配在好幾組不同的電腦中,
這些電腦在 CERN 裡,如雨後春筍般地出現。
每組電腦只用自製的專用網路相連結。
每組電腦只用自製的專用網路相連結。
但是科學家的合作關係
並不侷限在單一組電腦中,
所以他們必須能夠在 所有電腦上運用這些資料。
所以我們把各獨立的網路橋接在一起,
成了我們的 CERNET。
在 1980 年代,一群一群類似這樣的網路
在歐洲及美國各地湧現,
它們都用不同的方言,
這讓遠端連接變為可能,卻也令人折騰。
為了讓我們散佈在世界各地的物理學家
不用四處奔波就能得到存取在 CERN
那不斷更新的資料,
這個網路系統就必須使用
同一種語言。
我們採用了美國那不成熟的標準系統,
之後歐洲其餘單位也接受了,
接著在 1989 年,我們在 CERN 建立了
歐洲和美國的主要連線,
這個正式的全球網路終於起飛了。
物理學家可以輕鬆地
從世界各地
存取到好幾 TB 的巨量資料,
產生結果,
然後在自家的研究機構中撰寫論文。
接著,他們想要和他們的同事
分享他們的結果。
為了讓資料分享更容易,
我們在 1990 年代早期建構了一個網路。
物理學家不再須要先知道
資料是儲存在哪裡
然後才能存取資料,
一個傳遍世界的想法
改變了我們日常通訊的方式。
改變了我們日常通訊的方式。
在 2000 年代早期,
我們這個愈變愈大的巨量資料
超過了我們 CERN 能夠處理的能力,
除非所有空間都塞滿電腦。
我們必須開始將這好幾 PB 的資料 (譯註:PB = 1,024 TB。)
分配儲存在我們的合作伙伴那,
這樣才有辦法利用各地上百個不同機構的
計算儲存資源。
為了要讓這些錯綜複雜的資源 在各地不同的系統中
能協調運作,
我們發展了一套計算網格,
讓世界各地的計算資源
得以無縫地分享。
這要依靠彼此的信賴關係以及資源交換。
但這個網格模型沒辦法簡單地
移轉出我們這個群體,
因為不是所有人都有資源可以分享
而各公司之間也沒辦法
被期望能有相同層級的信賴。
取而代之的是,針對存取須求的資源,
有一個商業取向的替代方案
近期正在蓬勃發展,
它叫做雲端計算,
有些其它的群體正利用它
來分析它們的巨量資料。
這對於 CERN 這個地方來說, 聽起來可能有點衝突,
一個專注於研究物質的極小構成要素的實驗室,
一個專注於研究物質的 極小構成要素的實驗室
竟然是這樣巨量資料的來源。
但是我們研究基本粒子
以及它們的交互作用力的方法,
包含了在瞬間產生這些粒子、
在我們的加速器中碰撞質子、
以及在它們以近光速運動時
捕捉他們的軌跡。
要見到這些軌跡,
我們的偵測器, 包含了一億五千萬個感應器,
像是一個非常巨大的 3-D 攝影機,
記錄每一次碰撞
──這可能會高到每秒一千四百萬次。
這會產生大量的數據。
但是如果巨量資料已經存在這麼久了,
為什麼我們現在才不斷聽到它?
這個嘛,就像一個古老的比喻所說的,
整體強過它所有部份的總和,
而已經不再只有科學在開發這塊。
我們可以藉由連結相關的資訊
以及開發合作關係來增長知識,
而這項事實
可以滋潤並強化 日常生活中的許多部份,
無論是在即時資訊中,
比如交通或是財政狀況;
或在短期的演化上,
比如醫學或是天氣學;
或是在預測情勢上,
有商業、犯罪、或是疾病趨勢。
實際上每個領域都 漸漸開始搜集巨量資料,
像是跨越全球的行動裝置網路、
地面及空中的攝影機、
儲存發表在網路上的資訊的資料庫、
以及記載各地網民活動
的記錄器。
這個挑戰在於要 發明一項新的工具以及技術
來儲存這大量的資料、
來為決策提供資訊,
來改進醫學診斷、
以及回應一些今日沒想過的
明日社會的需求與渴望。