0

大數據閱讀心得 part 1:從柯P選舉說起。

 
 
大數據一書買了一陣子,但是一直沒機會看。今年給自己讀書計畫,至少一個月念完1-2本書。所以就把這本書看了兩次,並且寫下心得跟大家分享。
 
大數據一戰成名是2009年的新流感。Google根據網路上搜尋的字詞,用了45個關鍵詞彙,測試了4.5億種模型,並與疾病管制局2007-2008的資料相對照,找出了可以預測的模型。可以根據網路上大家搜尋的詞彙,去預測某個地區即將爆發流行,會比以往第一線醫師收集檢體,培養,匯報給疾管局快上兩週以上的時間。
 
如果在去年底之前沒聽過大數據這概念的,可能也有從柯P的選舉操作耳聞這個概念。我們來談談閱讀的心得。
 

大數據的幾個精神就是
 
1.不用取樣。樣本=母體
2.不在乎因果關係,在乎關聯性
3.把一切資訊給資料化(包括橋樑受的應力,人的坐姿等等),更能釋放資訊的威力

 
科技的進步讓大數據成為可能。2003年人類基因組第一次解碼,花了十年。但是到了2013年,只需要一天就能解碼一個人的30億組鹼基對。
科技的進步,讓取得與儲存資料的成本大為降低。可以想像,一台1TB的硬碟,可儲存的文字,如果把他們換成書本,用上台的技術一書為例,大概可以儲存250-300萬本
把這些書堆起來,大概有七萬五千公尺高,約莫147座台北101的高度

這麼多的資訊,就在你的D槽中


3:18:2015 up stage
 
科技的進步,現在連iphone的運算能力都已經大幅超越30年前的超級電腦了
 

樣本=母體的時代
 
在過去,只能針對某些疑問提出假設,很多時候還是只能操作一樣變因。可以設定的假設數量是有限的。如果大家對國中數學還有印象的話,就會記得,因為無法對所有的對象收集資訊,才有了抽樣,而且有各式各樣去減少抽樣誤差的方法,與校正抽樣問題的統計模式。抽樣不是最好的辦法,但是那是過去沒有辦法的辦法。但是到了大數據時代,要有新的思維。拿去年底的台北市長選戰來說,您相信手中少數的”抽樣”,還是大數據?柯P的團隊就應用了大數據,打了一場極其漂亮的選戰。不管你支不支持柯P,他的方法是值得學習的。(延伸閱讀:柯P競選團隊與大數據)
 

巨量的定義,不在於多寡,而在於”完整”
 
相較於抽樣,大數據多了可以看”細節”的好處。拿柯P選戰的例子來說好了。如果你選擇抽樣1000名台北市民來做資料,是可以有一個模糊的輪廓。但是如果你想知道台北市文山區20-30歲的男性對於選戰的想法?那麼抽樣就會有其困難。但是如果你的對象是所有的臉書帳號,從裡面撈出住在文山區20-30歲的男性,可能就有好幾千筆,甚至上萬筆資料,那就會有很多可以分析的東西。當然,資訊是混雜的,所以傳統的分析方式並不適合,但是如果你掌握到大數據的優勢,就可以比過去做更精細的分析,並且行動。
 

巨量資料必須付出的代價
 
可以想像的是,一旦資料量增加,出錯的機會會增加,不相容的機率會增加。這是一種必然,但是資料量多,有時會比品質好更重要。可以想像一座巨大的葡萄園,如果你想觀測這個葡萄園的溫度,這時候如果是10隻極為精準的溫度計比較好,還是1000隻沒那麼精準的溫度計比較能知道真實世界的狀況?再舉大家很常用的Google 翻譯來說,大家如果有在用的話,應該會對於他的精準度與多元化感到驚訝。他已經可以將60種以上的語言彼此翻譯。60種以上的語言彼此翻譯,您可以想像看有多少種組合?至少是2000種組合。Google怎麼可能有那麼龐大的人力去做語言的對譯。
 

你看看這樣不相干的語言也能對譯….這在過往是無法想像的

 

 
Google translate
 
 
 
Google的方法是搜尋全世界數十億的網頁,只要有涉及翻譯的,都把他抓進來,不管翻譯的品質。但是當你的資料巨多無比的時候,再加上使用者的協助,就會慢慢的越來越精準,也可以用成本很低的方式做前人無法做到的事。就像把上列那兩種少用的語言對譯。
在過去,我們總希望一切都是精確無比的。但是真實的世界,是充滿了各式各樣的雜訊的。相較於實驗室內的精準,在某些主題上的分析上,大數據會比實驗室的推測更加精準。因為他夠完整。
 
我們都習慣於”精確”。但是大數據帶來的思維是讓我們對精確度妥協。當然,如果資料又多又好是最棒的,但是現實生活中這不容易。完整卻不那麼的精確的資料,相較於精準但是少量的資料,其實更能幫助我們理解這麼混亂的世界。因為他”完整”。而且不帶偏見。
 

 


放下因果關係,而看相關性

 
過往我們所受的邏輯訓練,都習慣去找尋因果關係。不過想要去找因果關係,是天性。人類有種天生的傾向,會喜歡在第一時間下判斷。舉個常見的例子來說,很多老人家會說小孩長牙會發燒。這是因為根據觀察小孩在長牙的這段期間,很容易發燒,所以認為是長牙導致小孩發燒。這是一種自行推論的因果,但是事實上這個推論充其量是”相關性”,而且未經演算之前,連相關性的高低都無法確認。

關於因果與相關性,這裏要補充一個羅胖講過的故事。他說啊,在北海有一個原住民部落,他們治療發燒是去抓頭蝨放在發燒的人身上。很怪對吧?這邏輯是這樣的:他們觀察到發燒的人,他身上的頭蝨會減少。所以他們認為是頭蝨的減少導致發燒,所以把頭蝨抓來,應該就可以治療發燒。荒謬嗎?這樣的謬誤其實處處可見。

這些例子,是要說明使用”相關性”時要很小心。但是我們卻也不能忽略”相關性“的重要。使用”相關性”有時候會帶來巨大而且人腦想不出的好處。書中舉Walmart為例。在過去,颱風之前,他們的超市會備好手電筒,電池,飲用水乾糧等我們覺得大家會在颱風前購買的商品。但是Walmart引入大數據分析後發現,在颱風前衝最高的是一種叫Pop Tart的小甜點。所以發現之後他們在颱風天前把Pop tart擺在最顯眼之處,而讓銷售量暴增。如果是因果關係的推演,我們怎麼想破頭大概也想不出為什麼人們在颱風前會想要買這種甜點,但是透過”相關性”,我們可以跳出預設立場,而得到意外的好結果。這是大數據的威力來源之一,他不在乎因果,而在乎相關性。
 
 
再次強調,相關性很重要,但是不用把他拿來與因果混為一談。務必小心。
 
待續…….
 

medarchies

發表迴響