大數據時代,科技走到了宗教盡頭
這是一個人人都言“大數據”的時代,然“大數據”存在于何處?影響于何處?難免,普通大眾被席卷而來的“大數據”之潮迷亂了眼睛,攪亂了思緒。正是在這樣的時刻,筆者認為尤為重要的是保有敬畏之心與清醒的思維,認識到“大數據”的局限性。
滲透時刻,無處不在的大數據
大數據可能是時下最吸引眼球的話題之一。從通過鮮花與安全套銷量比分析不同城市的浪漫指數到發現深處內陸的新疆人民反而比基尼銷量第一,從為節能減排做貢獻到德國國家隊利用大數據技術搜集球員信息征戰世界杯到根據敵方機場起降信號,一分鐘內分析出起降批次,戰斗機型號等細節,再到獲得獲第86屆奧斯卡金像獎最佳原創劇本獎的《她》,劇本內主角和人工智能系統之間感情逐漸加深直到愛上彼此,大數據給人帶來無盡遐想,帶來無限精彩的可能。
就像馬云所說的那樣,人類已經從IT時代走向DT時代。阿里巴巴集團數據委員會長車品覺在他的著作《決戰大數據》里面也強調了兩個重要觀點:其一,大數據徹底消除了“樣本偏差”(sample bias)。“樣本跟大數據不同。大數據相信全量數據,而非樣本;是分析得出,而不是抽樣獲得”;其二,大數據時代的相關性分析可以創造以前無法想象的場景。極端情況下,線上數據的積累,可以形成個人的”線上人格”,影響乃至控制人的線下行為。
傲慢是罪,保持一顆敬畏之心
大數據前景如此美好,竟讓我無言以對。然而,傲慢是罪。“智慧果”讓人類擁有了智慧,但同時也讓離開伊甸園的人類從此無法擺脫傲慢的原罪。從“通天塔”到在“地上建立天國”,失去敬畏之心的人類往往給自己造成巨大傷害。大數據時代,同樣應該保持一顆敬畏之心,認識到以下三點。
一、樣本偏差始終存在,大數據沒有超越統計學
什么是樣本偏差?這方面最精彩的例子來自二戰。其簡化版本是,英國皇家空軍苦惱于德軍兇猛的防空炮火,想通過加強飛機裝甲降低戰斗機損耗率。但受制于飛機載重,只能在部分部位加強裝甲。為此,他們求助于一位統計學家。在仔細觀察成功返回機場飛機上的著彈痕跡后,專家給出了出人意料的結論:在沒有著彈痕跡的部位加裝裝甲。面對質疑,統計學家只回答了一句話。“那些部位著彈的飛機都墜落了”。可見,統計學永遠是個手藝活,沒有兩把刷子是要害死人的。
本質上來說,統計學就是用部分推測整體,用過去預測未來的理論體系。其最大的弱點在于部分推測整體時,樣本偏差會讓結論失效。那么,在大數據時代,是否真的來到了天堂,沒有樣本偏差的困擾了?答案顯然是否定的。從現象上來看,即使在大數據時代,數據與應用場景也會有嚴重割裂。拿情人節鮮花和安全套比率這個例子來說,基于“你懂得”的原因,很多安全套消費發生在線下,線上無法獲取該數據。因為技術手段或商業模式本身的限制,線上系統能采集到的數據只是完整場景中的一部分,不是全部數據。再比如新疆人民比基尼銷量第一的例子。數據分析人員如果不能意識到真實場景中,新疆的比基尼銷售量主要集中線上(線下傳統渠道銷量很少或者基本沒有?)但其它省份比基尼銷售主要在線下(線上銷量占比8%~10%)就會得出錯誤的結論。同時,在新疆,淘寶天貓的網上銷量基本代表了真實的網上銷量。但在北上廣這些一線城市,京東的線上銷量已經和淘寶天貓相當,只考慮阿里系的數據,會嚴重低估真實銷量。
從理論上分析,數據與應用場景的割裂本質上就是樣本偏差。因為技術或者利益的原因,大數據時代搜集的數據也不能完全覆蓋應用場景的各個環節,所取得的數據仍然是部分,不是全部。最后,從哲學層面來說,即使以后技術有了長足的進步,解決數據與場景的割裂問題,同時也有了完美的商業模式可以讓競爭對手樂意互相分享數據,樣本偏差仍然會存在。其核心在于,人類雖然有能力認識客觀世界的所有規律,但客觀世界本身并不是靜止的,而是在不斷運動當中。過去的數據,一定不能體現客觀世界未來的發展規律。“刻舟求劍”的理念不符合實際。從這個角度上來說,“黑天鵝”事件的本質就是樣本偏差。技術再先進,商業模式再精妙,也不能解決這個問題。所以說,即使在大數據時代,人們還是應該有敬畏之心,在這個時代,科技確實游走到了宗教邊緣。
二、大數據結論是統計學意義上的整體性結論,并不是針對個體
任何基于統計學的理論分析和結論都是整體性的。阿西莫夫在他的著作《基地》里完美的闡述了這一觀點。哈利.謝頓以銀河系里2000萬星球上百億億居民為研究對象,成功創建了心理歷史學,并以此成功預測了銀河帝國會經歷長達三萬年的黑暗野蠻時期和銀河第二帝國的出現。但無法用該理論預測個體。所以它無法預言變異人騾的出現。若非第二基地的存在,整個復興計劃險些失控。《失控》也描述了類似的現象。深海里的魚群作為一個整體,行為規律非常容易預測。但單個個體行為毫無規律,難以預測。淘寶/天貓的“千人千面”是大數據時代的重要嘗試。其核心基于大數據,為淘寶/天貓客戶展現個性化搜索結果。該項目核心細節并不為外人所知,但基于理論分析,可以做出合理的推測。首先,淘寶/天貓搜集的數據一定不是所謂的“全量數據”,現有條件下,很多與顧客購買興趣相關的核心數據無法被搜集。其次,即使模型準確率能達到99%,對于一個上億規模的平臺來說,也有近千萬的客戶會有比較差的用戶體驗。基于此,“千人千面”個性化程度必須做合理化約束,否則,理想越美好,現實就會越骨感。
三、相關性始終不是因果,這方面應用陷阱和機會一樣多
相關性分析是數據分析利器,同時又是最容易引入問題的地方。相關并不是因果。統計數據顯示,冰淇淋銷量上升時,水中溺死人數會迅速上升,兩者之間呈現極強的正相關。那么冰淇淋消費會引起人溺死嗎?答案顯然是否定的。只是天氣炎熱會同時增加冰淇淋消費和人們水上活動的幾率。一個更有說服力的例子是某個時期的統計數據顯示,白酒價格和牧師收入之間有極強的正相關。難道牧師群體們一個個都是“酒肉穿腸過,佛祖心中留”?答案也是否定的,其真實原因只是因為通貨膨脹同時導致了白酒價格和牧師收入水平上漲。在大數據時代,相關與因果的混淆可能導致的問題會遠超以往。大數據時代,數據極為充分,計算能力極強,可以發現以往無法發現的相關性。這是大數據時代讓人興奮的地方。但同時,相關性與因果性的辨別難度極大提升。一旦判斷失誤,會引起極大的問題。譬如說,目前阿里小貸引以為豪的信用判別模型與自動放款。假設目前信用模型相關性失效,“即通貨膨脹率長期穩定,白酒價格和牧師收入不再強相關”,那通過現有模型篩選的主體的真實信用等級會有極大風險,后果不堪設想。以上分析純粹基于理論層面,并不指向某個具體項目,但隨著大數據技術的進步,辨別相關性與因果性的難度會越來越大,風險也會越來越高。
這個世界最讓人理解的就是它是不可理解的。這個世界最讓人難以理解的就是它又是可以理解的。大數據時代,我們需要有一顆敬畏之心。傲慢是罪。