大數據時代需有大智慧
毫無疑問,這是一本頗具誘惑性的書籍。試想,如果能夠準確預測即將發生的事情,那么未卜先知、“逢賭必勝”的格局必將顛覆許多人的生活。
問題之所以變得并非如此簡單,不是因為我們缺乏研判的信息,恰恰相反,“現在我們每天生成的數據高達250兆億個字節”,而信息存儲量僅3000兆的人腦,其“存儲量不過是全球每天所產生信息量的百萬分之一而已”。這也就是說,我們必須用這一個個存儲量僅3000兆字節的人腦,迅速篩選每天250兆億個字節信息,從而甄別出到底哪些是有用的信號,哪些又是無用的噪聲。
本書作者納特·西爾弗(Nate Silver)曾被譽為“神奇小子”,在這方面當然有過成功案例。2008年美國大選期間,納特按照自己擬訂的分析方式,成功預測出49個州的選舉結果,2012年大選期間更是成功預測出全部50個州的選舉結果。納特的預測,當然不會形同那些混跡于街頭巷尾“掐指一算”的“半仙”,而是基于統計學理論之上,綜合多種知識的嚴謹分析之法。
本書中,納特除了談到他拿手的政治選舉外,還談到了棒球比賽、天氣預報、地震預測、經濟預測、疾病預測、股票、溫室氣體、恐怖主義等跨行業跨學科多個內容。成功的預測當然是用正確的方法得出了正確的結論,真正值得反思的往往是,歷史上那些時間跨度相對較長,期間曾屢露端倪的現象,為什么未能引起人們的重視?為什么預測結果一再與最終走向背道而馳?信手可拈來的案例如“9·11”恐怖襲擊事件、2008年金融危機、卡特里娜颶風、2011年日本大地震、禽流感肆虐等。
其實,國外有則預測的經典案例許多人想必并不陌生。60多年前的朝鮮戰爭前夕,美國蘭德公司組織大批專家對朝鮮戰爭進行評估,并對“中國是否出兵朝鮮”進行預測,最終得出結論:“中國將出兵朝鮮”。直到3年的戰爭艱難結束,在失望中幡然醒悟的美國聯邦政府,才回過頭高價收購了蘭德公司的過期研究報告。蘭德公司的預測結論為什么沒被重視,原因眾多,但有一個不可忽視,那便是這一預測結論未能順應政府意圖。
我們不妨再看看美國的次貸危機。稍有經濟頭腦的人不難判斷其危險性,然而,盡管如此,無論是政府機構還是那些享譽國際的知名評級公司,一再給出了積極評價。原本可以提前大幅減少損失的小問題,結果在各種錯誤的累積與助推下,泡沫一吹再吹,瘋狂膨脹。可以肯定的是,導致這種扭曲的結果并非因為大家都蒙在鼓里,而是在自利初衷驅動下,僥幸也是違心地向社會拋出了并不正確的結論。
納特對數據分析推崇備至,幾乎到了無數不能的地步。從作者對兩屆選舉結論的正確分析結論來看,其嚴謹的分析態度確實令人尊敬。但是,在大數據時代,我們缺的不是數據,而是正確分析數據的路徑。某種意義上,這種分析也有賴于科學研究的進步。就像是,即便一項預測結果與發展結果相吻合,如果沒有詳細的證據鏈,依然無法取信于人。
作為討論信息分析的著作,納特并沒有給出具體方法,這并非投機取巧,實乃因為各門科學的標準不一,方式不同。但納特也給出了自己的明確思路,即“要在正確的地方尋找信息和支點,關鍵在于要開發一些手段、培養一些習慣,這樣才能在準確的地方發現更多的想法和信息。”
有必要指出的是,納特對信息分析的篤信不疑,是建立在堅定的客觀原則之上。問題是,科學家或學者對某種現象或形勢的研判,既有對歷史經驗的綜合分析,也有對未來理想的主觀愿景。很顯然,無論是總結經驗還是展望未來,從哲學角度看,均不可能完全擺脫主觀因素困擾,但也并不能因此就斷定其是憑空想象。
現代管理學之父彼得·德魯克有句名言,預測未來的最好方式就是去創造它。這句話實際闡述了預測的主觀性。倘若從這一角度發散思考,倒是覺得,越是準確的預測越離不開兩方面的創造:一是不斷提升科學知識水平,二是努力剝離預測中的種種利益因素。