大數據催生前所未有的開放社會
在今天,大數據已經成為世界各國經濟發展和科技創新的前沿,各國政府也開始越來越多地應用大數據參與社會治理的方方面面。大數據時代,我們面臨的不僅僅是信息技術領域的革命,更是在全球范圍啟動透明政府、加速企業創新、引領社會變革的契機。本刊采訪到《大數據》、《數據之巔》的作者涂子沛,請他講述小數據之歷史和大數據的崛起,試圖回答我們該如何改變觀念來適應時代,信息技術又將怎樣“拉動”社會的發展。《投入大數據,笑了自己》一文的作者王安,從美國講到中國,從技術引入文化,告訴你在大數據的時代,一切皆有可能。而《被數據統治的世界》一文為美國出版的新書HowNumbersRuletheWorld的書評,雖然書名是“數據如何統治世界”,但作者卻是在提醒人們,不要被“簡單的數字”統治了我們的思維。當不同的觀點匯聚,也許才更容易得出結論。
“濃煙滾滾,遮天蔽日,空氣質量極端惡化,白天的陽光、夜晚的街燈都無法照亮路面。”
19世紀80年代,蓬勃的鋼鐵業摧毀了匹茲堡的城市生態環境,昔日美國的“鋼鐵中心”從此被稱為“煙城”和“人間地獄”。20世紀40年代,當地政府開始發動大眾對匹茲堡的環境指標進行監測,記錄了大量真實的數據,從而有力地推動了企業減排。政府一手抓經濟轉型,一手抓污染治理。如今的匹茲堡滿眼青翠,成為公認的“北美最適合居住的城市”。可以說,美國歷史上第一次大規模的城市調查在匹茲堡展開,絕非偶然。作為世界上最發達的現代化國家,美國在政治、經濟、文化、科技等方方面面的崛起,都和數據息息相關、密不可分。
這個真實的故事出自涂子沛2014年5月出版的新書《數據之巔》,在這本書里,涂子沛以時間為線索梳理了美國對于數據的應用步伐,以及人類數據文明的發展進程。他將數據文明系統地劃分為初數時代、內戰時代、鍍金時代、量化時代、抽樣時代、開放時代和大數據時代,其中既有小數據的歷史也包含大數據的崛起。《數據之巔》不是概念的闡釋,也不是應用的羅列,區別于他的第一本書《大數據》,涂子沛此次所定義的“巔峰”有三個維度:一是技術維度,即人類使用數據的巔峰形式是讓機器使用數據,通過機器學習實現自動化、智能化,人類社會邁進智能時代;二是政策維度,大數據的建設需要站在巔峰之上的頂層設計,成為“一把手工程”;三是文化維度,登上數據之巔,俯覽數據文明的興起。正如涂子沛在接受經濟觀察報采訪中所強調的,在今天的中國,光有科技的質感還不夠,更要有文化的溫度。
當西方都在強調大數據的核心就是預測時,涂子沛說,“大數據絕不僅僅是信息技術領域的革命,更是在全球范圍啟動透明政府、加速企業創新、引領社會變革的利器”。大數據如今已經作為一個“新潮”的概念進入人們的視野,但絕大多數討論仍然圍繞技術和應用。作為首個將大數據的討論引入中國的觀察者,當被問及在今天的中國,引入大數據最為關鍵之處是什么時,涂子沛強調的并非技術,相反,他認為轉變觀念才至關重要,因為“數據文化是一種行為模式,只要觀念能夠轉變,技術的手段反而是普遍存在的”。而在大數據的應用上,人類的想象力將沒有止境。
雖然書中的故事以美國為主體,但很顯然,中國才是涂子沛真正的著力點。奧巴馬將數據稱為“未來的石油”,視其為“國家核心資產”,而中國在大數據的應用上才剛剛起步。我們正在進入一個資本的社會,科技將把我們帶往何處?涂子沛的答案是:大數據根本的意義是一個標志,標志我們人類向智能社會轉移。而在邁進智能社會的競爭中,數據無疑會成為重中之重。中國的數據文化發展無疑處在后發劣勢,但也正因為數據在這個時代大大地充沛了,也就給后發劣勢向后發優勢的轉化提供了可能。在中國政府如何應用大數據的現實和未來問題上,涂子沛同樣給出了答案。“除了上帝,任何人都必須用數據來說話。”這是涂子沛在2012年7月出版的第一本書《大數據》里的一句話,而今依舊有效。
訪談
問=侯思銘 徐見微 朱天元
答=涂子沛
一個真正公平的社會
首先是個信息社會
問:《數據之巔》是你關于大數據的第二本書,副標題是“大數據革命、現實與未來”,這兩本書有什么關系?從歷史的角度回顧大數據的發展具有怎樣的意義?
答:這兩本書其實是承接關系。我的第一本書《大數據》系統地闡述大數據概念和現實,這本新書則更注重歷史的角度、文化的角度以及探索未來的發展方向。關于大數據的書目前已經有很多,但主要是從技術角度、商業角度來認識,我認為這樣的認識還遠遠不夠,尤其是在中國的環境下。
大數據正在變成一個社會性的話題,我希望它不僅要有科技的質感,還要有文化的溫度,我常常舉一個深海文化論的類比,如果把國家比作海洋,表面上波濤洶涌的便是經濟形勢的風云變幻;海面往下一層是政治,政治處于中海,很難變化;深海是文化,是最穩定難變的東西,但它同時也是一切的基矗目前存在的很多經濟問題、政治問題,歸根結底要到文化上去找原因。
我的第一本書出版后,我在國內不少地方交流、訪問,意識到對中國而言,大數據有其特殊性,不能把大數據僅僅看成一個高大上的技術話題、精英話題,而要把它變成一個大眾話題和大眾思維方式,善于用數據來思考問題、解決問題,中國很缺乏這種數據文化。所以我希望把人類的數據文明梳理一遍,這種梳理,要跳出一談到大數據就想到商業運用的這種局限性。
問:你想推動建立一種大眾數據意識、甚至一種數據文化?
答:對,可以說是數據的意識,也就是把數據不僅應用到工作中、還有日常生活中:用數據說話,用數據管理,用數據決策,用數據創新。文化是一種行為模式,數據應該成為這種大眾行為模式中的一種特質,這集中表現為尊重事實、強調精確、推崇理性和邏輯。
問:你認為一切現象都可以量化?諸如民族復興?
答:準確地說,是一切現象都可以找到量化的方法。量化是科學研究問題重要的手段。只要找到設計出科學的標尺,我們生活世界的各種現象就是可以被測量的,即使抽象的東西,例如生命的價值,愛情的深淺。兩個戀愛中的人每天打了多少次電話,一天擁抱過多少次,就能夠成為有效的指標去標識感情的狀態。而一旦建立一個指標體系和計算模型,就會出來一個測量和計算的結果。
之前有學者提出中華民族復興完成了62%,所有人都覺得這個數值很可笑,先不談這個數字是不是符合實際,但如果認為中華民族復興這樣的工作無法去量化,這是對社會科學的本質的缺乏了解。就像科學是沒有止境的,所以量化也是沒有止境的,即它的準確度可以不斷提高。客觀事實只能無限逼近,科學工作者的任務是設計一把更精確的尺子,然后用它去測量各種現象,誤差永遠存在,但不能因為這把尺子還不夠準就不用尺子。
數據就是靜態的歷史
歷史就是動態的數據
問:你認為數據給歷史的書寫提供了新的可能?
答:是的,數據中不僅蘊含著社會發展的規律,也提供著新的歷史書寫方式。曾經當過美國總統的加菲爾德說過,過去歷史學家總是以總體的形式來研究一個國家,只講述帝王將相和戰爭的歷史,但對于社會中的每個個體的細節及其規律卻說不出什么東西。
數據是比語言文字更精確的描述社會事實的工具。當用普查的手段,以數據的形式記錄下無數社會現實的時候,平民的歷史也被記錄下來。而收集的數據越多,對歷史的記錄就越豐富。隨著我們進入大數據時代,人類的所有歷史記錄,無論是數字、文檔、圖片,還是音頻、視頻,都能以數據的形式存在。所以我說,數據就是靜態的歷史,歷史就是動態的數據,歷史的碎片,就是游離的數據;歷史的迷霧,就是模糊的數據;歷史的盲點,就是缺失的數據。
問:加菲爾德好像還有另外一個觀點:數據即使不能統治世界,但最少也能表明我們這個社會是如何被統治的。但我們今天好像還沒有完全認識清楚這一點。
答:對,這句話表示了加菲爾德所處的時代對數據的認識。他是一個很有意思的人,我稱他為美國歷史上的數據總統,他對人口普查進行了改造,證明了勾股定理。加菲爾德在工作中認識到數據是知識的載體,數據是對客觀世界的記錄。從這種記錄當中我們就可以總結社會運行的規律,總結規律就有助于預測未來。
我們的問題出在哪里?首先還沒有意識到要大規模的去收集數據,然后利用這些數據去研究社會。中國古代的人口普查,或者說叫人口清點,并不是現代意義上的人口普查,它的主要目的是為了服兵役和征稅,是為了控制社會,沒有大規模的把數據應用優化政策制定、改善社會治理的層面。
其次是對數據的尊重,今天的政府決策需要越來越多的數據,但問題是,歷史上我們曾經很不尊重數據,在收集數據的過程中經常扭曲數據,這樣就貽害無窮。
西方文明的建立,數據是一個重要基點。事實神圣,所以數據也不可侵犯。我們今天可能有了一大堆數據,但發現沒法用,歷史上積累下的一些數據難辨真偽。
美國的工作做得更細致,例如,美國一百多年前的議會開會的辯論記錄都電子化了,新議員只要輸入一個主題,就可以看到100多年來美國歷史上的議員對這個政策問題的闡述和討論,這就是一種政治智慧和政策積累,是數據帶來的。
問:在數據積累上,我們是處在后發劣勢的,該如何把后發劣勢轉化為后發優勢?
答:其實我們中國今天也有優勢,中國是個行政執行力非常強的國家,大數據時代的行政執行力非常關鍵,因為數據是人為產生的,大數據本質上是個人為的現象,一切人為的現象都需要頂層設計。例如,數據時代要有數據標準,行政執行能力強,就很容易地統一標準。像美國各個州都是互相獨立的,統一標準就很難。抓住這些,我們就能有優勢。
問:影響這個劣勢向優勢轉化的因素是什么?
答:要看決策者,看大眾意沒意識到這件事情的重要性。要把大數據放到一個國家戰略的高度上衡量。標準的制定應該是自上而下的,自下而上就各定各的標準了。數據最后要整合,不整合就不能產生價值,整合就要標準一致。這是一個關鍵。
在政府應用大數據上
想象力是無限的
問:你會就大數據的相關內容給政府官員授課,發現過什么問題?在授課過程中會不會隨時調整你的授課策略?
答:確實發現過一些問題,現在的很多高級官員,都是上世紀五六十年代出生的,受到年齡和知識結構的限制,他們對信息技術的前沿掌握不夠,但又恰恰是這部分人擁有決策權,所以特別需要改變和推動的就是他們的觀念,普及他們對信息技術和大數據的知識。
還有就是信息化的工作沒有受到應有的戰略重視。前面談到,大數據標志著人類社會要邁進智能型的社會,在這個關鍵點上,我認為信息化工作要成為“一把手工程”。以省為單位,現在很多地區分管信息化的都是副省長、甚至常務都不是,但這一級別其實很多工作推不動的,因為信息化很多方面涉及到職能的重組,數據整合涉及到跨部門的合作和職能調整,副省長是做不了這個主的。
在這個問題上,最近情況已經有所改變,原來中國的信息化領導小組是在國務院,而現在成立了中共中央網絡安全和信息化領導小組,成為了中央的機構,習近平任組長,這就是信息化成為一把手工程的表現之一。這種改變,還要逐步推廣到地方層面。
問:在你的課程中,他們(政府官員)最感興趣的是哪部分?
答:主要是前沿的理論和案例,通過案例知道其他國家是怎么做的,從而能夠為中國社會提供借鑒,那些能夠改善管理水平、服務質量,直接產生社會效益的案例是最吸引人的,還有就是官員們對信息技術如何影響未來世界的走向也十分關心。
近兩年來,政府官員對大數據的認識水平明顯提高了。很多地方的官員都在探索、推動一些大數據的應用,比如國家統計局就在思考,怎么保證層層上報的統計數據的真實性,除了下面報上來的,還要搜集一些其他源頭的數據,因為客觀的真實只有一個,所有不同源頭得出的數據都僅僅是對這個真實的描述,也只能描述事實的一個方面,那么當其中一個來源的描述與其他來源不符的時候,我們就可以知道這個數據很可能是“偽”數據,即多源頭的數據搜集可以證明數據的真實性和可靠性。這叫打造統計工作的“第二軌”。
關于大數據如何引領未來,即未來的走向,我認為大數據標志著我們人類社會向智能社會轉移。從數據到信息到知識再到智能,我們處在一個由信息社會向智能社會轉型的階段。
問:那么你認為信息化的兩個面:數據開放和信息安全之間該如何平衡?
答:現在很多人認為數據開放和信息安全是一對矛盾,其實兩者并不是對立的。數據的開放不一定危及信息的安全。我們既然說數據是資源,是生產資料,就要讓它流動起來,而最有效的流動就是開放數據。
關鍵是要正確、全面的理解開放。開放并不意味著全部的數據要向全世界開放,開放也可以有范圍、有層次,即開放是需要規劃的。我們可以向一個地區開放,向一個群體開放,向一部分人開放。另一個,也不要一提到開放就等同于免費,因為開放也是有成本的,目前在全世界出現了以美國和英國為首的兩種方式,美國的數據開放是免費的,因為他們認為開放取得的收益會遠大于付出的成本。而英國則是收費的,收費的理由是,收費才能更好地維護數據的質量。中國也可以去思考自己該走哪條路,我們甚至可能走出第三條路,就是有些收費,有些免費,只要是符合中國國情的、現實的途徑就好。
問:你強調開放數據的重要性、甚至在這本書中把開放數據的過程比喻成“土壤”上的“河流”?
答:在強調數據的重要性的時候,有人比喻成石油,有人比喻成礦產,都很形象,但我覺得這還不夠,我認為數據是土壤。建設智能社會的重要基礎就是數據,比如谷歌推出的無人駕駛汽車,它就是基于大量數據的基礎之上;比如說農作物種植的自動灌溉,將傳感器埋到土里去測量它的濕度,與空氣溫度結合來決定要不要澆水,都是數據來驅動的。所以說數據是未來智能社會的土壤,土壤質量好不好,數據是否是真實的,質量高的,都將成為競爭的關鍵。
另外一點,如果說數據是土壤,那么開放數據就是河流,人類文明是如何興起的?都是依靠河流,城市也要建在河流的邊上。所以在我們邁入新型社會的同時,要在這塊土壤上開放數據,這塊土壤上的數據文明才會成長。
問:政府目前對大數據的應用有哪些成功的實踐?
答:有不少好的例子,最近我在浪潮集團了解到,青島市政府使用他們的大數據分析系統,在稅收上取得了很明顯的成效,他們利用大數據發現了一些企業少交稅,因此多收了1.47億人民幣的稅收;還有廣東省利用大數據查找套車牌,因為我們大量的交通攝像頭,車牌是可以識別的,交通部門收集了大量的數據中,有同一輛車出現在不同地區的記錄,由于一輛車不可能同時出現在不同的城市,所以出現這種情況的牌照就很可能是套車牌,以此很容易就鎖定一些目標重點查。
問:在大數據的應用上,成功的實踐有哪些共性是可以推廣的?
答:我認為數據上云的做法是成功的前提,是需要推廣的,云是大數據的載體。把數據放在云上,數據才可以被自由的整合和分析。
舉個例子。高速公路的收費站都收集了大量的通車記錄,但這些數據都保存在本地,還沒有發揮可以發揮的作用,如果我們把一個地區所有收費站的數據都放到同一朵云上,那每一個收費站都可以實時分析和整合其它收費站的數據,試想一下,如果一輛車在行駛過B收費站的時候,B收費站就能夠獲得A收費站的數據,我們用兩站之間的距離除以行駛時間,就可以得到其行駛的速度,知道其是否超速進行實時的計算,對一個路段的超速行為進行實時計算、然后處罰。這種監測在技術并非難題,前提就是數據上“云”。
又例如我們的戶籍制度,目前的戶籍制度仍舊是個“死”的制度,即數據放在一個地方、是死的,沒辦法和其他數據整合,但如果政府可以把為市民提供公共服務的一些數據放到云上,就可以把所有市民各種各樣“活”的記錄累積在戶籍條目之下,原來單維度的數據就變成了一個矢量的數據,可以無限放大,這種變化所產生的作用就必然是空前的,那么政府管理社會、服務社會的能力會空前提高,在對大數據的應用上,想象空間是無限大的。
我們一些地區,對于云在公共服務和企業管理中的應用前景認識還不足。我覺得未來網絡服務于人類的主要形式就是云,在通往智能時代的道路上,云應該成為除水、電、氣之外的第四公共部門。
問:那么對于政府提出加快推進全國中小企業征信系統建設,通過大數據等技術優化中小企業征信資質,你怎么看?
答:中國社會的商業文明不夠發達,一個重要的原因就是因為信用體系不夠發達。所以加強征信系統的建設是有戰略意義的。大數據的時代給我們提供了很多新的解決方案,美國用幾十年才把自己的信用體系建立起來,我們今天卻可以把這個時間大大的縮短,因為數據在這個時代大大的充沛了,這就是我們提到過的后發優勢。
信用正在數據化,即通過收集整合各種各樣的數據、然后按一個算法來計算你的信用。不僅有中小企業的商業信用,甚至還可以應用到市民的個人社會信用,比如張家港市,他們就有創新,他們通過租自行車的記錄了解你有沒有按時還車,以此可以對人們的信用記錄做出某種程度上的評估,最終把這些數據變成了社會信用的一部分。
問:你如何看待大數據對財政工作的影響?
答:大數據在財政領域當然也應該會有很大的用武之地,我們剛剛談到了可以擴大稅源,發現偷稅漏稅,另外一個領域,是資金使用效果的評估。我們現在的一個問題是財政部門雖然管發錢,發完就不管了,掌握不了資金的使用效果,因此就應該在發錢的同時對錢的使用結果做好數據收集,通過模型評估出資金使用的績效,以此作為下一步撥款的依據,用得好的可以多給,用得不好的少給甚至不給,這可以大幅提高財政資金的使用績效。
信息技術“拉動”社會進步
問:你提到人類的數據爆炸發生在社交媒體時代,而社交媒體提供的是行為數據,行為數據跟以前的數據相比有何不同?
答:以前的數據是過程數據,它提供一個過程,比如說你去銀行存錢,把這個過程記錄下來的數據就是過程數據。我們今天發生的是以人為主體的數據,過去圍繞過程,現在圍繞人。數據以圍繞人的形式來存在就是說,比如你發的微博(19.66, 0.81, 4.30%)都在你的名下,就叫行為數據。這些數據體現你的行為,你的思想,你的狀態等等。過程數據跟行為數據相比小得可憐了,行為數據產生了巨大的數據增長。人類以前長久積累的數據現在只占25%左右。而行為數據導致人的行為變得越來越可分析,因為人的行為是構成社會根本的東西,所以我認為整個社會就變得可以被計算了。
大數據其實就是大計算,傳統的計算是加減乘除,現在叫數據挖掘,不是簡單的疊加。大數據時代新的計算形式是通過一組規則,由A數據得出B數據。視頻和圖象也是數據,越來越多的問題可以用計算來解決,人類行為被數據化了,社會也就成了計算型社會。
問:在這樣擁有海量信息的大數據浪潮下,政策應如何追上信息技術發展的步伐?
答:在一輪又一輪的技術浪潮下,其實各國政府都是反應遲鈍的。因為信息技術發展到今天,它早已不是在“推動”社會進步,而是“拉動”。現在政策就被信息技術拉著走,社會的其他配套措施跟不上,政策也跟不上,所以往往是出現新技術再改政策,這點美國也一樣,美國版的“滴滴打車”Uber也是經歷了很多爭議,還在修改政策。
問:大數據對人需求的識別有時也會引起一些警惕,比如對隱私的保護。
答:任何技術都是雙刃劍。未來中國的隱私應該要立法的。你要意識到很多東西需要管制,企業不能濫用,你收集數據的目的是什么,那么這個目的就不能用到那個目的上去。人們自己也要意識到數據是自己的權力,你的數據你要能做主。現在美國網站出現很多編輯方式可以限制數據的傳播,你可以對收集數據的網站說不,這就是保護。作為消費者,你同意商家收集你的數據,商家就可以更好地發現、滿足你的需求,你不同意,選擇保護個人隱私,也就放棄了這些服務,現在的問題是這個權力在商家,不在用戶,個人沒有選擇權,未來應該通過法律的形式把這個權力轉移到個人。
問:你也提到內開放3.0會催生人類歷史上前所未有的開放社會,數據和開放之間有著怎樣的聯系?
答:當我們談論開放的時候我們在談論什么?首先是定義開放,開放最核心的東西就是信息,信息的載體就是數據。內開放3.0的時代是數據開放的時代,我們的心態跟以前完全不一樣。原來信息的開放可能是一條一條的,比如我告訴你今天的PM2.5指數是多少,這是一條信息。但我們今天說的開放是整個數據庫的開放,這是機器處理的,你的機器可以立刻和數據庫對接,這是本質差別,也就將是前所未有的開放社會。
數據庫的開放,這個程度跟力度是完全不一樣的,而且開放的目的也不一樣,原來的開放是為了知情權,今天的開放是為了創新。數據的整合能發現新的知識。在大數據時代,數據就是最重要的生產資料,數據在全社會的自由流動,就代表著生產資料的盤活、知識和創新的自由和流動。內開放3.0是數據創新的時代,數據開放是數據創新的基矗