如何平衡數據挖掘與隱私保護的關系
大數據領域的計算能力突飛猛進,要做到“大海撈針”不僅是可能的,而且已經成為現實。大數據技術使得數據科學家能夠聚集海量數據,并且能夠從中識別出異常點與數據模式。在這種模型中,為了找到針,你得先有大海;為了作出準確的判斷,你所需要的信息量得足夠大。
例如,麻省理工學院Broad研究所的基因科學家發現,海量的基因數據在識別遺傳變異對疾病的影響中有著至關重要的作用。當樣本的數據量“達到某個拐點時,一切都變了”, 統計學上的意義便突然顯示出來。但是,對于更多數據的獲取,尤其是像基因數據等私人敏感的數據,由于各種原因,對于這些研究者來說已經成為一個巨大的挑戰或者負擔,其中一個主要的原因就是美國的隱私法律限制了他們對數據的訪問。另一位醫療行業的科學家指出,大數據很有可能幫助醫療人員在更短的時間內作出更加精確的診斷,并且很可能在關鍵的時候救人一命。
知識挖掘、機器學習、人工智能等技術的研究和應用使得大數據分析的力量越來越強大,同時也對個人隱私的保護帶來了更加嚴峻的挑戰。當數據起初是與某個具體的人或者設備相關聯時,一些隱私保護技術可以設法去除數據與個人身份之間的連接;同時,另外一些技術在努力地把這些斷開的連接復原。當知道一個人所關聯的一些信息,就可以從不包括其個人識別信息的數據中推斷出這個人的身份標志。
一些大的互聯網公司能夠將大量數據結合在一起,從而構造出某個人清晰的行為圖譜,進而預測他們的偏好與行為。這些數據在消費者市場上非常有價值,它能夠精確地向確定的一些人主動推送某些產品或者服務。不幸的是,這種“完美的個性化”也會在價格、服務與機會方面造成微妙的或是不明顯的歧視,有可能對個人造成真實的傷害。
萬維網的發明者Tim Berners-Lee教授認為,“斯諾登事件”之后,人們對互聯網的隱私保護問題越來越關注,由于政府和一些大公司對在線活動的控制,使得互聯網的開放性和獨立性受到了嚴重的威脅。他呼吁制定一個權利法案,以保護互聯網的獨立性,并確保用戶隱私不受侵犯。
由此可見,數據挖掘和隱私保護之間的技術博弈已經成為常態;僅靠技術手段保護用戶隱私,是遠遠不夠的;未來,隱私保護或許會變得十分昂貴。