大數據的未來在物聯網 BAT誰第一個嘗到甜食?
零售銀行為了給客戶提供更加優質的服務,需要通過分析銀行系統本身數據庫所保留的客戶資料信息,對客戶進行分類管理。
近年來,大數據已成為科技界和企業界關注的熱點,越來越多的企業和研究者正在關注大數據的應用。大數據的分析與挖掘技術在科學界正在如火如荼的展開,各種大數據的新算法被開發研究出來,例如近年來發展比較完善的一種數據分析挖掘算法支持向量機。
與此同時,大數據分析在商業中的運用受到人們的追捧,各種大數據在商業中成功運用的案例層出不窮,比如美國大型零售商target公司的廣告精準推送。本文將對大數據分析技術以及大數據分析技術在零售銀行行業的作用進行一番探討。
什么是大數據
2011 年,麥肯錫在題為《海量數據,創新、競爭和提高生成率的下一個新領域》的研究報告中首次提出大數據的概念。報告認為數據已經滲透到每一個行業和業務職能領域,數據中蘊含著巨大的價值,這些價值將導致數據成為重要的生產因素。2012年《紐約時報》的一篇專欄中寫到,“大數據”時代已經降臨,在商業、經濟及其他領域中,最終決策將日益基于數據和分析而作出,而并非基于經驗和直覺。2012年3月,美國奧巴馬政府宣布投資2億美元啟動“大數據研究和發展計劃”,這是繼1993年美國宣布“信息高速公路”計劃后的又一次重大科技發展部署。美國政府認為大數據是“未來的新石油”,將“大數據研究”上升為國家意志,對未來的科技與經濟發展必將帶來深遠影響。
進入21世紀,互聯網的興起促成了數據量的大規模增長。互聯網時代,幾乎全民都在制造數據,與此同時,數據的形成也極其豐富。一方面,既有社交網絡、多媒體、協同創造、虛擬服務等應用所主動產生的數據;另一方面,又有搜索引擎、網頁瀏覽過程中被記錄、被收集的數據。該階段數據的特點是用戶原創、主動、交互。
根據國際數據公司(IDC)的研究報告,2011年全球被創建和被復制的數據總量為1.8ZB(數據存儲單位,澤字節,等于1024艾字節或270個字節),且增長趨勢遵循新摩爾定律,預計到2020年,全球數據量大約每兩年翻一番,全球將擁有35ZB的數據量。正是由于信息技術的發展,大數據才能生成和發展。大數據技術正是從海量的、多樣化的數據中,快速獲得有價值信息的能力。
大數據指的是所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截娶管理、處理、整理成為人類所能解讀的信息。在維克托?邁爾-舍恩伯格及肯尼斯?庫克耶編寫的《大數據時代》中,大數據分析是指不用隨機分析抽樣調查的方法,而采用對所有數據進行分析的方法。
基于目前對大數據的認識,通常認為大數據具備了4V特點,即Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。這四個特點從四個方面描述了大數據分析技術:第一,數據體量巨大。從TB級別到PB級別,甚至躍升至EB乃至ZB級別;第二,數據類型多樣。包括網絡文本、日志、視頻、圖片、地理位置信息等各種結構化和非結構化的數據都有,一切信息皆為數據。第三,處理速度快。利用各種大數據分析工具,比如hadoop和SPSS,可從各種類型的數據中快速獲得高價值的信息,這一點和傳統的數據分析技術有著本質的區別。第四,只要合理利用數據并對其進行正確、準確的分析,挖掘出數據內部隱藏的相關關系將會帶來很高的價值回報。
與傳統的邏輯推理研究不同,大數據研究是對數量巨大的數據做統計性的搜索、比較、聚類和分類等分析歸納。大數據分析比較關注數據的相關性或稱關聯性,所謂“相關性”是指兩個或兩個以上變量的取值之間存在著某種規律。“相關分析”的目的是找出數據集里隱藏的相互關系網(關聯網)。因此大數據是側重找出相關關系而不是找出因果關系。也許正是由于大數據分析側重于尋找相關關系,才促使大數據分析技術在商業領域廣泛應用。商業的運用在于盈利,因此只要從數據挖掘中發現某種因素與增加盈利有較強的關聯性,然后全面開發該相關因素就行。
大數據分析建模的基本思路技巧
有了大量數據之后,下一步就是分析這些數據,期望通過合適的數據分析挖掘技術建立模型找到蘊藏在數據下面的客觀規律。大數據分析技術經過這么多年的發展,已經形成了一些分析建模的基本思路。CRISP-DM(即“跨行業數據挖掘標準流程”的縮寫)是一種業界認可的用于指導大數據分析挖掘工作的方法。
CRISP-DM認為在大數據分析中存在一個大數據分析挖掘生命周期模型。在這個生命周期模型中存在著商業理解、數據理解、數據準備、建立模型、模型評估和結果部署這六個階段。圖1中展示了這六個階段的關系,其中箭頭的多少表示各個階段間依賴關系的使用頻率和重要程度,每個階段之間并不一定要嚴格遵守順序。實際上,大多數項目都會根據需要在這些不同的階段之間來回移動。
商業理解通常是指理解業務的實際類型,業務上的實際問題并且嘗試盡可能多地了解數據挖掘的業務目標。數據理解是指數據理解階段包含深入了解可用于挖掘的數據,此過程包括初始數據的收集,初始數據的描述以及數據質量的驗證。數據準備是數據挖掘最重要的階段之一,通常需要花費大量的時間。據估算,實際的數據準備工作通常占50-70%的項目時間和工作量。
數據準備通常包含以下任務:合并數據集和記錄、選擇數據子集樣本、匯總記錄、導出新的屬性、排序數據以便建模、刪除或替換空白值或缺失值、分為訓練數據集和測試數據集等。經過數據準備,下一階段就是建立模型。建模時通常會執行多次迭代,選擇合適的模型算法,運行多個可能的模型,然后再對這些參數進行微調以便對模型進行優化,最終選擇出一個最佳的模型。在模型評估階段,需要對項目結果是否達到業務成功標準進行評估。此步驟的前提條件是對聲明的業務目標有清晰的了解,因此在前期的商業理解越發顯得重要。模型評估完成之后就進入到結果部署階段,在該階段就是將前期選擇出來的最佳模型應用到實際業務中去,并得到最終報告。
大數據分析通過預測未來趨勢及行為,做出知識的決策。大數據分析挖掘的主要目標功能有以下幾個:
第一,自動預測趨勢和行為。數據挖掘自動在大型數據庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。比如在GOOGLE流感分析案例中預測流感爆發的時間和地點。
第二,關聯分析。數據關聯是數據庫中存在的一類重要的可被發現的知識,若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯分析旨在找出具有強相關關系的幾個屬性。典型案例是啤酒和尿布的關聯分析,關聯分析經常用在電子商務的產品推薦中。
第三,聚類。數據庫中的一些相類似的記錄可以劃歸到一起,即聚類。聚類常常幫助人們對事物進行再認識。在社交網絡分析中經常用到聚類技術。
大數據分析技術經過這幾年的發展,已經形成了一些比較成熟穩定的模型算法。常見的模型算法有關聯規則分析(Apriori)、決策樹、神經網絡、K-MEANS聚類、支持向量機、多元線性回歸、廣義線性回歸、貝葉斯網絡、Cox以及K近鄰等。這些算法模型有的適合預測趨勢和行為,有的適合關聯分析,有的適合聚類分析;每種模型算法都有各自的優劣性,我們可以針對不同的場景選擇合適的算法模型進行大數據分析挖掘。