移動互聯網將成為大數據應用的主戰場
2013年4月18-20日,第四屆中國數據庫技術大會(DTCC 2013)在北京福朋喜來登酒店拉開序幕。在為期三天的會議中,大會將圍繞大數據應用、數據架構、數據管理(數據治理)、傳統數據庫軟件等技術領域展開深入探討,并將邀請一批國內頂尖的技術專家來進行分享。本屆大會將在保留數據庫軟件應用實踐這一傳統主題的基礎上,向大數據、數據結構、數據治理與分析、商業智能等領域進行拓展,以滿足于廣大從業人士和行業用戶的迫切需要。
自2010年以來,國內領先的IT專業網站IT168聯合旗下ITPUB、ChinaUnix技術社區已經連續舉辦了三屆數據庫技術大會,每屆大會超過千人規模,云集了國內技術水平最高的數據架構師、DBA、數據庫開發工程師、研發總監、IT經理等,是目前國內最受歡迎的數據庫技術盛會。
當大數據還在被我們冠以新技術,討論新的趨勢的時候,人人游戲已經走在了實踐的前列,給我們帶來了更多關于移動互聯網與大數據相結合的實戰經驗。人人游戲首席數據科學家 陳繼東現場表示:從企業的需要對結構化數據的管理需求,目前是非常成功的IT技術。現在數據不再被刪除而是需要被保存下來,除了查詢還需要挖掘價值,對數據的處理和分析遠遠大于數據的查詢。但是也面臨著諸多的問題:數據越來越大,PB的數據關系型數據庫同樣非常難處理,對非結構化的處理很難,而且對數據的分析做的并不好,這些都需要進行不斷的改進。
▲人人游戲首席數據科學家 陳繼東
越來越多的信息能夠得到和生活相關的數據,而且都能記錄。基礎的架構很廉價,能夠很好的存儲數據。良好的伸縮性強的基礎管理架構,云計算提供了很好的架構,基礎的管理等等。
▲數據管理發展趨勢
▲大數據整體框架
大數據關鍵技術和工具
從信息生命周期的角度梳理大數據的關鍵技術和工具。當我們把數據收集之后需要存儲,也可以存儲在分布式文件系統中,并行數據庫中,和NOSQL中,甚至直接在數據庫中處理都可以。流式處理和主內存是流行的趨勢: 延時性校
關鍵技術包括:
Mapreduce VS 并行數據庫
MapReduce最早是谷歌做大量非結構化網頁的爬取的需求下出現的。數據庫和Mapreduce相比的的缺陷是模式不靈活。
•當前并行數據庫的問題
–擴展性:需要擴展到上千臺節點
–容錯性:需要改進容錯,更細粒度,更高效率
–靈活性:需要Scheme free的處理,更好適應非結構化數據
–成本:更多開源實現和外圍開源工具
•MapReduce類方案的問題(Hive)
–性能:當前為次優的實現,增加索引和查詢優化
–實時處理能力:實時加載,實時復雜查詢能力
–標準的SQL接口:應用遷移,與DW透明訪問
–更豐富的外圍工具:OLAP工具,自助分析工具
NoSQL VS SQL
定制化查詢 NoSQL很好的方案比Mysql集群要強很多。數據庫的趨勢是如何做深入的分析,如何將數據挖掘和機器學習并行化。大數據的趨勢:線性模型+簡單的特征要比復雜的模型+簡單的特征要好,現在是一個特征的工程。
•NoSQL的特點
–高可擴展性和彈性, 靈活數據模型, 強容錯, 高可用性(犧牲ACID,單記錄事務和最終一致性)
–適用于海量數據定制化存儲,高吞吐查詢(如全屬性選擇應用)
•SQL的特點
–強大的語義表達及關系表達, 查詢處理和優化,ACID, 強一致性
–擴展性和靈活性差,用于高性能查詢和復雜分析
▲NoSQL VS SQL
移動大數據應用
人人游戲首席數據科學家 陳繼東認為,移動互聯網將成為大數據應用的主戰場,主要體現在:1、移動大數據核心載體,智能設備普及。2、高寬帶引流大數據,手機使用3G和Wifi接入互聯網。3、移動大數據聚集地,Android和iOS成為主流OS。4、移動大數據源頭和關鍵節點,移動互聯網入口:搜索,移動瀏覽器,移動應用/商店,移動廣告;海量的獨立移動應用,對深入分析的需求更強。
通過大數據分析增強用戶體驗,用戶希望采用語音或者手勢進行輸入,后臺對于非結構化海量數據的分析非常重要。因此,數據驅動未來差異化發展,同時也會引發用戶對個性化需求。互聯網企業和移動互聯網企業都在討論數據驅動運營,以及移動互聯網的競爭營銷,借助對用戶的分析可以做到。
另外。對空間和時間維度的擴展,碎片化也是一個非常重要的特點。數據量更大,維度更高,數據量遠超過互聯網。包括設備信息,上網方式,種類紛繁復雜。
移動大數據數據的特點
1、數據的核心節點是人而不再是終端、網頁或ID
2、數據量更大,種類更多,覆蓋更廣(時空擴展)
3、更多個性化屬性,如用戶地理位置,設備屬性
4、不受限于瀏覽器cookie,數據更穩定長久,更干凈準確
5、用戶行為數據更碎片化,更實時性
數據的節點是人而不是終端設備,移動互聯網中沒有cookie,移動的核心節點不再是ID,而是設備,因此確定到某一個人。
移動大數據分析的挑戰主要體現在:
1、采集數據補償
2、大數據實時處理與深入分析
3、用戶時空行為模式的挖掘和利用
4、跨應用跨平臺跨設備多維數據分析
▲移動廣告分析的典型架構