從LinkedIn看大數據挖掘應重視的四個變量
編者按:linkedIn作為一家職業社交網站,通過人才招聘、廣告投放、付費訂閱等服務實現了盈利,這三項創造盈利的服務背后實際上都有著大數據挖掘技術的重要貢獻。linkedIn商業分析高級經理李玥(Michael Li)日前在Teradata天睿公司舉辦的“2013 Teradata大數據峰會”上接受新浪科技《創事記》專訪,介紹了一些linkedIn進行數據挖掘的方法論。以下是對話摘要:
創事記:能否簡要介紹一下linkedIn?
李玥:linkedIn是一家面向商業客戶的社交服務網站,2003年正式開通啟動,距今已經10年的歷史。2011年5月份,linkedIn在美國納斯達克上市。目前市值接近200億美元。
linkedIn基本上有三個比較主流的商業模式:第一個渠道是人才招聘解決方案,最主要是解決公司招聘和人員求職的供需關系,這部分業務貢獻了超過50%的收入;第二是,廣告業務,企業可以在linkedIn網站上瞄準不同人進行廣告的精準投放;第三是,高級付費訂閱服務,linkedIn會提供更高級的產品,用戶在付費訂閱之后,可以利用高級數據提高工作效率。
創事記:linkedIn中國現狀是怎樣的?
李玥:關于中國的策略,我能說的非常非常有限,因為linkedIn還沒有正式進入中國市常現在我們在中國有超過300萬注冊用戶。linkedIn非常了解,中國是一個非常非常有潛力的市常我們在探索到底應該是以怎樣的方式進入中國,但是現在沒有定論。我們最終的目的是讓中國的職業人員能夠在職場上更成功,這一點準則不會有任何變化。
創事記:linkedIn的數據分析團隊的工作是什么?
李玥:這個團隊在linkedIn上市前一年(2010年)開始創建,兩年之內團隊已經達到50人。這是在linkedIn里面成長最最快速度的團隊,現在我們還在不斷的成長當中。我們的責任范圍最大的一部分就是支持所有與linkedIn運營盈利相關的服務。現在linkedIn有近4000名員工,70%的人是通過我們來提供服務的。
我們的團隊組成是:一個數據采集的專門團隊,一個專門做數據挖掘的團隊,在這之上我們還有分析的團隊和每個商業渠道掛鉤起來,這樣會更接近他們的業務。
我們跟linkedIn所有相關的職能部門一起合作,包括銷售部門、市場營銷部門、產品部門、工程部門,還有運營部門。我們所有的數據挖掘全部是通過一個技術平臺做出來的,但是在這之上,會對不同的商業應用、商業需求單獨去做處理。
創事記:每次商業分析需要處理多大的數據?
李玥:一般的數據處理起來,至少要到TB(1TB=1024GB)的水平。比如說,我們做一個預測的模型,基本上要準備的數據達到幾個TB,然后再做數據挖掘,最后做出最后的預測。最后的預測可能看起來很簡單,比如說是Yes或者是No,但是后臺數據采集、數據處理,創建模型是要花費很多很多時間。
創事記:linkedIn如何獲取這么多的數據,這些數據都是免費的嗎?
李玥:很多的數據實際上是linkedIn本身的數據。我們有自己的用戶,他們每天會在上面發布不同的信息,會更改自己的數據。我們也會花錢獲取其他數據。根據商業需求不同,我們會跟業界比較知名的數據服務商來合作,比如Gartner。
創事記:linkedIn大數據解決方案采用哪種基礎架構?
李玥:linkedIn整個數據分析解決方案里主要有三個非常重要的組成部分,一個是Teradata數據倉庫解決方案,它支持很多報表系統,可靠性高;第二個是Teradata Aster,Aster有很多已經設置好的函數,可以讓分析更簡單、更快速,而且讓我們做大量分析時,變得更有效率;第三部分就是Hadoop,應用于真正特別巨大的數據處理和存儲。我們將這三種產品和平臺作為一個整體,在此基礎上做出集中的數據結構架構。Teradata為客戶提供是企業級解決方案,有專門為大公司設計定制功能,而且在這個系統里起著非常重要的作用。
創事記:能否舉一個簡單的大數據挖掘案例?
李玥:在做分析和預測的時候,怎么樣的一個過程才能做出對將來最好的預測?我舉一個例子。比如說,市場營銷過程中你想去給特定的人群發一些消息,說我給可以給你們你一些優惠,讓你們去購買某些產品。但你怎么知道有哪些人會更傾向于去接受你的信息,或者說接受你的介紹?那我們就會看,以前發生的事情。
了解以前發生的事情,了解為什么這些事情會發生,以及它背后的原因,然后再用這些去解釋將來會發生的事情。總體上就是這樣一個大的方法。
創事記:linkedIn在做大數據挖掘時會重點參考的變量是什么?
李玥:一般性我們看三大塊。一塊是,所有用戶相關的屬性。比如說你是男性還是女性,年齡是多少,或者說工作方式是什么,在哪家公司,在哪個行業,在哪個地點。這些數據就是相關信息。這些信息基本上屬于一種比較靜態的東西,也是所有行業到現在為止,可能最成型的一種數據變量。這一塊我們看得最多。
然后是用戶的行為數據。很多公司逐漸看到這部分數據,但以前并沒有太重視。比如說,我決定去買一個投影儀,我可能之前會做很多很多的事情,最后才會決定買它。如果只是看我買它的一條記錄,那么它只是一條數據記錄,但是之前為什么決定買這個東西,可能會有幾千條、幾萬條不同的信息記錄下來。
這里邊就有很多不同的東西,包括你是不是某一種一系列的行為,才導致最后的購買決定。這一塊數據量上要大很多,從分析量上來講,難度也高很多。但根據我們的經驗,這個對你的預測的準確性貢獻,其實也增加了很多很多,所以這一塊是非常非常重要的。
第三塊是,與社交網絡相關的信息。它對你的預測也會造成非常非常大的影響。舉個例子,你在linkedIn上或者Facebook、微博上,跟你相似的人往往會做出與你接近的決定。一個最原始的理論,物以類聚,人以群分。跟你相連接的這些人,往往他們喜歡的東西,或者他們做過的事情,是你以后可能會去做的。
根據以往的經驗,你連接的人當中,已經做過這些事情,如果我告訴你他們做過這些事情的話,你會更加的可能也會做這些事情。
創事記:還有其他變量么?
李玥:這三大變量基本組成了我們看的最多的數據。當然每一個分類里面,又會有很多很多的數據。其實我們會花很多的精力去采集這些數據,然后不斷地擴充我們的變量倉庫。因為隨著數據的增加,預測的準確度也會越來越高。
此外,時間序列也是非常重要的。很多時候你做的這件事情離現在有多久,會對你的預測產生很大影響。比如說,我在網站上看了一個投影儀相關的描述。如果你第二天就跟我說,我會給你50%的折扣,那我買下的可能性是很大的,因為我有很大的興趣。如果一個月之后,您再來問我,我可能就沒有很大的興趣了。這只是一個方面,但在整個時間序列里面,多久之前發生這件事情很重要。
另外,在整個時間序列當中,行為的變化也很重要。比如說,我看這個投影儀的介紹,如果我以前是一個月看一次,但我最近變成一個禮拜看一次,或者說變成一天看一次,整個時間序列就能告訴你,我的關注點是不斷增加的。所以時間序列里的這種模式也非常重要。