LinkedIn:55人支持2700位員工,2億用戶的大數據分析
作為職業社交網站的鼻祖,linkedIn本質上就是一家通過運營大數據進而產生商業價值企業。從2002年12月創立到2013年初,linkedIn注冊用戶已到2億,平均每秒增加一個新用戶,86%的“財富100強企業”正在使用linkedIn的付費解決方案,270萬個公司主頁在此安家落戶,用戶每年發起超過幾十億次搜索。據悉,在linkedIn上一季度1.61億美元營收中,“人才解決方案”的貢獻已經超過了一半。而與Facebook和Twitter不同,linkedIn相對更為低調,但盈利狀況卻非常不錯。日前,CSDN云計算頻道記者在2013 Teradata大數據峰會上,專訪了linkedIn商業分析部總監張溪夢(Simon Zhang),深入了解linkedIn背后的平臺技術以及通過大數據分析所帶來的商業價值。
數據分析,支撐linkedIn五大部門
隨著企業對大數據分析認識的逐步深入,數據分析已經被提到企業信息構建的議事日程中。但更多企業只是將數據分析作為業務及IT部門的外延或項目管理來定位,鮮有將其作為獨立部門設置,更不要說與研發、產品、市嘗銷售、運營等五大核心部門并列存在。linkedIn反其道而行之,就這么做了。
linkedIn Corp商業分析部總監張溪夢(Simon Zhang)
問:linkedIn是如何定義商業分析部門的?
張溪夢:linkedIn有三大塊業務版塊,一是人力業務,上個季度財報顯示,占營收的53%;;二是市場推廣廣告,大約占27%;三是高級訂閱服務,和linkedIn的會員有關系,占20%。這三大業務都需要數據分析的支持。我所率領的團隊現在55人(目標是60人左右),工作重點是就是對2億注冊用戶通過集成數據架構、BI、數據挖掘和分析,直接支持近2700-3000位linkedIn內部員工(目前linkedIn大約有3500-4000個員工,這意味著滿足70%員工的數據分析)的需求,這些需求覆蓋到研發、產品、市場推廣、銷售和運營等五個主要商業職能部門。
問:為什么這么多內部員工有數據分析的需求?
張溪夢:有人將linkedIn定義為找工作的平臺,但事實上,從linkedIn的數據來看,只有20%的人是比較活躍地在找工作,大約80%的linkedIn用戶主要的商業目的是同其他公司建立聯系/關系。他們希望能夠連接世界上所有的專業人士,使工作更為有效率、更富影響力、更成功。這些需求反映到linkedIn內部,就是五大職業部門都有不同的數據分析需求,且差異很大。
問:構建在數據平臺上,linkedIn的產品如何設計?
張溪夢:對的。linkedIn本質上就是利用數據產生價值。所有的產品設計原理就是從數據分析中獲得”有關人的關系“。舉例來看,linkedIn的會員數據會不斷變化,從中顯然會產生更多有價值的新產品,比如2008年推出的“您可能認識的人”,以及我們現在開發的“您會感興趣的工作、您會認識的人、您可能會喜歡看的等”,這些產品會促進業務增長,增強用戶粘性。而在此基礎上,最核心的業務(占到40%—50%)獵頭業務,作為純數據的業務,目的就是幫助企業找到最適合的、最優秀的人才。在linkedIn看來,保證公司成功最核心的就是人才,從數據中分析人,幫助這些人才成功,是我們不變的理念。
問:這些新產品從數據邏輯原理上看,基本是相同的,彼此有什么區別么?
張溪夢:數據基本原理都是完全一樣的,而本質都是通過數據來發現相關性,進而形成社交網絡(Social Network)。之前linkedIn更多做針對會員的基礎性產品,現在數據平臺已經建成,并獲得利潤空間,是時候做更多深度挖掘的工作了。這些產品彼此之間的交叉分析將是新的產品,如通過人與人之間的關系做不同顏色的區隔,形成多樣性新分析才更具價值。
技術實用主義:開源,閉源都用
即使是極為追求開源技術的互聯網巨頭,也是開源技術與閉源方案都用。因為在他們看來,市場上沒有好產品就自己研發,然后開源出去給更多人分享;市場上有成熟高效的產品,就立即拿來應用。因為,要實現盈利和生存,“快”是最根本的需求。
問:數據分析平臺經歷了哪些變遷?
張溪夢:人與人之間的關聯不僅是線性增長,更多是幾何增長的。比如你認識500人,他們背后各自又有500人的連接,發散下去,三級網絡是500×500×500。而要對這些數據進行分析,幾年以前,用的是傳統數據庫,計算一次要幾天到一個星期;而后用了Aster Date(Aster當時尚未被Teradata收購)來換算數據流,數據量縮短不少;再到遷移到Teradata大數據分析平臺,現在分析比原來基數要大數十倍的數據也僅需要幾個小時,速度是原來的幾十倍。
問:幾天前,我們曾發表文章《Operation InVersion:拯救了linkedIn的大修項目》提到linkedIn去掉原來傳統數據庫,代之以自己開發的Voldermont存儲系統和Kafka消息系統。您怎么看?
張溪夢:對,和其他互聯網企業一樣,linkedIn也崇尚開源。linkedIn是最早使用Hadoop的,無論是增加SQL層實現從Hadoop中抓取數據,還是基于Hadoop的開源安全加密方案,linkedIn幾乎都是第一家提出并落地的。工欲善其事,必先利其器。linkedIn本身也有很多開源工具,但對我們而言,關鍵是要快。有些業務部門跟我說,不要說BI要2個小時,我們就需要5秒內出結果,甚至有些方案,最好一個按鈕就能出來。這類服務,其他企業是根本提供不了的,所以我們都是自己開發。但是另一類,本身就有企業在專業方面做的更好,比如Teradata天睿公司在企業數據倉庫(EDW)中確實是最成熟、穩定、速度也是最快的。那為什么不采用呢?在linkedIn內部大概有25種不同的數據庫和數據解決方案,其中60-70%都是內部開發的,但在數據倉庫方面,通過6個月時間嚴格評測最后選定了Teradata。
問:怎么看待開源和閉源之間的關系?
張溪夢:在技術角度來說,開源和閉源之間是有一個平衡的。開源速度快,但不穩定需要優化;閉源穩定,但反應速度比較慢。linkedIn在互聯網里面技術方面是非常前端的,很多需求倒逼升級,甚至有些需求所需要的技術支持在之前并不存在,所以要去開發。比如,以前開發BI解決方案,需要2秒鐘內得到分析報告,這在市場中根本不存在。我們團隊花了2個月4個人做出來系統,而且是開源的。再舉個例子,統計分析有兩個知名系統,SAS和R。前者穩定,閉源,價格高昂,功能眾多,一般只有大型企業才用得起,而后者是開源的,反應快,不穩定,但在專業領域中很有優勢。現在即使在硅谷,也有很多企業都開始嘗試R,漸漸從閉源移到開源。原因不在技術,而是在人。開源技術的擁護者都是年輕人,隨著年輕人在企業地位的提升,開源技術的采用會更加普遍。這是人和技術之間交互的過程。對開源和閉源方案,我認為就像打高爾夫一樣,不同的球桿有不同的作用,開源有開源的作用,閉源有閉源的好處,如何能夠最好地實現商業目的這是最重要的。不一定是必須要開源,或者必須要閉源。
問:linkedIn的開源產品大部分都回饋到社區了?
張溪夢:很多,linkedIn開源了很多核心的源代碼。比如說以前linkedIn的數據庫,中文名字叫“帥”。這個數據庫非常快,比一般的快十倍左右。linkedIn開發出來以后就直接開源了。還有linkedIn做的DataFu基于Hadoop統計學庫,其中有很多Hadoop應用,還有一些“你可能認識的人”的算法,全部開源到Hadoop系統中了。現在很多人都在用。
新模型:從金字塔到菱形
linkedIn內部數據增長在1000倍左右,但是數據價值并非同數據量增加呈線性對應關系,有時候,甚至是因為數據量增加使得價值降低了。舉個例子,數量增大,硬盤增大,存儲成本必須增加,但系統速度會變慢,以前一個分析或者需要一天,現在同樣的分析則需要一周。但增加的價值不足以抵消成本的增加時,壓力會非常明顯。所以,linkedIn構建了一套新模型,從金字塔變成菱形,面積縮小一半,真正將大數據做小,實現團隊快速運行。因為對決策團隊而言,真正有價值的數據也許只有1K—幾十K。用語言描述就是實現“是還是不是,做還是不做,什么時候做,做什么。”
問:從金字塔到菱形,技術上看,如何做到的?
張溪夢:linkedIn以前的整個分析結構是一個金字塔形結構。基礎是公司的業務,比如說linkedIn會員數據是底層基矗其上是linkedIn產品、市場推廣、銷售、運營等基本核心業務,再上面分別是產品追蹤、數據和數據質量管理、專題分析、商業智能與報告、深度分析,最后才是商業洞察,決策。這個寶塔是一個非常慢的過程,越在底下花的時間越多,但真正有價值的是最后這幾個步驟。但是,這顯然與linkedIn快哲學不同。要快,就要改變這個模式,所以我們將大金字塔做成菱形。從數學上看,一個等邊三角形,把它變成了一個對等的菱形的話,面積縮小一半。也就是說,用技術把底做小,用機器和科技為人服務,人的智慧主要集中在上面這種結構,比如深入分析、決策支持。這個階段已經被證明是高效的,我剛開始加入linkedIn,每天從早晨8:30工作到半夜兩三點,一周工作6天,一年只不過出500個報告,支持不到200人,平均每年幫助每人1-2次;但現在,我的團隊每人每天就能幫助別人10次。我們的效率提升了500-1000倍,現在團隊50多人,可以支持3000人的工作。而下一階段,將再次變小,將菱形變成球形,用滾雪球的方式帶來更大價值。
問:底層分析是系統/機器來做?
張溪夢:是的。數據本身沒有意義,有意義的是其中的分析。現在研發、產品、市場推廣、銷售和運營等部門不需要找分析師,通過系統就可以直接拿到需求報告(PPT格式方案),而團隊的工作是分析核心數據,做決策建議。可以這么來定位,就是歷史上姜子牙、司馬懿、房玄齡這些謀略和決斷的支持部門。。
問:國內的技術開發者和國外的技術開發者的區別?
張溪夢:我們在能力、智慧等方面一點都不比海外的頂尖分析師差,相反,在執行上,還非常非常有效率。但唯一的一個差異,我認為是創新性。真正自主研發的創新產品,有些創新實際上就是長期積累下來的靈光一閃。我看到國內很多企業的技術很是優秀,尤其是互聯網企業。但現在關鍵是想不想分享,怎么分享?團結的力量很大,但是封閉、保守永遠會被歷史淘汰。要通過新技術引領企業先前走,進而成為中國獨樹一幟的技術的先鋒。我的團隊現在平均30歲左右,是非常年輕的隊伍。包含印度人、中國人、美國人、德國人,全世界各地的人都有。
興趣+勤奮+長遠規劃,做喜歡的事情
學之者不如好之者,好之者不如樂之者,興趣是最好的老師。天津腫瘤醫院的外科醫生到linkedIn商業分析部總監,張溪夢一步步地發展,從睡在地上,到睡在箱子上,再到如今睡到大床上。他告訴年輕人,做自己喜歡的事情最重要。
問:從天津腫瘤醫院的外科醫生到linkedIn商業分析部總監,您本身的經歷就很有故事性。談談您對職業變化的感受吧?
張溪夢:學之者不如好之者,好之者不如樂之者,興趣是最好的老師。作為數據科學家,我見過很多名校畢業的,他們研究物理、化學,想成為數據科學家,我對他們的建議是不要因為現在的數據科學家這個詞匯非常熱門,就要變成這個產業里的一員,我覺得這樣的人往往最后不一定能很成功。想成功的話,需要有強烈的興趣,非常勤奮,并有長遠的目標。講個小故事,我去美國的時候什么最火爆?護士最火爆,一年就能拿到綠卡,只要進去考個試就有綠卡了。很多人就說,你有醫生的背景干脆去考護士吧。我當時就說我不去,因為我不感興趣,這與長遠目標不吻合。結果學護士現在都要等15年才能拿到綠卡,因為學的人太多了,醫院都占滿了。
問:對年輕的技術人員的建議?
張溪夢:我喜歡計算機、互聯網、玩游戲、看雜志。到美國學了MBA,并創業(失敗了),再到eBay和linkedIn。其間開始學數據庫和網絡編程。一步步,從睡在地上,到睡在箱子上,再到如今睡到大床上。我的經歷中得到了很多朋友的幫助,也希望將自己經歷進行講演同大家分享。美國做過相關調查,15%的人喜歡他的工作,85%不喜歡他的工作。現在,我在上海也招了很多人。因為我認為,年輕人應該做自己喜歡做的事情。