紫金研究| 信息數據研究思考:誰會成為一家人工智能公司?

紫金財經8月31日消息 數據時代,數據比人類更了解人類,而信息數據又反過來影響我們人類,因為傳播中的信息影響著人類對事物的認知和決策。大量的傳播數據通過重新聚類關聯,再經過一些分析方法,就可以得出很多未知或者已知而過去無法驗證的結果。
比如,早在2008年的時候,Google推出一款預測流感的產品,他們認為,某些搜索詞有助于了解流感的情況,而這些搜索數據可以近乎實地的對流感情況做出預測。
而這樣的產品,正是應用了關鍵詞之間的傳播關聯關系。其實除了搜索詞,同樣在網絡中傳播的信息也一樣可以通過信息顆粒化,做更多的研判預測以及洞察到更多未知信息。
最近整理了一些科技網站上的新聞信息,通過技術切詞和我們的研判模型做了個小實驗。
實驗要解決的問題是,究竟哪家公司更能成為人工智能的公司。在數據分析結果出來之前,以我個人淺薄的互聯網認知,預感Google未來會是一家人工智能的公司。然而結果卻出乎我的意料,甚至是與預料大相徑庭,我們一起來看下這個實驗過程:
【數據治理方法】
我們將整理的所有新聞信息中含有人工智能相關詞的信息標注出“人工智能”標簽,同時將每條信息中包含的科技公司主體提取出來。當然這中間要涉及外文詞匯的翻譯和整理,同時提取與專利、新品、機器人等相關的信息,做另一個結論分析用。最后幾組數據交叉比對。可以得出很多結果。
【分析過程及結果】
1,提出問題,在眾多的科技公司中,誰會成為人工智能的公司?將所有信息中含有人工智能標簽的數據做提取并統計。
2,得出上述問題的結論需要兩個條件,新聞報道中含有人工智能及這家公司。當然人工智能判定詞與主體的距離也要計算,以便確保數據的精準。
3,開始數據可視化,我們將統計的數據結果,按照信息量做排序。則所有含有人工智能標簽的信息中,人工智能判定詞與主體詞(科技公司主體)同時出現的數據做排序。
4,得出結果:我們按照這兩組數據同時出現的信息量做主體量的排序。得出結論如下:
下表中,與含有人工智能同頻出現最多的科技公司有:華為、微軟、騰訊、蘋果、小米、特斯拉、谷歌……這個結果跟我起初預判的結果還是相差很遠。(圖1 )
【可以延伸的問題】
用同樣的方法,我們又做了與專利相關的信息數據排行,這個數據可以表明,誰是擁有專利最多,或者更在意專利,或者說與專利更有關系的科技公司。如圖2所示,在專利相關信息中,最多的交叉信息是院校合作相關的信息,另外就是芯片(這里可以更深度的分析芯片與專利之間的細化數據,此處不做贅述)
而同時提及的科技主體有:蘋果、華為、特斯拉、微軟、騰訊、阿里、京東、小米、谷歌……
同理,所有提及機器人的信息中,則微軟、華為、特斯拉、蘋果、小米、騰訊、京東的信息數據會更多。
以上是我們的實驗室團隊前不久做的一個小課題,跟同行交流的時候提起,就想把研究方法跟大家分享一下,希望致力于此的同行朋友可以有所啟發。
所有數據樣本均為近一年來的新聞報道數據,數據總量大概幾十萬條,覆蓋海內外科技媒體30多家。
鑒于數據樣本本身不夠還不夠全面,以及翻譯水平、數據顆粒細化算法的粗糙等問題,本文中的結論數據僅供參考。我們主要是想將研究方法與大家共享,為未來科技信息深度洞察提供一些參考。(公子段 勝泰信息合伙人,熵音科技傳播數據實驗室首席研究員)