紫金研究| 信息數據研究思考：誰會成為一家人工智能公司？

發布者：劉同 2021-08-31

導讀數據時代，數據比人類更了解人類，而信息數據又反過來影響我們人類，因為傳播中的信息影響著人類對事物的認知和決策。大量的傳播數據通過重新聚類關聯，再經過一些分析方法，就可以得出很多

紫金財經8月31日消息數據時代，數據比人類更了解人類，而信息數據又反過來影響我們人類，因為傳播中的信息影響著人類對事物的認知和決策。大量的傳播數據通過重新聚類關聯，再經過一些分析方法，就可以得出很多未知或者已知而過去無法驗證的結果。

比如，早在2008年的時候，Google推出一款預測流感的產品，他們認為，某些搜索詞有助于了解流感的情況，而這些搜索數據可以近乎實地的對流感情況做出預測。

而這樣的產品，正是應用了關鍵詞之間的傳播關聯關系。其實除了搜索詞，同樣在網絡中傳播的信息也一樣可以通過信息顆粒化，做更多的研判預測以及洞察到更多未知信息。

最近整理了一些科技網站上的新聞信息，通過技術切詞和我們的研判模型做了個小實驗。

實驗要解決的問題是，究竟哪家公司更能成為人工智能的公司。在數據分析結果出來之前，以我個人淺薄的互聯網認知，預感Google未來會是一家人工智能的公司。然而結果卻出乎我的意料，甚至是與預料大相徑庭，我們一起來看下這個實驗過程：

【數據治理方法】

我們將整理的所有新聞信息中含有人工智能相關詞的信息標注出“人工智能”標簽，同時將每條信息中包含的科技公司主體提取出來。當然這中間要涉及外文詞匯的翻譯和整理，同時提取與專利、新品、機器人等相關的信息，做另一個結論分析用。最后幾組數據交叉比對。可以得出很多結果。

【分析過程及結果】

1，提出問題，在眾多的科技公司中，誰會成為人工智能的公司？將所有信息中含有人工智能標簽的數據做提取并統計。

2，得出上述問題的結論需要兩個條件，新聞報道中含有人工智能及這家公司。當然人工智能判定詞與主體的距離也要計算，以便確保數據的精準。

3，開始數據可視化，我們將統計的數據結果，按照信息量做排序。則所有含有人工智能標簽的信息中，人工智能判定詞與主體詞（科技公司主體）同時出現的數據做排序。

4，得出結果：我們按照這兩組數據同時出現的信息量做主體量的排序。得出結論如下：

下表中，與含有人工智能同頻出現最多的科技公司有：華為、微軟、騰訊、蘋果、小米、特斯拉、谷歌……這個結果跟我起初預判的結果還是相差很遠。（圖1 ）

【可以延伸的問題】

用同樣的方法，我們又做了與專利相關的信息數據排行，這個數據可以表明，誰是擁有專利最多，或者更在意專利，或者說與專利更有關系的科技公司。如圖2所示，在專利相關信息中，最多的交叉信息是院校合作相關的信息，另外就是芯片（這里可以更深度的分析芯片與專利之間的細化數據，此處不做贅述）

而同時提及的科技主體有：蘋果、華為、特斯拉、微軟、騰訊、阿里、京東、小米、谷歌……

同理，所有提及機器人的信息中，則微軟、華為、特斯拉、蘋果、小米、騰訊、京東的信息數據會更多。

以上是我們的實驗室團隊前不久做的一個小課題，跟同行交流的時候提起，就想把研究方法跟大家分享一下，希望致力于此的同行朋友可以有所啟發。

所有數據樣本均為近一年來的新聞報道數據，數據總量大概幾十萬條，覆蓋海內外科技媒體30多家。

鑒于數據樣本本身不夠還不夠全面，以及翻譯水平、數據顆粒細化算法的粗糙等問題，本文中的結論數據僅供參考。我們主要是想將研究方法與大家共享，為未來科技信息深度洞察提供一些參考。（公子段勝泰信息合伙人，熵音科技傳播數據實驗室首席研究員）

免責聲明：本文章由會員“劉同”發布如果文章侵權，請聯系我們處理，本站僅提供信息存儲空間服務如因作品內容、版權和其他問題請于本站聯系

標簽：