文本挖掘研究回顧一:互聯網數據挖掘系統,行為金融新領域
事件起因:
最近無論是主動投資還是量化投資領域都對文本挖掘研究產生了高度關注度,作為國內相關研究領域的開創者,我們認為有必要將過去近四年的研究成果進行重新梳理與回顧,最重要的是對過去研究中存在的不足進行反思,為今后無論是我們自身還是同行的相關研究提供參考。
第一篇回顧選用2010年9月16日發的一篇深度報告。該報告是我們進入該研究領域的開篇之作,站在今天的時點看,這篇報告完成了兩項有意義的工作:1、建立了我們從文本采集、清洗、結構化,到量化建模、結果輸出的大體數據流程和分析體系;2、為市場貢獻了獨家的股票關注度因子,近四年里,就單因子來講,關注度因子一直有穩定優異的表現。
由于當時對市場理解的不夠深入和研究方法的相對稚嫩,該報告也存在諸多不足:1、情緒指標的構建方法存在較大問題,該指標也在2011年我們推出普通投資者情緒指標后被棄用;2、整體的流程與架構雖然方向正確,但在諸多細節處理部分仍存在許多不足之處,致使后期數據更新和模型維護存在較多不便;3、雙反轉模型并不適合機構投資者和大資金,在之后也被我們棄用。
下面的篇幅中,我們對原報告不作任何修改的重新發布,溫故而知新,激勵我們在這一領域繼續埋頭研究,深耕細作。
互聯網:“營業部自行車”2.0版
情緒是投資分析框架中非常重要的一環,上個世紀,就有這樣的樸素結論:看營業部門口的自行車數量,當自行車很少的時候可以買股票,但當自行車數量很多的時候就得賣股票了。如今,在“交易網絡化”和“交通汽車化”的推動之下,互聯網毅然接過了“營業部自行車”的大旗,成為情緒指標2.0版,而財經網站和股票論壇的火爆使我們有了一個可以直接量化投資者情緒的可靠數據來源。
互聯網海量數據挖掘系統:業內首創
我們在業內第一個建立了基于互聯網的海量數據挖掘系統,完整的系統將包括情緒指標、個股及板塊關注度、關鍵詞跟蹤等部分。
目前,基于股票論壇新發文章數量指標能作為較好的大市情緒指標,與大盤同步相關性60%,該情緒指標波動的變化能提示市場的中短期拐點。
基于個股的關注度指標驗證了“人棄我娶人取我與”投資理念的正確性:單獨考慮個股關注度的變化,自2008年中以來,以月度考察,關注度下降最多的股票構成的組合顯著跑贏關注度上升最多的股票組合,兩年累積收益超過100%,超額收益80%以上,且超額收益完全來自于Alpha。以周為單位,選擇同時滿足關注度下降最多和表現最差的股票構成組合,兩年累積收益率658%。
基于已經建立的數據挖掘系統,我們將陸續推出一系列產品:大市情緒指標、個股關注度指標、行業及板塊關注度指標,從一個完全新的角度形成獨立的選時、行業配臵、選股的數量化體系,并與傳統的數量化體系融合,將國內數量化投資研究推向一個新的領域——行為金融。