機器學習和我關注的技術
導讀基于關鍵詞的復制網頁算法 想前面的提到的算法都是基于這個文檔的,對于大型的搜索引擎來說,在性能上有些差距,所以有些優化,針對是網頁的關鍵詞,或者網頁的meta描述部分。所以,必須有以下的技術做支撐
基于關鍵詞的復制網頁算法 想前面的提到的算法都是基于這個文檔的,對于大型的搜索引擎來說,在性能上有些差距,所以有些優化,針對是網頁的關鍵詞,或者網頁的meta描述部分。所以,必須有以下的技術做支撐: 1、網頁中出現的關鍵詞(中文分詞技術)以及每個關鍵詞的權重(關鍵詞密度); 2、提取meta descrīption或者每個網頁的若干(比如:512)個字節的有效文字。 在以下算法描述中,我們約定幾個信息指紋變量: Pi表示第i個網頁; 該網頁權重最高的N個關鍵詞構成集合Ti={t...
免責聲明:本文章由會員“何龍林”發布如果文章侵權,請聯系我們處理,本站僅提供信息存儲空間服務如因作品內容、版權和其他問題請于本站聯系