熱門搜索:

你當前所在的位置:首頁  >  網站運營資訊  >  百度TF-IDF算法詳解

百度TF-IDF算法詳解
發布時間:2021-12-21      點擊次數:3877

什么是TF-IDF

百度百科是這樣說的:

“TF-IDF是一種統計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF加權的各種形式常被搜索引擎應用,作為文件與用戶查詢之間相關程度的度量或評級?!?

文章鏈接:https://baike.baidu.com/item/tf-idf

133753.jpg

舉一個簡單易懂的案例。

假如說我們在百度上搜索“水果”這個詞,百度爬蟲抓取的網站內容有下面5個,你覺得哪個內容排名第一?

- 內容1: 水果有水果,水果,水果,水果,水果

- 內容2: 水果有蘋果,桃子,西瓜,菠蘿,梨子

- 內容3: 蔬菜都很好吃,我最愛吃茄子了

- 內容4: 蘋果,梨子都是很好吃的水果

- 內容5:好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃

相信很多人心里面有了答案,大家憑直覺,內容2 跟 內容5 應該排名靠前,內容5很可能是第1,內容2是排名第2。

其實按照TF-IDF算法也能得出這個結論,那么TF-IDF是怎么做的,請大家跟上我的步伐。

TF-IDF算法的計算步驟

第1步:計算逆文檔頻率

我們先統計各個詞語被包含的文章數。比如“水果”被4篇文章(內容1、2、4、5)引用,4就是“水果”的逆文檔頻率。

分詞后,各個單詞的逆文檔頻率如下:

水果=4、蘋果=3、好吃=2、菠蘿=2、西瓜=2、梨子=2,桃子=1、獼猴桃=1、蔬菜=1,茄子=1

計算逆文檔頻率

PS: IDF= log(語料庫中的文件總數 / 包含詞語 t 的文件數目),為了便于理解,這里做了精簡。

按照我們的直覺,如果一篇文章把逆文檔頻率最高的前面的詞都包含了,說明這篇文章內容更貼合用戶意圖,更受到搜索引擎喜歡?;氐嚼?,"水果、蘋果"是本例中重要性最高的2個詞,如果內容中包含“水果、蘋果”,那么這篇內容質量就越好。

所以把包含“水果、蘋果”的內容拿出來,就是比較靠譜的內容了:

- 內容2: 水果有蘋果,桃子,西瓜,菠蘿,梨子

- 內容4: 蘋果,梨子都是很好吃的水果

- 內容5: 好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃

第2步:計算詞頻(TF)

我們把內容1、內容3砍掉了,剩下的內容2、內容4、內容5怎么排序。我們想一下,一個詞語在內容中出現的次數越高,也說明這個詞語對這篇文章更重要?;氐奖纠?,“水果”是我們的核心詞,那么因為內容5中出現“水果”兩次,內容2、內容4次數是1,那么內容5勝出。最后的排序結果如下

- 內容5: 好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃 (第一名)

- 內容2: 水果有蘋果,桃子,西瓜,菠蘿,梨子(第二名)

- 內容4: 蘋果,梨子都是很好吃的水果(第三名)

-內容1: 水果有水果,水果,水果,水果,水果(相關度不夠,被剔除)

-內容3: 蔬菜都很好吃,我最愛吃茄子了( 相關度不夠,被剔除 )


TF-IDF對SEO非常重要!非常重要!非常重要!

重要的事情說三遍!

我們可以看到,TFIDF算法,不僅可以衡量關鍵詞對頁面的重要性,更能衡量文章的廣度相關性。對于百度、360、google來說,TFIDF算法的出現屏蔽了一大批用關鍵詞密度來獲取排名的SEO小白,同時提升了搜索質量啊,真是一箭雙雕。

百度百科里面說了:“除了TF-IDF以外,因特網上的搜索引擎還會使用基于鏈接分析的評級方法,以確定文件在搜尋結果中出現的順序?!?。意思是什么?你排名可以由下面的公式決定。文章得分=TFIDF得分+鏈接得分,百度搜索引擎在用TFIDF??!

首先,百度在用TFIDF算法

百度專利中使用TFIDF的實錘,請查看百度專利文檔《CN102737018A-基于非線性統一權值對檢索結果進行排序的方法及裝置-公開》。搜索算法來去匆匆,百度算法更新迭代也非???,但是TFIDF算法有點不同,它是目前最核心的搜索算法之一。

141568.jpg

其次,GOOGLE也用TFIDF算法

google承認在搜索中使用的TFIDF算法:原文鏈接:https://www.searchenginejournal.com/google-tf-idf/304361/

最后,TFIDF得分占比重

如果搜索引擎確定使用TF-IDF對網頁內容作為評判質量的因子,那么這個比重有多大?現在的搜索引擎一般用如下的算法計算網站頁面得分:score(頁面得分) = TFIDF分 * x + 鏈接分 * y + 用戶體驗分 * z(其中x+y+z=100%;);

141680.jpg

排名得分=40%的內容質量(TFIDF)+40%的用戶體驗分(快排)+20%的鏈接分(域名+外鏈),TFIDF重要程度不言而喻。

上一條:新網站如何做百度收錄
下一條:沒有啦!
您可能感興趣的文章

高清三分钟免费观看视频_韩国美女视频黄频大全视频_欧美日韩免费高清视视频