熱門搜索:

你當前所在的位置:首頁  >  網站運營資訊  >  百度爬蟲的種類和規律

百度爬蟲的種類和規律
發布時間:2021-12-29      點擊次數:2365

今天開始探討正式內容的第一講了,開始講百度蜘蛛。今天針對廣泛流傳的百度蜘蛛IP類型做一下探討。咱們知道,知識零散的點,經驗是點的連線。所以大家在學習的時候養成大局觀,比如說,我們現在在這個位置。


探索方法

通過對7個網站的爬蟲日志做追蹤,將百度蜘蛛分為收錄蜘蛛、首頁收錄蜘蛛、快照蜘蛛三大類。

用控制變量法,通過現象看規律,通過規律看本質,通過本質講對策。

通過線上實驗來一步一步做驗證推導過程。

百度蜘蛛類型有哪幾種

下圖是網上廣泛流傳的百度蜘蛛IP類型說明,其中123開頭的認為是降權蜘蛛,220開頭的一般認為是權重蜘蛛。

到底有木有降權蜘蛛

看了百度站長的平臺的回復(年代比較久遠),百度官方回復是“沒有”。

http://bbs.zhanzhang.baidu.com/thread-6387-1-1.html


我也認為蜘蛛沒有權重高低之分

為什么分降權蜘蛛、權重蜘蛛之說?

如果蜘蛛有權重高低之說,難道百度一開始就知道你的網站質量嗎

百度蜘蛛分類的猜想

百度爬蟲是干什么的,就是把你的網站頁面內容扒下來,然后把數據拆分為標題、摘要、頭圖、正文等結構化數據,放到百度的數據庫里面,提供給用戶搜索。

但是網頁數量以百億計,每個頁面都有快照備份是不現實的。

大膽猜想,百度蜘蛛應該有功能之分,并未高低權重之說。

現象1:內頁爬取規律

新上的某個網頁的爬取記錄,我們可以看到,通常都是123開頭的蜘蛛先行,然后220開頭的蜘蛛后行。


然后隔1-2天,快照必會有更新。比如2019年7月27號220開頭蜘蛛訪問之后,7月28日快照就更新了。


現象2 首頁爬取規律

看下圖,首頁的百度爬蟲日志,19年6月26上線后,基本上也是123開頭的爬蟲先行,220爬蟲后行,隔天快照更新。


現象3 頁面404后的百度爬取規律

我認為實驗了2個404頁面,123開頭的爬蟲爬取后,一般是2次404之后,不再派爬蟲來爬了。


現象4 劣質頁面爬取規律

我也試驗了隨機段落混合而成的內容(比如下圖妹子不錯,但妹子上面的文字很爛),百度123開頭蜘蛛抓了一次就再也不抓了,5月11號上線,至今無快照。

看來百度對隨機拼湊的內容還是有識別的。

上一條:【seo優化】新網站關鍵字優化要怎么做呢
下一條:單頁網站如何做優化
您可能感興趣的文章

高清三分钟免费观看视频_韩国美女视频黄频大全视频_欧美日韩免费高清视视频