客服電話:4001-543-345

當前位置:首頁 > 網站建設知識 >

蜘蛛是如何爬取內容的

作者:admin    來源:未知    時間:2016-07-05 10:31
摘要:網站建設 中蜘蛛在抓取的時候先得到信任他一般的都會抓取一些信任度高的網站或一些百度白名單的網站,網頁內容的抓取是從一些鏈接發現一些其他頁面。蜘蛛會把這些鏈接保存在自

    網站建設 中蜘蛛在抓取的時候先得到信任他一般的都會抓取一些信任度高的網站或一些百度白名單的網站,網頁內容的抓取是從一些鏈接發現一些其他頁面。蜘蛛會把這些鏈接保存在自己的數據庫中,然后根據順序來抓取這些頁面。

  1、蜘蛛爬行網頁的規則:

  對于蜘蛛網頁權重越高,信用度越高,抓取的頻率就越頻繁,比如站點的首頁和內頁。蜘蛛先抓取站點的首頁,因為首頁的權重較高,而大部分的鏈接都指向首頁。然后通過首頁來抓取內頁,而不是所有的內頁都會被蜘蛛抓取。

  搜索引擎認為一般的中小型站點,三層是強大到足以承受所有的內容的,所以蜘蛛經常抓取的內容是三層,而三層以上的內容蜘蛛的內容不重要,所以不要經常占用。

  2、如何看到蜘蛛抓取?

  通過IIS日志可以看到蜘蛛爬行的內容,IIS日志百度蜘蛛和谷歌蜘蛛等。從IIS日志分析,展示蜘蛛型和爬行時間和抓取頁面,抓取內容的大小和返回的網頁代碼,200代表搶順利。

福建22选5开奖结果今天 波克城市斗地主 股票涨跌跟什么有关系 代理海南飞鱼彩票 腾讯分分彩免费计划app 澳洲幸运8玩法说明书 陕西十一选五预测 腾讯分分彩简单计算法 湖北11选5推荐 69棋牌源码69热棋牌 加拿大快乐8数据 新疆喜乐彩玩法 欧洲股票指数 足彩比分投注技巧 云南十一选五遗漏查询 股票融资技巧_杨方配资平台 双色球最大奖