客服電話:4001-543-345

當前位置:首頁 > 網絡營銷知識 >

搜索引擎的預處理過程

作者:Seo168    來源:未知    時間:2014-12-10 21:40
摘要:上次給大家說了一下搜索引擎爬行和抓取的大致過程,今天繼續再介紹一下搜索引擎的預處理。上一篇文章說過,搜索引擎會先抓取頁面,但抓取的頁面不能直接來進行排名處理,因為
      上次給大家說了一下搜索引擎爬行和抓取的大致過程,今天繼續再介紹一下搜索引擎的預處理。上一篇文章說過,搜索引擎會先抓取頁面,但抓取的頁面不能直接來進行排名處理,因為數據庫中的頁面數量太多,計算量太大,無法在幾秒鐘內返回結果,所以就要行預處理。
      蜘蛛抓取到的頁面中有很大一部分是HTML代碼,這些代碼大部分都是需要去掉的,搜索引擎只提取文字和一些包含文字信息的代碼。提取文字后要對這些文字進行分詞,這是中文搜索引擎特有的步驟。英語中單詞與單詞之間有空格分隔,但中文的句子中都是連在一起的,所以搜索引擎要分辨句子中的單詞。另外句子中的一些無實際意義的虛詞、介詞感嘆詞等等也都會被去掉,還有一些頁面上的版權聲明、廣告等也都是要去掉的內容。
      再之后是索引,這一步分為正向索引和倒排索引。正向索引簡單的說就是把每個頁面記錄為一串關鍵詞的集合,其中每個關鍵詞的信息也都有明確的記錄,如詞頻、格式、位置等,然后把它以表格形式存進索引庫。而倒排索引則是每一個單獨的關鍵詞對應著哪些頁面,這些頁面中都出現了這個關鍵詞。如此當用戶搜索關鍵詞時,排序程序在倒排索引中定位到這個關鍵詞,就可以快速找到包含這個關鍵詞的頁面。

福建22选5开奖结果今天 所有的爱好在赚钱图片 加工羊肉能赚钱吗 去以色列赚钱 幼儿音乐辅导班赚钱吗 如何刷题赚钱 沉迷于赚钱累并快乐着图片 互联网投资能赚钱吗 做什么共享赚钱 qq钱包赚钱活动 卖gv赚钱 怎么用化学赚钱 都挺好 明玉赚钱这么容易 当你还为了面子赚钱 苹果有什么锁屏软件可以赚钱的软件下载 剑三pve可以赚钱吗 北京赛车怎么玩赚钱技巧