1. 首頁
  2. 計算機/網際網路/通訊

爬行、抓取、索引、收錄是什麼意思

爬行、抓取、索引、收錄是什麼意思

看SEO有關部落格和論壇時能感覺到,很多SEO並沒有理解爬行、抓取、索引、收錄這些概念到底指的是什麼,區別在哪,noindex、nofollow、robots檔案的功能又是什麼。下面我們就一起來了解一下吧!

【爬行、抓取、索引、收錄是什麼意思】

爬行是什麼?

爬行指的是搜尋引擎蜘蛛從已知頁面上解析出連結指向的URL,然後沿著連結發現新頁面(也就是連結指向的URL)的過程。當然,蜘蛛並不是發現新URL馬上就爬過去抓取新頁面,而是把發現的URL存放到待抓地址庫中,蜘蛛按照一定順序從地址庫中提取要抓取的URL。

抓取是什麼?

抓取是搜尋引擎蜘蛛從待抓地址庫中提取要抓的URL,訪問這個URL,把讀取的HTML程式碼存入資料庫。蜘蛛的抓取就是像瀏覽器一樣開啟這個頁面,和使用者瀏覽器訪問一樣,也會在伺服器原始日誌中留下記錄。

索引是什麼?

索引指的是將一個URL的資訊進行整理,存入資料庫,也就是索引庫,使用者搜尋時,搜尋引擎從索引庫中提取URL資訊並排序展現出來。索引的英文是index。索引庫是用於搜尋的,所以被索引的`URL是可以被使用者搜尋到的,沒有被索引的URL使用者在搜尋結果中是看不到的。

要注意的是,所謂“一個URL的資訊“,並不限於蜘蛛從URL上抓取來的內容,還有來自其它來源的資訊,如外部連結、連結的錨文字等。有的時候,索引庫中關於這個URL的的資訊,根本沒有從這個URL抓取來的內容,但搜尋引擎知道這個URL的存在,並且有一些其它資訊。

抓取和索引不是一回事。

收錄是什麼?

我個人覺得收錄和索引沒有區別。只不過收錄是從搜尋使用者角度看的,搜尋時能找到這個URL,就是這個URL被收錄了。從搜尋引擎角度看,URL被收錄了,也就是這個URL的資訊在索引庫中存在。英文並沒有收錄這個詞,和索引用的是同一個詞index。

noindex的作用是什麼?

頁面頭資訊中放上meta noindex標籤是告訴搜尋引擎不要索引這個URL,也就是使用者搜尋時找不到這個URL的資訊,這個URL不會返回在搜尋結果列表中。

noindex不是告訴搜尋引擎不要抓取這個URL,實際上,noindex要起作用,這個URL是必須先被抓取的,不然搜尋引擎怎麼看到頁面HTML程式碼中有noindex標籤呢?

robots檔案的作用是什麼?

robots檔案是告訴搜尋引擎,某些URL不要抓取。注意,這裡說的是不要抓取,沒說不要索引。和noindex是正相反的。

nofollow的作用是什麼?

給連結加上nofollow屬性是告訴搜尋引擎,不要沿著這個連結爬行,就當這個連結不存在。注意,nofollow只是告訴蜘蛛不要爬這個連結,沒有說不要抓取連結指向的URL,也沒有說不要索引連結指向的URL,nofollow既沒禁止抓取,也沒禁止索引。

概念說過後,指出幾個SEO們經常弄不明白的情況:

沒有被抓取的頁面是可以被索引的

也就是說,蜘蛛沒有訪問和抓取這個頁面(比如被robots檔案禁止抓取),這個頁面卻有資訊存在索引庫中,使用者搜尋時還能看到。

比如,淘寶整個網站用robots檔案禁止百度蜘蛛抓取,但沒有用noindex禁止索引(如上面說的,禁止抓取後,就沒辦法禁止索引了,不抓取,就看不到noindex標籤了),所以即使百度沒有訪問和抓取淘寶頁面,但淘寶很多頁面是被百度索引的使用者可以搜到的。

百度從網上那麼多連結知道淘寶首頁的存在,透過連結的錨文字也知道這個頁面標題大概是淘寶之類的,當然更知道百度口碑裡的評價數。所以即使百度蜘蛛沒有抓取淘寶首頁,使用者還是能搜到,並且顯示一些百度知道的資訊。

要想百度不能返回淘寶首頁該怎麼辦呢?取消robots檔案的禁止抓取,頁面上用noindex禁止索引。

被抓取的頁面是可以不被索引的

最常見的就是上面說過的,頁面頭資訊使用noindex禁止索引,頁面被抓取,讀到noindex後,不被索引,不會在搜尋結果中返回。

還有可能是因為頁面內容是抄襲、轉載、低質量的,搜尋引擎雖然抓取了頁面,索引過程中檢測出這些內容問題,被丟棄,沒有被索引。所以頁面沒有被收錄,通常要先檢查原始日誌,看看是否被抓取過,如果被抓取過,可能是內容質量問題,如果根本沒被抓取,建議先看看網站結構是否有問題。

加了nofollow的連結目標頁面可以被抓取和索引

前面說了,nofollow既不禁止抓取,也不禁止索引。nofollow的作用是告訴蜘蛛不要跟著這個連結爬,就當這個連結不存在,但nofollow只對這個連結起作用,對別的連結沒作用,這個連結加了nofollow,不意味著別的地方就沒有正常的指向這個URL的連結,只要別的地方出現了沒加nofollow的連結,目標URL還是會被發現、抓取(假設沒被robotx檔案禁止)、索引(假設沒加noindex )。

上面這些概念和應用在SEO中是很重要的,如果還沒看懂,我也不知道該怎麼再解釋了,只能建議再多讀幾遍。