SEO 的 meta robots、robots.txt 讓你快速上手

在開始之前我覺得先來一個名詞解釋,否則怕你還沒看完文章,頭都暈了:

  • Robots Meta (指揮官):是一些程式語法,它們提供網頁爬蟲如何抓取或索引網頁內容的抓取指令,指令很嚴格,他是指導網頁爬蟲如何抓取和索引頁面的內容。

有點像是搜索爬蟲的指揮官,你的文章要讓 google 搜入,必須要使用到 Robots Meta 指令,他有分別兩種:

  1. 屬於HTML頁面(如meta robots tag)的部分,以及Web服務器作為HTTP頭部(如 x-robots-tag)發送的指令。
  2. meta robots tag 和 x-robots-tag 都可以使用相同的參數,不同的是這些參數如何傳遞給網頁爬蟲。

參考文章:漫遊器中繼標記和 X-Robots-Tag HTTP 標頭規範

  • meta robots (有個性的員工):輸入標籤指令,你還是偷偷給我抓。
  • robots.txt(乖乖牌的員工):輸入標籤指令,不抓就不抓。

學習使用 Robots.txt

真的會使用 Robots.txt 乖乖牌員工通常是「網站不想公開」,大多數人都建議使用 Meta Robots 來控制索引就好,網站的資料還是一樣讓 Google 去抓取,除非有以下情況:

  1. 該頁面捲入很大風暴,導致有負面影響,這是當然要馬上撤銷。
  2. 活動頁面秘密舉行,尚未完工的頁面,還在建置中當然要先排除。
  3. 確定這些頁面會影響 SEO 當然要撤銷。
  4. 防止重複內容出現在SERP中
  5. 整個部分都是私人內容(例如,您的工程團隊的 轉載網站)
  6. 保持內部搜索結果頁面不會顯示在公共 SERP 上
  7. 防止搜索引擎索引您網站上的某些文件(圖片,PDF等)
  8. 防止服務器在爬網程序一次加載多個內容時被超載

補充說明:SERP (Search engine results page) 是指使用關鍵字、經搜尋引擎搜尋後,獲得的結果頁面,也就是關鍵字搜尋後的文章、或網路資訊排行榜。

檢查您是否有 robots.txt 文件

不確定您是否有robots.txt文件?只需輸入您的根域,然後將/robots.txt添加到URL的末尾。例如,Moz的機器人文件位於 tenten.co/robots.txt。

如果沒有出現.txt頁面,目前沒有(live)robots.txt頁面。

使用robots.txt檔案很簡單,你只要建立一個檔名為 robots 的 txt 檔案,並且上傳到根目錄就好,並且在這個檔案內寫上你希望 Google 別抓取的頁面路徑。

//robots 檔:(意思是禁止所有搜尋引擎抓取任何內容)
//填入搜尋引擎蜘蛛的值(* 號代表全部)-通常都不改就是全部。
User-agent: *

//填入你希望搜尋引擎別抓取的頁面路徑。
Disallow: /

//若你禁止抓取的頁面路徑裡面又有特定路徑你希望搜尋引擎抓取。
Allow: /

學習使用 Meta Robots

只要直接把它加在 head 底下,你必須要在“你不希望被索引的頁面底下”,加入這個標籤至 head 裡。
所以如果你有 10 個頁面不希望被索引?沒錯這 10 頁你都要手動去加入 meta robots。

meta robots 的標籤是長這樣:

<head>

<meta name=”robots” content=”noindex , nofollow“>

</head>

基本上這個標籤有 noindex 以及 nofollow 兩個值:

兩個值的功用完全不同,我來舉幾個範例讓你完全清楚如何使用:

//不要索引我的網站,並且在抓取資料時該頁面的相關連結也不要去抓取。
< meta name=”robots” content=”noindex , nofollow”>

//抓取資料時該頁面的相關連結不要抓取。
< meta name=”robots” content=”index , nofollow”>

//不要索引我,但上面連結頁面正常抓取。
< meta name=”robots” content=”noindex , follow”>

//這樣標籤沒意義,等於搜尋引擎將正常索引及抓取。
< meta name=”robots” content=”index , follow”>

注意  Google 說他們是參考

了解meta robots以及robots.txt之後,你可以優化網站的抓取及索引狀況,阻止特定頁面跟被抓到或是被索引。

Google 官方不保證搜尋引擎會完全服從 meta robots 以及 robots.txt ,若搜尋引擎認為你的網站有很多很多的反向連結、流量很高、內容很優質,是優質網站,他也有可能會執意要抓取、索引你的網站。

 


免費流量怎麼來?
品質穩定提升你的排名