WordPress博客Robots.txt的寫法

2016-08-18 23:00:04

今天,根據優化規則,參考瞭樂思蜀SEO博客的WordPress博客robots.txt寫法寫瞭自己的Robots.txt:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Disallow: /page/
Disallow: /category/*/page/*
Disallow: /tag/
Disallow: */trackback/
Disallow: /category/*
Sitemap: http://www.zreading.cn/sitemap.xml

方法如下:

使用Wordpress搭建的博客,利用robots.txt文件限制搜索引擎抓取部分目錄及文件,歸納大致有以下幾種方法。

最簡單的開放寫法

不作任何限制,Wordpress站內鏈接結構比較合理,作為一般博客,完全開放就可以瞭,代碼:

User-agent: *
Disallow:

允許所有蜘蛛訪問,允許訪問所有內容。Wordpress隻要模板中鏈接設計合理,沒有需要限制的特殊內容,推薦使用這種寫法。

最簡單的嚴格寫法

User-agent: *
Disallow: /wp-*
#Allow: /wp-content/uploads/
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /?s=

允許所有蜘蛛訪問,限制以“wp-”開頭的目錄及文件,限制抓取.php文件、.inc文件、.js文件、.css文件,限制抓取搜索結果。

Disallow: /wp-* 會連同附件目錄一起限制抓取,如果想讓搜索引擎抓取附件中的內容,將第三行的 # 號註釋去掉。Allow 不是所有搜索引擎都支持。

最合理的寫法

賣瓜的都說自己瓜甜,我也覺得自己的Robots.txt寫的最合理

User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Sitemap: http://www.lesishu.cn/sitemap.xml

允許所有搜索引擎抓取,逐一列舉需要限制的目錄,限制抓取搜索結果。

包含sitemap.xml地址(這一項viki中有專門的說明,但Google管理員工具會提示‘檢測到無效的 Sitemap 引用’,有效性尚有爭議)。

robots.txt其他寫法

為避免在搜索引擎中出現重復頁面,Wordpress玩傢自創瞭很多robots寫法,列舉一些常用的,作為參考(適用於偽靜態方式的永久鏈接):

Disallow: /page/
#限制抓取Wordpress分頁
Disallow: /category/*/page/*
#限制抓取分類的分頁
Disallow: /tag/
#限制抓取標簽頁面
Disallow: */trackback/
#限制抓取Trackback內容
Disallow: /category/*
#限制抓取所有分類列表

最後,推薦使用 Google管理員工具,登錄後訪問“工具 -> 分析 robots.txt”,檢查文件有效性。