管理 AI 爬蟲:robots.txt 最佳設定策略
Founder, AEO Pro
關鍵要點 Key Takeaways
- 1.封鎖 AI 爬蟲會影響 Google SEO 嗎:不會直接影響。
- 2.robots.txt 是強制的嗎:是行業慣例,不是法律強制。
- 3.可以用 meta robots 取代 robots.txt 嗎:可以,但不是所有 AI 爬蟲都支援 meta robots 標籤,robots。
2026 年的 AI 爬蟲生態
目前主要 AI 爬蟲有:
這些爬蟲都尊重 robots.txt。你可以精確控制每一個。
該封鎖還是允許?
這是一個策略問題,不是技術問題。考量三個維度:
1. **流量價值**:AI 引用會帶來「零點擊引用」,使用者看到品牌但不點進網站。你接受這種流量模式嗎?
2. **內容競爭**:允許抓取意味著競爭對手可能透過 AI 回答看到你的內容摘要。你的內容護城河夠深嗎?
3. **法律風險**:有些產業(媒體、出版)擔心 AI 訓練使用內容的版權問題。
三種策略
策略 A:全面允許
適合 SaaS、B2B 服務、開發者工具。曝光優先,引用即是行銷。
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
策略 B:選擇性封鎖
適合媒體、訂閱制內容、高價值原創資料。允許首頁與公開頁,封鎖深度內容。
User-agent: GPTBot
Allow: /
Disallow: /premium/
Disallow: /members/
Disallow: /api/
User-agent: ClaudeBot
Allow: /
Disallow: /premium/
Disallow: /members/
Disallow: /api/
策略 C:全面封鎖
適合極少數對訓練資料使用權極度敏感的場景。代價是完全失去 AI 引用能見度。
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
推薦設定(給 90% 的網站)
策略 A + 一個明確的 llms.txt 連結:
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: CCBot
Allow: /
常見錯誤
1. **只封鎖 GPTBot 卻忘記 CCBot**:Common Crawl 的資料會被多數 LLM 使用,只封一個沒用。
2. **User-agent 名稱拼錯**:大小寫敏感,`gptbot` 不等於 `GPTBot`。
3. **封鎖後忘記解封**:測試時封鎖,上線忘了改回來。
4. **用 Disallow: / 卻期待被 AI 引用**:矛盾的設定。
如何驗證
1. 檢查 https://你的域名/robots.txt 可訪問
2. 查伺服器 log,確認 GPTBot 的 User-Agent 能正常進入
3. 使用 AEO Pro 的 Crawler Tracking 功能,即時看到各 AI 爬蟲的訪問紀錄
結論
多數網站應該選擇「全面允許」。AEO 時代的能見度是零和賽局——你不允許 AI 抓取,你的競爭對手會。失去的不只是流量,更是品牌在 AI 回答中的聲量。
常見問題
封鎖 AI 爬蟲會影響 Google SEO 嗎?
不會直接影響。Google 的主要爬蟲是 Googlebot,不是 Google-Extended。兩者是獨立的設定。
robots.txt 是強制的嗎?
是行業慣例,不是法律強制。主流 AI 公司都遵守,但某些小眾爬蟲可能無視。
可以用 meta robots 取代 robots.txt 嗎?
可以,但不是所有 AI 爬蟲都支援 meta robots 標籤,robots.txt 覆蓋率較廣。
封鎖後多久生效?
通常 24-48 小時。AI 爬蟲會定期重新檢查 robots.txt。
傳鑑數位創辦人,自 2023 年起累積 12,000+ 次 AEO/SEO 審計實戰經驗,專注 CJK 市場的 AI 搜尋優化。