技術教學7 分鐘

管理 AI 爬蟲:robots.txt 最佳設定策略

CC
C. Chien

Founder, AEO Pro

關鍵要點 Key Takeaways

  • 1.封鎖 AI 爬蟲會影響 Google SEO 嗎:不會直接影響。
  • 2.robots.txt 是強制的嗎:是行業慣例,不是法律強制。
  • 3.可以用 meta robots 取代 robots.txt 嗎:可以,但不是所有 AI 爬蟲都支援 meta robots 標籤,robots。

2026 年的 AI 爬蟲生態


目前主要 AI 爬蟲有:

  • **GPTBot**:OpenAI(ChatGPT 的訓練資料來源之一)
  • **ClaudeBot / anthropic-ai**:Anthropic(Claude)
  • **PerplexityBot**:Perplexity AI
  • **Google-Extended**:Google(用於 Gemini 與 AI Overviews)
  • **CCBot**:Common Crawl(多數 LLM 都間接使用)
  • **Applebot-Extended**:Apple 的 AI 服務

  • 這些爬蟲都尊重 robots.txt。你可以精確控制每一個。


    該封鎖還是允許?


    這是一個策略問題,不是技術問題。考量三個維度:


    1. **流量價值**:AI 引用會帶來「零點擊引用」,使用者看到品牌但不點進網站。你接受這種流量模式嗎?

    2. **內容競爭**:允許抓取意味著競爭對手可能透過 AI 回答看到你的內容摘要。你的內容護城河夠深嗎?

    3. **法律風險**:有些產業(媒體、出版)擔心 AI 訓練使用內容的版權問題。


    三種策略


    策略 A:全面允許

    適合 SaaS、B2B 服務、開發者工具。曝光優先,引用即是行銷。



    User-agent: GPTBot

    Allow: /


    User-agent: ClaudeBot

    Allow: /


    User-agent: PerplexityBot

    Allow: /


    User-agent: Google-Extended

    Allow: /



    策略 B:選擇性封鎖

    適合媒體、訂閱制內容、高價值原創資料。允許首頁與公開頁,封鎖深度內容。



    User-agent: GPTBot

    Allow: /

    Disallow: /premium/

    Disallow: /members/

    Disallow: /api/


    User-agent: ClaudeBot

    Allow: /

    Disallow: /premium/

    Disallow: /members/

    Disallow: /api/



    策略 C:全面封鎖

    適合極少數對訓練資料使用權極度敏感的場景。代價是完全失去 AI 引用能見度。



    User-agent: GPTBot

    Disallow: /


    User-agent: ClaudeBot

    Disallow: /


    User-agent: Google-Extended

    Disallow: /



    推薦設定(給 90% 的網站)


    策略 A + 一個明確的 llms.txt 連結:



    User-agent: *

    Allow: /

    Sitemap: https://example.com/sitemap.xml


    User-agent: GPTBot

    Allow: /


    User-agent: ClaudeBot

    Allow: /


    User-agent: PerplexityBot

    Allow: /


    User-agent: Google-Extended

    Allow: /


    User-agent: CCBot

    Allow: /



    常見錯誤


    1. **只封鎖 GPTBot 卻忘記 CCBot**:Common Crawl 的資料會被多數 LLM 使用,只封一個沒用。

    2. **User-agent 名稱拼錯**:大小寫敏感,`gptbot` 不等於 `GPTBot`。

    3. **封鎖後忘記解封**:測試時封鎖,上線忘了改回來。

    4. **用 Disallow: / 卻期待被 AI 引用**:矛盾的設定。


    如何驗證


    1. 檢查 https://你的域名/robots.txt 可訪問

    2. 查伺服器 log,確認 GPTBot 的 User-Agent 能正常進入

    3. 使用 AEO Pro 的 Crawler Tracking 功能,即時看到各 AI 爬蟲的訪問紀錄


    結論


    多數網站應該選擇「全面允許」。AEO 時代的能見度是零和賽局——你不允許 AI 抓取,你的競爭對手會。失去的不只是流量,更是品牌在 AI 回答中的聲量。

    常見問題

    封鎖 AI 爬蟲會影響 Google SEO 嗎?

    不會直接影響。Google 的主要爬蟲是 Googlebot,不是 Google-Extended。兩者是獨立的設定。

    robots.txt 是強制的嗎?

    是行業慣例,不是法律強制。主流 AI 公司都遵守,但某些小眾爬蟲可能無視。

    可以用 meta robots 取代 robots.txt 嗎?

    可以,但不是所有 AI 爬蟲都支援 meta robots 標籤,robots.txt 覆蓋率較廣。

    封鎖後多久生效?

    通常 24-48 小時。AI 爬蟲會定期重新檢查 robots.txt。

    CC
    C. Chien
    Founder, AEO Pro

    傳鑑數位創辦人,自 2023 年起累積 12,000+ 次 AEO/SEO 審計實戰經驗,專注 CJK 市場的 AI 搜尋優化。

    準備好優化你的網站了嗎?

    用 AEO Pro 免費掃描,獲得 53 項檢查的詳細報告

    免費掃描網站

    其他文章