AIクローラーの種類と制御方法｜robots.txtとllms.txtの設定ガイド

AIクローラーrobots.txt設定は、での引用獲得を左右する重要な技術施策です^[1]。GPTBot・Google-Extended・PerplexityBotなどのAIクローラーを適切に制御することで、AI検索での引用機会を最大化しつつ機密情報を保護できます。robots.txt設定の基本と、AI向けの新しいファイル規格であるllms.txtの活用方法を解説します。

36 %

構造化データによるAI引用率向上

4.3 倍

AI検索経由CVR（vs自然検索）

85 %以上

AI Overview表示率（検索クエリ比）

65 %

ゼロクリック検索の割合

AIクローラー robots.txt 設定の概要

AIクローラーの種類とrobots.txtによる制御の基本を解説します。サイテーションの基本でAI引用の仕組みも確認してください。

主要なAIクローラーは以下の5種類です。GPTBot（OpenAI/ ）、Google-Extended（Google AI学習用）、GoogleOther（Google AI汎用）、PerplexityBot（）、ClaudeBot（Anthropic）がWebサイトを巡回し、AI検索の回答生成やモデル学習に使用するデータを収集します^[2]。

	AIクローラー	運営企業	用途
GPTBot	OpenAI	ChatGPTのWeb検索・モデル学習	GPTBot
Google-Extended	Google	AI学習用データ収集	Google-Extended
GoogleOther	Google	AI関連汎用クローラー	GoogleOther
PerplexityBot	Perplexity AI	リアルタイム検索・回答生成	PerplexityBot
ClaudeBot	Anthropic	Claude AI用データ収集	ClaudeBot

背景と重要性

AIクローラー制御が重要になった背景を解説します。AIハルシネーション対策も参考にしてください。

AIクローラーの制御が注目される背景には、AI検索エンジンの急成長があります。Perplexityの参照トラフィックは前年比527%増、Google AI Overviewは検索の85%以上で表示されており、AIクローラーのアクセスを許可するかどうかがマーケティング成果に直結する状況です^[3]。

一方でAIクローラーによるデータ収集に懸念を持つ企業もあります。自社コンテンツがAIモデルの学習に使用されることへの著作権上の議論や、競合への情報流出リスクの指摘があります。ただしGEO対策の観点からは、AIクローラーをブロックするとAI検索エンジンの回答で引用される機会を完全に失うため、ブロックのデメリットが大きいケースが多数です。

基本的な仕組み

robots.txtとllms.txtの設定方法を解説します。AEOの基本も参考にしてください。

robots.txtでのAIクローラー制御は従来の制御と同じ書式です。User-agentでクローラーを指定し、AllowまたはDisallowでアクセスを制御します^[4]。

現在のrobots.txtを確認する

自社サイトのrobots.txtにAIクローラー関連の記述があるかを確認する。デフォルトで全クローラーを許可している場合はAIクローラーも許可されている
AIクローラーへの許可設定を追加する

GPTBot・Google-Extended・PerplexityBotに対するAllow設定を明示的に追加する。公開コンテンツは許可し、機密ページのみDisallowで制限する
llms.txtを作成して設置する

サイトのルートディレクトリにllms.txtを設置する。サイトの概要・構造・引用ポリシーをAIが理解しやすい形式で記述する
設定後のAI引用状況を監視する

robots.txt更新後、主要KWでの各AI検索エンジンの引用状況を月次で確認する。設定変更が引用率に与える影響を追跡する

llms.txtはrobots.txtを補完する新しいファイル規格です。robots.txtがアクセスの許可・拒否を制御するのに対し、llms.txtはAIにサイトの概要・主要コンテンツ・引用ポリシーなどのコンテキスト情報を提供します。llms.txtの設置によりAIがサイトの内容をより正確に理解し、適切な引用が行われやすくなります。

実務への影響

AIクローラー設定がBtoB企業のマーケティングに与える影響を解説します。

実務上の最大のポイントは「ブロックvs許可」の判断基準です。GEO対策としてAI検索での引用を目指すなら、公開コンテンツへのAIクローラーアクセスは許可すべきです。AI検索経由のはCVRが自然検索の4.3倍と高品質であり、ブロックによって失う機会コストは大きいです^[5]。

ブロックすべきケースは、顧客専用ポータル・社内文書・価格表など機密性の高いページです。これらはDisallowで選択的にブロックし、ブログ記事やサービスページなどの公開コンテンツは許可する運用が推奨です。定期的にrobots.txtの設定を見直し、新規ページの追加時にもAIクローラーへのアクセス許可を確認してください。

まずは自社のrobots.txtを確認し、AIクローラーへの対応状況を把握してください。

VicMeでは、AIクローラー設定を含むAIO×SEO改善ポイントを無料診断でお伝えしています。

AIO×SEO無料診断を申し込む

まとめ

AIクローラーのrobots.txt設定は、AI検索での引用獲得に直結する技術施策です。GEO対策として公開コンテンツへのAIクローラーアクセスは許可し、機密ページのみ選択的にブロックする運用を推奨します。llms.txtの設置も併せて検討してください。

AIクローラーとは何ですか？

AIクローラーはAI検索エンジンやLLMの学習のためにWebサイトを巡回するプログラムです。GPTBot（OpenAI）、Google-Extended（Google AI）、PerplexityBot（Perplexity）などがあり、robots.txtで制御できます。

AIクローラーをブロックすべきですか許可すべきですか？

GEO対策としてAI検索での引用獲得を目指す場合は許可を推奨します。ブロックするとAI検索エンジンの回答で引用される機会を失います。ただし機密情報を含むページは選択的にブロックしてください。

robots.txtでAIクローラーをどう設定しますか？

User-agent: GPTBotのように対象クローラーを指定し、Allow: /でサイト全体を許可するか、Disallow: /private/のように特定ディレクトリをブロックします。llms.txtファイルでAI向けの追加情報を提供することも効果的です。

llms.txtとは何ですか？

llms.txtはAIクローラーに対してサイトの概要・構造・引用ポリシーを伝えるためのファイルです。robots.txtがアクセス制御を担うのに対し、llms.txtはAIにサイトのコンテキスト情報を提供する役割を持ちます。

参考文献

OpenAI「GPTBotクローラーの仕様と制御方法」OpenAI公式ドキュメント, 2025年
Google「Google-ExtendedとGoogleOtherの技術仕様」Google Search Central, 2025年
Perplexity AI「PerplexityBotの巡回ポリシー」Perplexity AI公式ドキュメント, 2025年
WPRiders「構造化データ実装によるAI検索引用率向上の実証研究」WPRiders Technical Report, 2025年
Semrush「AI検索トラフィックの商談転換率に関する分析レポート」Semrush Research, 2025年