先保住搜索入口
首页、robots.txt、sitemap.xml 会影响搜索引擎能不能找到和理解你的网站。
上线前搜索入口排雷
输入网站 URL,先看 Google、Bing、AI 搜索这类入口有没有被误挡,再看不想要的训练爬虫有没有被限制清楚。
怎么选
首页、robots.txt、sitemap.xml 会影响搜索引擎能不能找到和理解你的网站。
搜索类爬虫帮别人发现你;训练类爬虫更像拿公开内容做模型或数据用途。
结果页会把最该处理的事放在 01。先改它,再看要不要展开更多建议。
下一步
https://你的域名/robots.txt,确认公开文件已经变更。爬虫规则
表示这个爬虫可以访问对应路径。搜索类爬虫被允许,通常有利于被发现。
表示这个爬虫被规则挡住。训练类爬虫被阻止,通常更偏内容保护。
告诉你是哪条 robots.txt 规则造成了这个结果,例如 Allow: / 或 Disallow: /。
| 爬虫名称 | 公司 | 它对你有什么影响 | 当前状态 | 为什么是这个状态 |
|---|---|---|---|---|
| 完成检查后,这里会显示每个爬虫是被允许还是被阻止。 | ||||
优化草稿
看不懂先看这里
别人能不能通过搜索引擎或 AI 搜索发现你的公开页面。
你放在网站根目录的规则文件,用来告诉爬虫哪些地方可以看。
Allow 是允许看,Disallow 是不让看。Disallow: / 通常表示不要看整个网站。
你的网站地图。它能把重要页面列出来,让搜索引擎更容易发现。
你给 AI 工具看的内容目录。它不是排名保证,也不能拦截爬虫。
更像“帮别人发现你”的爬虫,例如 Googlebot、OAI-SearchBot、PerplexityBot。误挡它们可能减少曝光。
更像“拿公开内容做模型或数据用途”的爬虫,例如 GPTBot、Google-Extended、ClaudeBot、CCBot。
这类爬虫更偏模型训练或数据使用。你要决定是否允许它们抓取。
这类爬虫更偏搜索发现。挡住它们,别人可能更难在 AI 搜索里看到你。
200 表示页面能打开,404 表示没找到。首页或规则文件打不开时,要先查服务器或 CDN。
FAQ
你会知道三件事:搜索引擎和 AI 搜索能不能看到你的网站;不想要的 AI 爬虫有没有被清楚限制;下一步应该先改 robots.txt、sitemap,还是 llms.txt。
不确定就选“推荐:保留搜索,限制训练”。它适合大多数公开网站:先别误挡搜索入口,同时把训练类 AI 爬虫单独限制。只有当你更需要曝光时选“优先被看见”;当你更在意版权、付费内容或敏感内容时选“优先保护内容”。
先看“建议先做这几步”,从 01 开始处理。通常顺序是:确认首页能访问;确认 robots.txt 没误挡搜索;补 sitemap;再考虑 llms.txt。不要一上来直接复制全部草稿。
不是。分数低通常表示“规则不清楚”或“搜索可见性可能被误伤”。它是优化清单,不是安全报警。
不要无脑复制。先看你的目标:如果想保留搜索可见性,就不要挡搜索类爬虫;如果不想让内容用于训练,可以限制训练类爬虫。上线前最好让懂网站或 SEO 的人复核一遍。
可以做,但别神化。它更像给 AI 工具看的内容目录,适合放文档、产品页、价格页、帮助中心等重要入口。它不能保证排名,也不能用来阻止爬虫。
因为目标不一样。搜索爬虫影响别人能不能在搜索或 AI 搜索里发现你;训练爬虫更接近“拿你的公开内容用于模型训练或数据集”。你可能想允许前者,同时限制后者。
不能。你只能看到公开 URL 的外部检查结果。Cloudflare 边缘规则、WAF、真实 bot 访问日志,需要你登录对应平台查看。