CS CrawlerSignal

AI 爬虫策略检查器

发布 llms.txt 之前,先查清 AI 爬虫访问权限

输入一个公开网站,检查 robots.txt、llms.txt、sitemap 和 AI 爬虫规则,然后复制一套诚实可用的 ChatGPT Search、Claude、Perplexity、Gemini 与训练爬虫策略包。

策略模式
人机验证 正在检查防刷保护...

免费 beta。无需账号。扫描不会修改你的网站。

Signal 分数 -- 运行一次审计后,这里会显示爬虫策略健康度。
robots.txt等待
llms.txt等待
sitemap.xml等待
首页等待

爬虫矩阵

把搜索、训练和用户触发访问分开看

Bot 公司 用途 状态 规则
运行一次审计后,这里会显示爬虫规则。

策略包

复制可以上线的文件片段

robots.txt 片段


          

llms.txt 草稿


          

audit.json


          

FAQ

这些无聊但重要的边界,决定工具是否可信

llms.txt 能保证 AI 搜索排名吗?

不能。它更适合作为实验性的 AI 可读站点地图。真正表达允许或阻止抓取的规则,仍然应该放在 robots.txt 里。

为什么正常网站也会是中等分?

中等分通常不是“危险”,而是策略信号不完整:比如没有 robots.txt、没有 sitemap,或者没有把搜索类爬虫和训练类爬虫分开声明。

我应该阻止 GPTBot,同时允许 OAI-SearchBot 吗?

这是平衡模式的默认思路:保留 ChatGPT Search 的发现入口,同时把训练抓取单独作为选择。具体上线前,仍要结合你的法律、版权和内容策略复核。

CrawlerSignal 会追踪哪些数据?

Beta 版会记录轻量产品事件:页面访问、扫描开始、扫描成功或失败、复制策略片段、下载策略包、人机验证错误。它不创建账号,也不保存扫描历史数据库。

CrawlerSignal 能看到 Cloudflare managed robots.txt 或服务器日志吗?

不能。它只从外部读取公开 URL。CDN 规则、WAF 设置和真实 bot 访问日志需要平台权限,适合放到后续付费监控产品里。