Page 1 of 1

站点地图:[站点地图位置]

Posted: Mon Dec 09, 2024 9:35 am
by Rakib.ai
Robots.txt 文件规则和规范
以下是最重要的规则和规范的摘要:
地点和有效性
robots.txt 文件必须位于站点的顶级目录中并遵循受支持的协议(HTTP、HTTPS、FTP)。
该文件应命名为 robots.txt。
每个站点只能有一个 robots.txt 文件。
Robots.txt 文件必 波兰 whatsapp 购物数据 须采用 UTF-8 编码。
语法和字段

Image

用户代理、允许、禁止和站点地图字段是最常见的。
允许和禁止字段是定义可以或不可以跟踪的路由的“规则”。
语法为:<#可选注释>。
具体特点

区分大小写与路由和 URL 相关,但与用户代理字段的值无关。
使用 * 和 $ 等通配符指定多个路径或 URL 结尾。
HTTP 错误和状态代码

2xx 状态代码允许跟踪。
3xx 状态代码在被视为 404 之前最多会导致 5 次重定向。
4xx 状态代码(429 除外)被视为没有有效的 robots.txt 文件。
5xx 状态代码导致扫描暂时中断。
优先顺序

如果规则之间发生冲突,则使用限制最少或最具体的规则。
Googlebot 和 Robots.txt
尽管Google 的文档很有帮助,但它并没有涵盖所有的怪癖,这可能会导致错误,例如,如果您不小心使用 robots.txt 阻止了 Googlebot,您的网站将从 Google 搜索结果中消失。为了避免这种情况,Google 提供了一系列工具,可让您验证 robots.txt 文件。例如,Google Search Console 有一个“ robots.txt 测试器”工具,可让您检查文件是否有错误或矛盾。

索引被 Robots.txt 阻止的页面
尽管 robots.txt 文件可以阻止 Google 等搜索引擎对网站上的特定内容进行抓取和索引,但在某些情况下,被阻止的 URL 仍可能出现在搜索结果中。如果其他网站上有指向这些 URL 的链接,就会发生这种情况。在这种情况下,URL 和任何相关的公共信息(例如链接文本)都可以显示在 Google 搜索结果中。