因此,您应该首先检查 robots.txt 文件。此文件是任何网络抓取软件到达您的网站时的第一个调用点。您的 robots.txt 文件概述了您网站的哪些部分应该被抓取,哪些部分不应该被抓取。它通过“允许”或“禁止”某些用户代理的行为来实现这一点。 要找到你的 robot.txt 文件,只需转到 文件是公开的,可以通过在任何根域的末尾添加 /robots.txt 来找到。
以下是 Hallam 网站的一个示例。 robot.txt 文件 我们可以看到 Hallam 请求不 line数据库 要抓取以 /wp-admin(网站后端)开头的任何 URL。通过指示不允许这些用户代理的位置,您可以节省带宽、服务器资源和抓取预算。您也不希望因为意外“禁止”而阻止任何搜索引擎机器人抓取您网站的重要部分。因为这是机器人抓取您的网站时看到的第一个文件,所以做法。
您可以使用Google 的 robots.txt 测试器编辑和测试您的 robots.txt 文件。 Google Search Console 中的 robot.txt 文件测试 在这里,您可以输入网站上的任何 URL 来检查它是否可抓取,或者您的 robots.txt 文件中是否存在任何错误或警告。