如何以及在何处监控爬行

rakibhasan32 · Post by **rakibhasan32** » Mon Dec 09, 2024 8:37 am

Google 网站管理员工具提供了 Googlebot 活动的概述，在旧搜索控制台视图的相应“抓取统计信息”部分中可以轻松查看统计信息。

在这里您可以找到以下信息：

每天扫描的页面数
每日下载千字节数
下载页面所花费的时间（以毫秒为单位）
抓取预算

从显示网站性能优化的图像中可以看出，每天扫描的页面与页面的下载时间成反比。下载时间越短，抓取的页面就越多。从逻辑上来说，事实上我们理解搜索引擎需要为此操作优化其资源。如果网站的速度得到优化，爬虫（相对于其他网站和用户导航）将能够在爬行操作期间处理更多页面。

速度第一
随着移动革命（以及移动优先索引），速度在影响网站扫描的变量中发挥着主导作用，因为移动设备的访问量越来越大（根据一些研究，占总数的 65% 以上）。由于需柬埔寨手机号码数据库要在移动中查看网络内容，并且连接有限且通常性能较低，因此网站需要轻便、快速且灵活。同时，爬虫必须保证网站不承受过大的负载，不能给用户的传统导航造成负担。因此网站能够保证爬虫的正常运行，同时让用户导航流畅、快速就显得非常重要。网站管理员可以依靠众多官方和非官方测试仪，例如Google Pagespeed、Gtmetrix、Webpagetest或最近的Google Lighthouse，来了解其网站的最新技术并提高其性能。

所有工具都会创建一个报告，其中包含可以优化页面速度的点，并且可以每天执行数百次分析，没有任何限制。这些工具（尤其是Lighthouse，确实很难取得好的效果）的繁琐性，连同官方关于更新速度的消息，都说明了搜索引擎对性能的重视。

抓取预算变量
我们有机会分析最重要的变量之一，即速度。然而，还有许多其他变量与网站的抓取相关。根据网络机构 CreiWeb 的说法（我们有幸与他们讨论了这个话题），首先要记住的一个方面是网站的重要性：它在搜索引擎眼中的信任程度如何？

网站的信任度越高，搜索引擎就越有可能发送蜘蛛程序来搜索新内容。同样，页面的受欢迎程度和内容的质量对引擎的兴趣也有重大影响。同时，还必须考虑场地的健康状况。例如，如果爬虫遇到 4xx 和 5xx 错误，导致无法检索页面，它将在下一个会话中尝试（以此类推）再次检索这些页面，每次尝试都会浪费资源。

服务器的响应时间，页面的大小，代码和图像的优化，以及影响页面加载速度的所有变量，正如我们在上一段中看到的，直接影响页面的活动爬虫。

您可以采取哪些措施来优化抓取预算
因此，为了改进和优化爬行预算，有必要避免：

404 中的 Robots.txt
Sitemap.xml 和 sitemap.html 未更新
50x / 40x / 软 404 错误
链重定向
使用规范的错误
重复内容（页脚）/接近重复/HTTP 与 HTTPS
响应时间太长
页面的重量
AMP 错误
不良内部链接和 rel=nofollow 的不当使用
只使用JS，没有其他选择
通过鼓励这些做法：

创建优质内容并经常更新内容，尤其是金钱页面
修复所有 4xx 和 5xx 错误，尽可能限制 3xx 重定向
优化服务器和网站性能（用于速度优化的最佳 WordPress 插件是什么？）
优化现有资源（例如pdf、图像等）
优化内部链接，增强内容之间的联系
减少稀疏和重复的内容
robots.txt的创建和优化
站点地图创建和优化
规范管理与优化
资源深度管理与优化
分析服务器日志以了解爬虫实际在哪里工作
我希望本文对您处理爬行预算这一非常微妙的主题有所帮助。

你觉得怎么样？