随着移动革命(以及移动优先索引),速度在影响网站扫描的变量中发挥着主导作用,因为移动设备的访问量越来越大(根据一些研究,占总数的 65% 以上)。由于需要在移动中查看网络内容,并且连接有限且通常性能较低,因此网站需要轻便、快速且灵活。同时,爬虫必须保证网站不承受过大的负载,不能给用户的传统导航造成负担。因此网站能够保证爬虫的正常运行,同时让用户导航流畅、快速就显得非常重要。网站管理员可以依靠众多官方和非官方测试仪,例如Google Pagespeed、Gtmetrix、Webpagetest或最近的Google Lighthouse,来了解其网站的最新技术并提高其性能。
所有工具都会创建一个报告,其中包含可以优化页面速度的点,并且可以每天执行数百次分析,没有任何限制。这些工具(尤其是Lighthouse,确实很难取得好的效果)的繁琐性,连同官方关于更新速度的消息,都说明了搜索引擎对性能的重视。
抓取预算变量 量之一,即 喀麦隆手机号码数据库
速度。然而,还有许多其他变量与网站的抓取相关。根据网络机构 CreiWeb 的说法,我们有幸与他们讨论了这个话题,首先要记住的一个方面是网站的重要性:它在搜索引擎眼中的信任度如何?
网站的信任度越高,搜索引擎就越有可能发送蜘蛛程序来搜索新内容。同样,页面的受欢迎程度和内容的质量对引擎的兴趣也有重大影响。同时,还必须考虑场地的健康状况。例如,如果爬虫遇到 4xx 和 5xx 错误,导致无法检索页面,它将在下一个会话中尝试(以此类推)再次检索这些页面,每次尝试都会浪费资源。
服务器的响应时间,页面的大小,代码和图像的优化,以及影响页面加载速度的所有变量,正如我们在上一段中看到的,直接影响页面的活动爬虫。
您可以采取哪些措施来优化抓取预算
因此,为了改进和优化爬行预算,有必要避免:
404 中的 Robots.txt
Sitemap.xml 和 sitemap.html 未更新
50x / 40x / 软 404 错误
链重定向
使用规范的错误
重复内容(页脚)/接近重复/HTTP 与 HTTPS
响应时间太长
页面的重量
AMP 错误
不良内部链接和 rel=nofollow 的不当使用
只使用JS,没有其他选择
通过鼓励这些做法:
创建优质内容并经常更新内容,尤其是金钱页面
修复所有 4xx 和 5xx 错误,尽可能限制 3xx 重定向
优化服务器和网站性能(用于速度优化的最佳 WordPress 插件是什么?)
优化现有资源(例如pdf、图像等)
优化内部链接,增强内容之间的联系
减少稀疏和重复的内容
robots.txt的创建和优化
站点地图创建和优化
规范管理与优化
资源深度管理与优化
分析服务器日志以了解爬虫实际在哪里工作
我希望本文对您处理爬行预算这一非常微妙的主题有所帮助。
你觉得怎么样?