这可能看起来很奇怪

zihadhasan011 · Post by **zihadhasan011** » Thu Dec 26, 2024 4:27 am

但如果您曾经查看过日志文件，您会发现有时 Googlebot 会抓取大量页面，但通常需要多次访问才能真正复制页面并将其存储在缓存中。这就是为什么我认为下面的方法实际上相当准确，通过使用至少从 Google 获得 1 次访问的 URL 和网站管理员中心报告的具有内部链接的页面的组合。尽管如此，获取您的日志文件数据并将其作为第三个数据集添加到下面的过程中会让事情变得更好（更多数据 = 更好！）。无论如何，理论已经足够，这里有一个非技术性的逐步过程，可帮助您了解 Google 正在抓取您网站上的哪些页面，并将其与实际获得流量的页面进行比较。

步骤 1-下载内部链接转到网站管理员中心并导航到“内部链 bc 数据欧洲接”部分：然后，进入内部链接页面后，单击“下载此表”：这将为您提供 Google 看到的内部链接的页面表。注意 - 在本文的其余部分，我将把这些数据视为 Google 抓取的估计值。请参阅文章顶部对此的简要讨论。我觉得它比使用 site: 在 Google 中搜索更准确。但它确实有一些缺陷，因为这份报告实际上告诉你的是带有链接的页面数量，而不是 Google 抓取的页面数量。尽管如此，它并不是一个糟糕的 Google 索引衡量标准，只有当存在大量 nofollowed 内部链接或被 robots.txt 阻止的页面（您链接到的页面）时，它才会变得不准确。

第 2 步 - 从 Google Analytics 中获取你的目标网页所有拥有 Google Analytics 的用户都应该熟悉这一步 - 进入过去 30 天的自然 Google 流量报告，显示登录页面并下载数据。请注意，在点击“导出为 CSV”之前，您需要在 URL 中添加“&limit=50000”，以确保获得尽可能多的数据。如果您有超过 50000 个着陆页，那么我建议您尝试更短的日期范围或更高级的方法（请参阅我上面对日志文件的引用）。