什么是频率直方图?初学者的综合指南
Posted: Tue Dec 03, 2024 4:02 am
直方图通常用于数据分析,以图形方式表示数据集的分布。它使我们能够直观地了解数据在不同值中的分布情况,从而帮助发现模式、趋势和异常。
本文将介绍频率直方图并帮助您逐步创建直方图。我们还将了解不同类型的直方图、创建直方图的一些常用技术、应避免的常见错误以及应遵循的最佳实践。
什么是频率直方图?
频率直方图是数据集分布的图形表示。直方图由一系列区间构成,区间本质上是覆盖数据范围的间隔。每个区间都有一个频率,即该间隔内的数据点数。区间绘制在横轴上,频率绘制在纵轴上,从而形成类似条形图的表示。每个条形的高度对应于该区间中数据点的频率。
直方图很常见,因为它们在数据分析中起着几个关键作用:
总结大型数据集:处理大量数据时,直方图提 领英数据库 供了清晰简洁的总结,让我们能够快速掌握整体分布,而不会迷失在单个数据点中。
检测异常值:直方图可以直观地显示数据分布,并可以更轻松地发现异常值(与其他数据有显著偏差的数据点)。这些异常值可能表示错误、异常或值得进一步调查的重要现象。
了解数据分布模式:直方图有助于识别诸如偏度(数据分布的不对称性)、模态(分布中的峰值数量)和散度(数据范围)等模式。这种理解对于统计建模至关重要,因为它可以为模型和假设的选择提供参考。
比较分析:直方图对于比较不同的数据集也很有用。通过并排绘制直方图,我们可以直观地比较它们的分布,揭示仅从原始数据中可能无法看出的相似之处和差异。
既然我们已经了解了频率直方图及其在数据分析中的用途,让我们学习如何使用示例创建一个频率直方图。
如何创建频率直方图
考虑这样一种场景:您作为一名数据分析师,需要分析过去一个月零售店的每日销售数据。
您的目标是了解每日销售的分布情况,以识别模式、评估绩效并提供见解以帮助制定库存管理和销售策略。作为分析的一部分,您已决定使用直方图来帮助获得见解。
您可以按照以下步骤创建频率直方图:
步骤 1:收集数据集
假设您与组织的数据团队取得了联系,并从组织的销售数据库中检索了数据。您已将数据组织成表格格式,如下所示:
销售数据集示例销售数据集。图片由作者提供。
第 2 步:确定容器
接下来,根据数据的范围和分布选择适当的箱。
分析完数据后,你会发现最小值为 20,最大值为 135,并且有 30 个观测值。使用平方根规则(我们稍后会详细了解这个主题),√30 ≈ 5.5,你可以使用六个箱。我们必须将 115 的范围划分为六个箱,这样箱宽约为 19 个单位。
为了简单起见,我们使用宽度为 20 个单位的箱子:
20–39
40–59
60–79
80–99
100–119
120–139
步骤 3:计算每个箱中的频率
让我们计算每个间隔内的观察次数,并将它们制成表格,如下所示:
计算每个箱中的频率
计算每个箱中的频率。图片由作者提供。
步骤 4:绘制直方图
画一条水平线(x 轴)表示区间,一条垂直线(y 轴)表示频率。对于每个区间,画一个条形,其高度与频率相对应。
你的直方图看起来应该是这样的:
本文将介绍频率直方图并帮助您逐步创建直方图。我们还将了解不同类型的直方图、创建直方图的一些常用技术、应避免的常见错误以及应遵循的最佳实践。
什么是频率直方图?
频率直方图是数据集分布的图形表示。直方图由一系列区间构成,区间本质上是覆盖数据范围的间隔。每个区间都有一个频率,即该间隔内的数据点数。区间绘制在横轴上,频率绘制在纵轴上,从而形成类似条形图的表示。每个条形的高度对应于该区间中数据点的频率。
直方图很常见,因为它们在数据分析中起着几个关键作用:
总结大型数据集:处理大量数据时,直方图提 领英数据库 供了清晰简洁的总结,让我们能够快速掌握整体分布,而不会迷失在单个数据点中。
检测异常值:直方图可以直观地显示数据分布,并可以更轻松地发现异常值(与其他数据有显著偏差的数据点)。这些异常值可能表示错误、异常或值得进一步调查的重要现象。
了解数据分布模式:直方图有助于识别诸如偏度(数据分布的不对称性)、模态(分布中的峰值数量)和散度(数据范围)等模式。这种理解对于统计建模至关重要,因为它可以为模型和假设的选择提供参考。
比较分析:直方图对于比较不同的数据集也很有用。通过并排绘制直方图,我们可以直观地比较它们的分布,揭示仅从原始数据中可能无法看出的相似之处和差异。
既然我们已经了解了频率直方图及其在数据分析中的用途,让我们学习如何使用示例创建一个频率直方图。
如何创建频率直方图
考虑这样一种场景:您作为一名数据分析师,需要分析过去一个月零售店的每日销售数据。
您的目标是了解每日销售的分布情况,以识别模式、评估绩效并提供见解以帮助制定库存管理和销售策略。作为分析的一部分,您已决定使用直方图来帮助获得见解。
您可以按照以下步骤创建频率直方图:
步骤 1:收集数据集
假设您与组织的数据团队取得了联系,并从组织的销售数据库中检索了数据。您已将数据组织成表格格式,如下所示:
销售数据集示例销售数据集。图片由作者提供。
第 2 步:确定容器
接下来,根据数据的范围和分布选择适当的箱。
分析完数据后,你会发现最小值为 20,最大值为 135,并且有 30 个观测值。使用平方根规则(我们稍后会详细了解这个主题),√30 ≈ 5.5,你可以使用六个箱。我们必须将 115 的范围划分为六个箱,这样箱宽约为 19 个单位。
为了简单起见,我们使用宽度为 20 个单位的箱子:
20–39
40–59
60–79
80–99
100–119
120–139
步骤 3:计算每个箱中的频率
让我们计算每个间隔内的观察次数,并将它们制成表格,如下所示:
计算每个箱中的频率
计算每个箱中的频率。图片由作者提供。
步骤 4:绘制直方图
画一条水平线(x 轴)表示区间,一条垂直线(y 轴)表示频率。对于每个区间,画一个条形,其高度与频率相对应。
你的直方图看起来应该是这样的: