介绍我公司的创新举措

Buy Database Forum Highlights Big Data’s Global Impact
Post Reply
nurnobi40
Posts: 981
Joined: Thu Dec 26, 2024 5:07 am

介绍我公司的创新举措

Post by nurnobi40 »

英国最具创新力的公司有哪些?我们的客户和合作伙伴经常问我们这个问题,多年来我们一直与他们合作,试图找到答案。

近几个月来,我们的估算已达到我们设定的质量要求,英国每家公司的创新评分现已在我们的“探索”和“分析”平台上提供。我们甄选出10万家可能具有高度创新力的公司,其中5000家值得特别关注。

这篇博文包含有关开发这一新数据点的一些背景工作、关于它如何有用的一些想法以及对数据局限性的一些讨论。

背景:制定创新分数。
荷兰中央统计局 (CBS) 每两年都会对约 10,000 家荷兰公司进行调查,并根据各 埃及电报号码数据库 种创新指标对其活动进行评分。CBS 利用该数据集证明,公司网站文本可以准确预测其创新性得分。

英国国家统计局( ONS )代表英国开展了一项类似的全国创新调查,调查了3万家公司。如果我们能够获得这项调查的原始数据,我们就可以利用公司网站数据库来计算数据库中所有英国公司的创新得分,但我们没有。

由于无法获取国家创新调查的微观数据,我们一直在寻找其他公司创新的替代指标。现在,通过整合多个数据源,我们能够训练一个机器学习模型,该模型能够仅根据公司网站内容,可靠地评估一家公司是否更有可能具有高度创新性。

有关创新的数据。
我们的方法不是使用创新调查数据来衡量公司的创新能力,而是使用公司层面的研发支出数据。

这些数据收集起来并不容易。公司无需在年度账目中报告研发支出,而且很少有公司主动报告这一数据。另一个难题是,虽然大多数英国公司账目都采用机器可读的XBRL格式,但即使在报告研发支出的情况下,文件中也经常出现标注不准确的情况。

解决这些问题意味着需要解析1.5TB的XBRL格式机器可读账目,并大规模试验OCR技术。我们补充了这些研发强度数据,并参考了其他来源的数据,包括欧盟委员会关于高度创新型企业的研究数据。如今,我们拥有一个涵盖800多家英国注册公司的营业额、员工人数、网站全文和研发支出的数据集。这800家公司涵盖了广泛的研发强度和业务规模,业务遍及英国所有地区和所有行业。

我们的方法
与哥伦比亚广播公司 (CBS) 的工作一致,我们评估了许多机器学习模型,以了解公司的网站文本如何能够准确评估其创新水平。

进行的测试包括:

使用不同的衡量标准,例如每英镑收入的研发支出或每位员工的研发支出作为公司创新的代理。
在数据准备阶段使用不同的特征提取方法。
使用不同的分类和回归算法。
使用不同的临界点来区分高创新和低创新的公司。
我们的大部分测试时间都集中在确定公司是否能用以下方式进行最佳分类:

二元分类器(将公司分为高创新组和低创新组)。
多类分类器(将公司分为创新性非常高、创新性高、创新性中等、创新性低、创新性非常低等)。
连续分类器(这可以估计每个公司的精确研发强度)。
在原型设计过程中,我们运用交叉验证程序来评估方法的准确性,并最终选择一个尽可能准确可靠的模型进行部署。很大程度上,由于各公司研发强度的分布(大多数公司的研发支出低于平均水平),二分类模型的效果最佳。

最终模型的关键词分析显示,网站上的哪些词语对公司是否被归类为低创新性或高创新性影响最大。


公司网站上的文字最能影响一家公司是否被归类为低创新型还是高创新型。
让您可以了解创新分数。
我们的最终模型基于 800 家已知研发强度的公司进行训练。之后,该模型将用于评估英国 160 万家公司的创新水平(高或低)。

在与客户进行早期测试后,我们添加了一项功能,可以根据我们对公司属于高创新组的信心来筛选公司。

零星意味着我们认为一家公司的创新能力较低。

1 星、2 星和 3 星表示我们认为某家公司具有较高的创新能力,信心水平从 60% 到 90% 以上不等。

我们的 EXPLORE 和 ANALYSE 平台现在包含按创新分数筛选公司的功能,该功能很快将加入 ML Lists。


创新过滤器现已在我们的探索和分析工具中上线,并且即将在 ML 列表中推出。
我们已经知道,我们的客户正在以各种有趣的方式使用创新评分。这些方式包括:识别高增长行业的创新型公司,确定投资目标;识别快速增长行业中创新能力较弱的公司,并为其提供有针对性的支持;量化不同区域经济体中创新能力最强的行业,以便政府将干预重点放在最有可能产生最佳回报的领域。

我们期待看到这些数据的更多用途,并且我们正在尽可能改进我们的工具,以使所需的分析更容易、更快捷。

未来发展
提高创新得分的最快方法是获取更多关于英国企业创新水平的数据。我们正在研究三种方法:

通过改进我们从英国公司账户中提取研发支出数据的方法。英国公司自愿报告研发支出的数量增加,将改善这一现状。
通过探索获取英国创新调查微观数据的潜力,提供与荷兰 CBS 使用的类似的训练集。
要求英国政府公布支付给英国每家公司的研发税收抵免金额。
如果您能想到我们可以改进的其他方法,或者您认为有一个项目可以从我们的创新评分项目中受益,请随时与我们联系。
Post Reply