兰德:评估国家科技水平的一种开源方法

 

美兰德公司提出评估国家科技水平的一种开源方法

 

导读:

美著名智库兰德公司(RAND20211028日发布报告《评估国家科技水平的一种开源方法:应用于人工智能和机器学习领域》《An Open-Source Method for Assessing National Scientific and Technological Standing: With Applications to Artificial Intelligence and Machine Learning》。该报告开发了一种快速和开源的、用于评估国家科技水平的方法,该方法使用四个指标(高影响力论文、合作网络密度、质量调整专利和科技组织能力)快速评估特定领域的国家科技水平。报告在介绍该方法的四个指标含义、计算方法的基础上,将其应用于评估9个国家(德国、法国、英国、韩国、日本、印度、俄罗斯、中国和美国)的人工智能和机器学习领域的水平,得出美国在3个指标(高影响力论文、合作网络密度和科技组织能力)中排名第1,在质量调整专利方面仅次于中国。

 

报告称,在2018年《美国国防战略》描述强调“重新出现了国家间长期战略竞争的背景下,了解美国相对于其他民族国家的科技地位变得越来越重要。兰德公司被要求开发用于确定国家在科学和技术(S&T)领域的水平的开源方法。了解新兴技术的可能演变将为国防部和情报部门官员制定行动决策提供信息,随着技术的发展,这些官员将决定这些技术对防御和进攻任务、研发投资、人员、采购、外国材料采购和额外信息收集的影响。报告旨在为分析人员和决策者提供一种快速、开源的方法,用于评估某一特定领域的国家科学技术水平。本研究由国防部赞助,其资助办公室旨在了解大国和潜在对手的各种新兴技术的产出水平和能力轨迹。

报告使用四个指标(高影响力论文产出、合作网络密度、质量调整专利和科技组织能力)快速评估特定领域的国家科技水平。这些指标是根据它们在多大程度上反映了国家科技工作的主要方面及其透明度、普遍性和可扩展性来选择的,以利用科学和技术活动的公开来源,制定一种易于使用和推广的方法,用于评估可能影响国家安全的商业领域的新兴技术发展。
一、评估科技水平的开源方法

 

1、指标选取和定义

根据对国家科技实力的反映程度选择以下4个指标用以评估国家特定领域的科技实力。

指标1:高影响力论文(High-Impact Publications)。

衡量相关领域国家科学论文产出。期刊论文和会议论文是研究人员开展科学交流的主要手段,但各国已发表的科学论文的影响在国家层面存在异质性。例如,有研究发现,在中国论文产出的直接经济激励似乎导致了该国低质量论文产出的过剩,这表明若仅统计论文产出数量而不关注质量则跨国之间没有可比性。因此,该指标主要统计各国高影响力的科学论文产出数量(定义为已发所有科学期刊论文被引排名前10%的论文数量)。

指标2:合作网络密度(Network Density)。

衡量相关领域科学实践共同体的连通性。特定领域内网络密度高的国家是科学合作相对普遍的国家。网络密度是指一个国家的机构参与的合作数量占相关领域最大可能合作数量的比例。关于科学影响的实证文献发现,增加合作与更大的科学影响力相关。因此,报告将特定领域的网络密度作为评估相关领域内国家科学网络相对“健康”的一种手段。

指标3:质量调整专利(quality-adjusted patents)。

衡量一个国家在特定S&T领域内生产新技术发明的能力。专利质量也存在着国际异质性。例如,多项研究发现,与国际同行相比,中国专利的质量低于平均水平,如果平等计算所有专利将降低该指标的跨国可比性。因此,每个国家的特定领域专利数量通过平均专利家族规模进行加权,以体现专利质量的国际异质性。专利家族规模是申请专利的国家数量,该方法利用了在多个司法管辖区申请的专利比在单一司法管辖区申请的专利质量更高的发现。由于申请成本和申请被拒绝的风险,低质量专利的发明人不太可能在多个国家提交申请。

按照报告设计的“质量调整专利”计算公式,一个国家的专利质量是相对于全球平均水平计算的。因此,当该国的专利质量高于全球平均水平时,质量调整系数(一个国家的平均专利家族规模与全球平均水平的比率)会增加该国的专利数量,反之,该国原始专利数量就会减少。图1展示了这种质量调整对专利数量的影响,实线表示符合AI/ML专利搜索的年度未调整专利数,虚线表示经过质量调整的专利数量。在图1中,质量调整系数导致美国的质量调整指标增加,而中国的质量调整指标减少。这与学者相关研究结果一致,即中国专利的平均质量往往低于美国同行。

 

美兰德公司提出评估国家科技水平的一种开源方法

指标4:科技组织能力(S&T organizational capacity)。

评估一个国家用于推进重点S&T领域的机构资源的程度。其计算方法为在相关领域至少产出1项专利的机构数量与至少产出1篇科学论文的机构数量之和。因此,该指标代表了一个国家隶属的积极推进相关领域科学或技术前沿的机构的数量。

为更好满足安全与情报部门官员的动态需求,方法力求透明、通用和可扩展。
为确保透明度,不是建立一个单一的综合指标,而是将每个指标作为一个独立的指标。综合指标通常作为各种组成指标的加权平均数计算,具有解释简单的明显优势,但它们将掩盖重要的国际差异。此外,不同权重设置方法也会对指标得分有重大影响,可能导致国家排名不稳定。
为确保普遍性,使用国际数据源,并对指标进行调整,以解释专利和期刊方面众所周知的国际差异。

为保证可扩展性,该方法不仅回答“在特定的S&T领域,谁是全球领导者?”这一问题,还可以回答其他问题,例如:组织如何进行国际合作以促进某一领域研究?一个国家特定组织的研究重点是什么?国家的关键领域技术有哪些可能的应用?

2、数据收集策略

为回答以上所提出的问题,该报告提出的数据收集策略中收集的数据超出了计算4个指标所需的数据。具体而言,收集的数据涉及负责推动S&T领域发展的机构和个人、出版物和专利分类代码、合著论文和合作专利、专利和论文引用以及资金来源。此外,该方法还收集论文摘要和标题以及专利摘要和标题等文本数据,同时使用自然语言处理方法对这些数据进行分析是获取个人、机构或国家特定科技领域重点信息的有力手段。

3、方法的局限性

1)在应用于某些S&T领域时指标需要扩充。如果将该模型应用于需要广泛测试和评估(T&E)基础设施的S&T领域,可以受益于包括与国家T&E基础设施相关的额外指标。例如,在高超音速武器领域,则最好将国家主持的风洞数量纳入指标体系。

2)依赖于国家S&T活动的开源量化指标。对于任何给定的S&T领域,若想深入了解个人、机构或国家的公开信息可以通过与相关领域的主题专家访谈来收集。此外,由于核物理和核工程等研究的保密性,该方法可能无法在这些S&T领域产生准确的结果。

3)侧重于一个国家推进某一领域科技前沿的能力,而不是实现进步过程的能力。即,所提方法不考虑通过外部来源获得的技术,例如,知识产权盗窃、间谍活动、国际贸易或国际技术转移等。

4、评估国家科技水平的其他方法

1全球创新指数(GII)。由世界知识产权组织(WIPO)每年发布,是评估国家总体创新绩效的衡量方法的一个良好方法。GII80个指标组成,这些指标分为7大类:机构、人力资本和研究、基础设施、市场成熟度、企业成熟度、知识和技术产出以及创新产出。鉴于GII的重点是国家总体创新绩效,因此GII使用国家级变量(即描述国家创新环境的变量,与S&T部门无关),这不适用于具体科技部门的国际比较。

2)除了采用多指标方法评估国家的总体S&T实力外,学者们还开发了特定领域的国家排名方法。例如,Tortoise Media公司制作了一个“全球人工智能指数”(Global AI Index,这个聚焦于人工智能领域的国家排名方法,使用100多个指标测量54个国家人工智能能力得分。这项研究对人工智能的衡量标准之一是国家的Python软件包下载数量。这种使用特定字段的度量限制了此方法的通用性,不能应用于其他领域。

二、方法应用:人工智能

和机器学习领域

1、数据收集和检索策略

报告使用WOS数据库和德温特(Derwent Innovation Index )收集人工智能和机器学习(AI/ML)领域的论文和专利数据,时间为2017-2018年。具体来看,依赖关键词检索,剔除不代表对科学论文贡献的新闻条目和评论等结果后,获得40988篇论文数据集;结合关键词和国际专利分类(IPC)代码的检索策略,获得48981项专利数据集。此外,收集了论文和专利的额外数据元素,如关键词、标题和摘要,以便进行扩展分析。

2、高影响力论文分析

2中描绘了2017-2018年间AI/ML样本中所有论文被引的频率分布。其中,1971848%)篇论文在计算之日未被引用。高影响力论文指标仅涉及被引量前10%的论文,即被引次数7次以上为高影响力论文。

 

美兰德公司提出评估国家科技水平的一种开源方法

 

每个国家的高影响力论文指标表示该国在切入点右侧AI/ML论文的数量。德国、法国、英国、韩国、日本、印度、俄罗斯、中国和美国的高影响力论文数量如图3所示。在2017-2018年期间,美国在高影响力AI/ML科学论文方面处于全球领先地位,2005篇(41%)高质量AI/ML科学论文。中国排名第2,高影响力论文1033篇(21%)。

 

美兰德公司提出评估国家科技水平的一种开源方法

3、合作网络密度分析

1描述了9个国家在2017-2018年期间的网络密度表现。美国是样本中网络密度最高的国家(0.027%)。也就是说,相对于所分析的其他国家,美国研究界表现出高度的连通性,科学合作数量最多。

美兰德公司提出评估国家科技水平的一种开源方法

4、质量调整专利分析

中国在AI/ML专利申请方面占主导地位。未经调整的原始专利计数表明,2017-2018年期间中国在AI/ML专利数据集中产生了18646项专利(占全球专利总数的49.7%)。在表2中可以看到,即使经过质量调整,中国的专利产出量也大大超过其他国家。

 

美兰德公司提出评估国家科技水平的一种开源方法

5、科技组织能力分析

美国2017-2018年在科技组织能力指标方面也是全球领导者。与样本中的任何其他国家相比,美国拥有更多的机构在AI/ML领域发表了科学期刊论文或专利。美国的领导地位是由该领域的大量机构出版了论文推动的。在专利申请机构方面,中国是全球领先者。图4描述了9个国家在这一指标上的表现。

 

美兰德公司提出评估国家科技水平的一种开源方法

6、最终排名

3总结了基于4个指标的9个国家的最终排名。使用报告提出评估国家S&T水平的该标准方法,美国在4项指标中的3项排名第1。这些结果表明,美国是AI/ML的全球领导者,这是一个强有力的证据。

 

美兰德公司提出评估国家科技水平的一种开源方法

 

汇总表还说明了该评估方法在提供政策建议方面可以发挥的作用。例如,考虑到几乎所有的权重体系,根据这些指标创建一个综合指标将使中国的排名非常高。然而,仅考虑综合数字将会掩盖这样一个事实:即中国的合作网络密度并不特别高。可见,不加综合的单独指标能够确定国家技术创新系统中可能需要政策干预的部分
三、扩展分析

 

数据采集的其他信息可用于深入了解AI/ML领域S&T活动的其他特征。这里介绍3个潜在研究主题:国际合作模式、特定组织的角色和研究重点、以及领域的特定应用实践。

1、国际合作模式

研究表明,国际科研合作与研究影响呈正相关。然而,国际科学合作,特别是潜在对手之间的合作,可能是无意中将知识产权出口到国外的一种手段。

5描述了AI/ML样本中3000篇引用率最高的期刊论文的合著网络。节点的大小使用中介中心性来确定,中介中心性是衡量节点在网络中的中心程度的一种度量。如果必须将信息从网络的一部分传递到另一部分,则具有高的中介中心性的节点非常重要。颜色根据Louvain聚类算法分配,该算法旨在检测合作共同体。根据合作的数量对边进行加权,有趣的是,最常见的双边合作关系是美国和中国之间的合作关系。图6使用了相同的数据描述了地理上的合作模式。

 

美兰德公司提出评估国家科技水平的一种开源方法

 

美兰德公司提出评估国家科技水平的一种开源方法

2、特定机构的作用和研究重点

AI/ML的主题足够广泛,因此将分析粒度提高到关键词级别。图7描述了高影响因子样本中的AI/ML论文如何在国家、机构和关键词之间分配。例如,从图中可以看到,只有两个大学(斯坦福大学和伊利诺伊大学)正在进行遥感领域的高影响力研究。图表还显示,没有一所大学在AI/ML领域的论文产出方面占据主导地位。

 

美兰德公司提出评估国家科技水平的一种开源方法

 

3、特定的应用领域

为计算本文提出的指标而收集的数据也可用于检查特定的应用领域。最近研究显示,AI/ML已被用于检测和响应网络攻击,而且人工智能也是提高网络攻击效力的一种手段。报告选择与网络安全相关的AI/ML专利数据子集来说明如何使用此处收集的数据元素分析特定应用领域。

该数据集的构建始于2000-2019年期间完整的AI/ML专利数据集。对于该数据库中的106740项专利中的每1项,都在专利摘要和专利名称中检索与网络安全相关的一系列关键术语。当发现匹配项时,这些专利被添加到新的“人工智能网络”数据集中。因此,新的“AI cyber”数据集代表AI/ML数据集和cyber关键词检索的交叉点。

描述了美国和中国专利的网络安全术语的频率。单元格中的数字表示同时包含cyber关键字和一个AI关键词的专利数量。阴影单元格描述了每个关键词组合的专利数量的差异(美国减去中国)。蓝色阴影的单元格代表美国在该领域生产的专利方面具有优势的单元格。红色阴影的单元格(负值单元格)代表中国具有优势的单元格。

 

美兰德公司提出评估国家科技水平的一种开源方法

8描述了人工智能网络子集的年度调整专利数量。对于该数据系列,采用了指标3的质量调整方法。这表明,美国是人工智能网络专利的早期领导者,但从2015年开始,中国在这一主题上的专利申请急剧加速。到2017年,美国和中国在人工智能网络领域的质量调整专利数量大致相同。

美兰德公司提出评估国家科技水平的一种开源方法

本节没有提供基于科学计量或文献计量的分析细节,它只是提供了其他分析方法的样本。用户可能感兴趣的其他领域可以利用这些数据进行探索,包括对文本语料库和关键词进行主成分分析,以确定潜在的知识结构;社会网络分析,以确定具有高度影响力的研究人员或研究团队;以及分析公开用于军事、武器或情报目的的专利子集等。

 

注:本站文章除标明原创外,均未网友或机构投稿分享,如有宣发需求或侵权请联系dongxizhiku@163.com。

         

发表评论