上海交大:激活 AI 创新之源—人工智能开源开放发展报告(附报告)

上海交大:激活 AI 创新之源—人工智能开源开放发展报告

 

报告目录:

一、人工智能开源开放及其意义………………………………..1

(一)开源开放有利于降低 AI 的使用门槛,加速新技术的推广及创新…2
(二)开源开放有利于降低研发成本和应用效率,加速 AI 技术的成熟…2
(三)开源开放有利于优化技术发展路线,促进形成良好生态……….3
(四)开源开放助力 AI 核心技术共享,打破技术垄断……………..4
(五)开源开放实现 AI 人才、应用、创业、基金等创新要素集聚…….5

二、AI 开源开放体系的典型发展模式 ……………………………6

(一)开源开放体系推动 AI 发展的经典案例…………………….6
(二)开源开放体系推动 AI 发展的常见形式……………………11

三、国内外主要 AI 开源开放平台及项目…………………………17

(一)AI 开源开放标准 ……………………………………18
(二)AI 开源工具体系 ……………………………………20
(三)AI 资源共享平台 ……………………………………22
(四)AI 开放生态平台 ……………………………………24

四、上海 AI 开源开放建设的背景及建议…………………………25

(一)中国 AI 开源开放的发展背景…………………………..25
(二)对上海 AI 开源开放的建议…………………………….28

参考资料…………………………………………………30

附录一:中外典型的 AI 开源开放平台详细介绍……………………33

(一)中外典型的 AI 开源开放标准详细介绍……………………33
(二)中外典型的 AI 开源工具体系详细介绍……………………36
(三)中外典型的 AI 资源共享平台详细介绍……………………46
(四)中外典型的 AI 生态运营平台详细介绍……………………49

附录二:全球主要开源开放生态平台项目列表…………………….57

(一) AI 开源开放标准 …………………………………..57
(二) AI 开源工具体系 …………………………………..58
(三) AI 资源共享平台 …………………………………..61
(四) AI 开放生态运营平台 ……………………………….62

 

报告前言

人工智能(Artificial Intelligence)从 1956 年达特茅斯会议诞生以 来,理论和技术日益成熟,应用领域不断扩大,目前已成为新一轮科技革命和 产业变革的重要驱动力量,将对未来人类社会生活带来深刻改变。作为以软件 算法为基础的新一代变革技术和产业,人工智能与开源开放天生具有紧密联 系,近年来人工智能的技术演进和产业落地,离不开行业开源开放生态的蓬勃 发展。人工智能开源开放是驱动人工智能技术创新和发展的重要支撑力量,是 实现技术积累和快速迭代的重要创新模式,更能为全球不同行业和产业的智能 化提供重要的契机。

人工智能的开源开放发展受到国家和地方政府的高度关注。我国提出人工 智能发展战略之后,政府文件多次提到推动人工智能开源开放发展,人工智能 开源开放生态及平台建设备受关注。中国国务院在 2017 年发布的《新一代人工 智能发展规划》中点明,下一代人工智能发展包含“科技引领、系统布局、市 场主导、开源开放”四项基本原则。上海将人工智能作为重点发展的三大产业 之一,聚焦创新策源、应用示范、制度供给和人才集聚,加快建设人工智能发 展的“上海高地”。上海市在 2019 年发布的《关于建设人工智能上海高地构 建一流创新生态的行动方案(2019-2021 年)》中提出要打造开放前沿共性的 创新平台,“联动国际资源,打造开源开放社区平台”是其中一项重要任务。 开源开放是上海人工智能发展生态中最为核心和具有活力的创新要素。在此新 形势下,上海交通大学与机器之心联合编写了《激活 AI 创新之源——上海人工 智能开源开放发展报告》。

开源开放蕴含着一定自组织属性,有其自身的发展规律和特点。在政策鼓 励的大背景下,需要进一步探索明确发展路径,发挥行业内各个主体的积极 性,共同打造多元参与的开源开放生态。为此,需要对 AI 开源开放的演进历 程、现有情况、发展规律和趋势有整体把握。

本报告首先阐述了人工智能开源开放的背景及意义。报告编写组通过文献 调研分析,探讨了人工智能开源开放体系发展模式。其中,包含了推动人工智 能发展的经典开源开放案例和常见形式。编写组将其进行归类划分,包含开源 开放标准、开源工具体系、资源共享平台和生态运营平台。通过展现经典案例 特别是最新成果(截至 2020 年 5 月),反映 AI 开源开放的最新趋势,进一步 阐明开源开放对 AI 发展的重要作用和意义,为包括政府部门在内的行业各方推 动 AI 开源开放提供参考借鉴。最后,编写组总结目前国内开源开放的现状,并 根据上海的自身特点和建设人工智能开源开放的优势和不足,提出了参考性建 议。

 

内容精选:

开源开放对人工智能技术发展的推动体现为多种形式,包括:对AI技术研发标准 的制定、对降低AI技术发展成本或使用门槛的工具的开发、AI技术所需资源平台的搭 建、对AI开源开放生态的运营和维护等。
在介绍这些发展模式之前,为了让读者对AI开源开放有直观地认知,本报告先介 绍其中的经典案例。这些案例在其自身的发展过程中,展示了这种发展模式的优越 性。


图 1. 人工智能开源开放体系全景图

本章我们选取“机器学习/深度学习”、“计算机视觉”、“自然语言处理”以及“联 邦学习”四个技术领域,具体分析开源开放体系对各自 AI 技术发展的推动作用。
1)机器学习和深度学习
深度学习 Deep Learning(DL)一词最初在 1986 被引入机器学习 Machine Learning (ML)领域,后在 2000 年被用于人工神经网络 Artificial Neural Network(ANN)。 2000年代,深度学习两大神经网络架构卷积神经网络Convolutional Neural Network (CNN)和递归神经网络 Recursive Neural Network (RNN)相继诞生。而随着 2012 年 ImageNet 图像识别竞赛第一名的诞生,一直阻碍深度学习发展的瓶颈问题开始得到解 决:大型开放数据集可以为深度学习提供源源不断的丰富养料,而 GPU 驱动的并行计算 则大大加快了人工神经网络的训练速度。从计算机视觉到自然语言处理再到自动驾驶等 诸多相关领域的大型数据集逐渐成为领域内的评估标准(benchmark),使得深度学习 研究不再各自为政,而是有着几乎统一的标准,因此更加可衡量和评估。


图 2. 机器学习开源开放体系全景图

2)计算机视觉
计算机视觉 Computer Vision(CV)的概念最早可追溯至 1960 年代,而从计算机视 觉概念的提出到 1990 年代,由于缺少实际数据的支撑,相关的学术研究大多基于几何 学和三维重建。直到进入 20 世纪互联网时代,伴随着计算机性能的提升和电子照片的 普及,基于学习的计算机视觉开始得到发展(最早的 CNN 基础模型之一 LeNet 于 1998 年正式发表)。在 2006 年至 2012 年间,Everingham 等人搭建了一个大型图片数据库供 机器识别和训练使用,该数据库包含了 20 种类别的图片,每种类别的图片数量在一千 至一万张不等,这就是 ImageNet 的前身——PASCAL Visual Object Challenge。虽限于该数据库的数量与当时的计算机算力,机器学习算法在计算机视觉任务方面仍未受 到重视,但其潜力却开始被看见,并吸引了越来越多的研究者投身其中。而后李飞飞团 队出于“让机器学会识别世界上所有图像和物体”的想法,开始构建后来包含超过 1500 万张标注图像的开源数据集 ImageNet,并组织了相应的挑战赛 Large Scale Visual Recognition Challenge (LSVRC)。2012 年,首届挑战赛冠军 AlexNet 便是凭借基于深 度学习的算法将图像识别错误率从此前的业界最佳(SOTA)25% 左右一举降低至 15% 左 右。


图 3. 计算机视觉开源开放体系全景图

3)自然语言处理
自然语言处理 Natural Language Processing(NLP)是人工智能的一个非常重要的 分支,时常被称作“计算语言学”(Computational Linguistics),其核心目标是将 人类的语言(即自然语言)转换成计算机可以执行的命令。


图 4. 自然语言处理开源开放体系全景图

人工智能各领域的开源开放标准具备以下作用:设定权限、规范数据格式、模型格 式、代码共享格式、规范技术架构、建立开放的模型评测基准等等。人工智能的落地需 要依靠产业化,而产业化的发展离不开规范和标准。如果缺失标准,人工智能的研发和 应用将变得混乱,市场也容易发生分裂。
本文研究覆盖的 AI 开源开放标准包括开源的软件发布协议、模型交换标准、数据 交换标准、技术架构、评测基准,以及代码共享格式。


图 6.AI 开源开放标准全景图

在人工智能算法实现中,免费和开源的人工智能工具能够可靠地执行频繁和机械化 的任务。在这里,AI 开源工具体系主要分为五大类:数据处理工具体系、软件系统工具 体系、算法模型工具体系、引擎框架工具体系和垂直领域工具体系。其中数据处理工具 是数据管理和分析的基础;软件系统工具提供了一站式的生态化服务;算法模型工具体 系归纳了特定任务下无法回避的通用算法模型;引擎框架工具体系简化了模型开发到部 署的流程;垂直领域工具体系集合了特定领域下的工具和库,实现了工具的灵活调用。


图 7.AI 开源工具体系全景图

本报告PDF版已分享至本站知识星球,欢迎加入查阅和交流。原网站年度VIP联系“dongxizhiku”微信可免费加入。

 

注:除标明原创外,均为网友或机构投稿分享,如有宣发需求请联系dongxizhiku@163.com。