业务动态

人工智能的知识产权保护 | 第一章 人工智能技术的概述

作者:李琳 | 更新时间:2022-03-17 | 阅读次数:

前言


柳沈律师事务所的人工智能团队成立于2017年6月,由具有计算机或相关领域技术背景并具有丰富的知识产权从业经验的律师组成。自成立以来,团队一直致力于研究中国和在人工智能领域比较活跃的一些其他国家和地区在人工智能产业发展、关于人工智能研究和应用方面的政府政策支持和规范、关于人工智能的知识产权保护的法律法规和实践等。柳沈人工智能团队的研究成果包括专题报告《人工智能专利的保护(2018)》和《人工智能专利的保护(2019)》,文章精选《中国人工智能知识产权保护》,以及关于在中国和其他国家/地区的人工智能知识产权保护的相关文章和演讲。

 

本《人工智能的知识产权保护(2021)》报告是柳沈人工智能团队研究并撰写的关于中国和几个主要国家和地区(美国、欧洲、日本、韩国)在人工智能知识产权保护方面的研究报告,旨在帮助相关企业和知识产权从业人员了解人工智能相关的产业发展和知识产权保护的各种角度。



01

第一章 人工智能技术的概述


1.1人工智能的诞生和发展

如果以“人工智能(Artificial Intelligence,AI)”这个术语最早出现的时间来标志现代人工智能这一学科的诞生的话,那么应该是在1955年(发起)至1956年(举行)的美国达特茅斯人工智能会议(Dartmouth Artificial Intelligence Conference)期间,一般认为是由会议召集人麦卡锡(John McCarthy)正式提出的[1]。此次会议旨在召集志同道合的人共同讨论“人工智能”。在该会议的建议书中,麦卡锡等人称“我们建议在 1956 年夏天在新罕布什尔州汉诺威的达特茅斯学院由10个人进行为期2个月的人工智能研究。该研究是在以下基础上进行的:假设学习的每个方面或智能的任何其他特征原则上都可以精确描述,以至于可以用机器来模拟它。将尝试寻找如何让机器使用语言,形成抽象和概念,解决现在留给人类的各种问题,并改进自己。[2]”会议持续了一个月,基本上以大范围的集思广益为主。这催生了后来人所共知的人工智能革命。

2006年,会议当事人重聚达特茅斯

左起:摩尔、麦卡锡、明斯基、赛弗里奇、所罗门诺夫


人工智能诞生后,曾一度走入低谷,在1970-1980年代,由于大规模数据和复杂任务不能完成,计算能力无法突破,人工智能的发展在70年代陷入了“寒冬”。1980年卡耐基梅隆大学(CMU)研发的XCON正式投入使用,这成为一个新时期的里程碑,专家系统开始在特定领域发挥威力,也带动整个人工智能技术进入了一个繁荣阶段。


人工智能经历了半个多世纪的发展历程,涌现出了众多影响深远的技术、学者、公司和产品,派生出许多不同的学派。目前人工智能的主要学派有下列三家:

(1)符号主义(Symbolicism),又称为逻辑主义、心理学派或计算机学派,其原理主要为物理符号系统(即符号操作系统)假设和有限合理性原理。

(2)连接主义(Connectionism),又称为仿生学派或生理学派,其主要原理为神经网络及神经网络间的连接机制与学习算法。

(3)行为主义(Actionism),又称为进化主义或控制论学派,其原理为控制论及“感知-行动”型控制系统。行为主义学派认为,行为是有机体用以适应环境变化的各种身体反应的组合,它的理论目标在于预见和控制行为。

图1.1-1


符号主义将所有的信息都简化为操作符号,就像数学家那样,为了解方程,会用其他表达式代替本来的表达式。现在大多数的AI都是符号主义为基础的,在工业时代,这个流派赚足了风头,因为标准化的流程最容易使用符号主义流派的人工智能设计。符号主义的一个最具代表性的例子是IBM的深蓝,它打败人类国际象棋冠军,让人类第一次意识到人工智能发展的可怕。


符号主义曾长期一枝独秀,为人工智能的发展作出重要贡献,尤其是专家系统的成功开发与应用,为人工智能走向工程应用和实现理论联系实际具有特别重要的意义。人们后来发现,符号主义也有短板。决策需要知识,很多与直觉相关的知识,并不容易用符号推理来表述,需要计算机从数据中自己学习。


1986年,美国心理学家大卫·鲁梅尔哈特(David Rumelhart)等人提出多层网络中的反向传播算法(back-propagation algorithm)(也称为微分的反向模式(reverse mode of automatic differentiation))。此后,连接主义势头大振,从模型到算法,从理论分析到工程实现,为神经网络计算走向市场打下基础。


而现在,加拿大计算机科学家约书亚·本吉奥(Yoshua Bengio)干了一件神奇的事情——他带领团队,使用深度学习使符号人工智能恢复了活力。


行为主义者认为,学习是刺激与反应之间的联结,他们的基本假设是:行为是学习者对环境刺激所做出的反应。学习过程是渐进的尝试错误的过程,强化是学习成功的关键。在行为主义的学派中,我们可以看到,深度学习模型,在现实中机器人交互就是行为主义的方式,不断地接受反馈从而在学习中进化。行为主义的一个最具有代表性的例子是Google旗下的DeepMind智能系统AlphaGo,其在2016年3月以总比分4比1战胜了世界围棋冠军、韩国职业九段选手李世石,轰动了全世界。2017年5月23日至27日,世界排名第一的中国选手柯洁和AlphaGo展开“人机大战2.0”三番棋较量,柯洁0:3败北。


目前发展势头最猛、风头最盛的深度学习、深度神经网络,即属于连接主义;而同样火热的知识图谱、以及上个世纪第二次行业浪潮里举足轻重的专家系统均是符号主义的成就;行为主义的贡献,则主要在机器人控制系统方面。


21世纪第二个十年,随着移动互联、大数据、云计算、物联网技术的迸发,人工智能技术也迈入了新的融合时代,从AlphaGo战胜李世石,到微软语音识别技术超越人类,到谷歌自动驾驶、波士顿动力学机器人,到满布市场的智能音箱,到每个人手机中的神经网络芯片和智能程序,人工智能从无形发展到有形的陪伴每个人的生产生活,半个多世纪前科学家曾经描绘的美好图景正在一步一步被人工智能技术所实现。


[1] 麦卡锡晚年回忆称这个词“人工智能”是从别人那里听来的,并非其原创。人工智能源自机器智能(Machine Intelligence),最早由图灵提出在英国国家物理实验室(NPL)的内部报告的《智能机器》(Intelligent Machinery)中。据维基百科,两词同义。

[2] 参见 Dartmouth AI Proposal (达特茅斯AI项目建议书), J. McCarthy 等人,1955年8月31日


1.2人工智能的定义和技术现状

1.2.1 人工智能的定义


概括而言,人工智能是关于知识的学科,是怎样表示知识、获得知识、并使用知识的科学。从人工智能实现的功能来定义,其是智能机器所执行的通常与人类智能有关的功能,如判断、推理、证明、感知、识别、理解、设计、学习、思考、规划和问题求解等思维活动。这些反映了人工智能学科的基本思想和基本内容,即人工智能是研究人类智能活动的规律。若是从实用观点来看,人工智能是一门知识工程学:以知识为对象,研究知识的获取、表示、及其使用,如下表所示。

图1.2.1-1


在人工智能领域,机器学习、深度学习、和神经网络是三个最频繁被使用的技术概念。概括地说,机器学习是一种实现人工智能的方法;深度学习则是一种是指通过多层的神经网络结构结合学习算法来实现机器学习的方法。人工智能与三者之间的关系,以及相关概念的介绍参见下图示意。


图1.2.1-2


1.2.2 人工智能的专门系统


按照人工智能的专门化程度,如下图所示,人工智能可以分为专门人工智能和综合人工智能两种,具体地:

· 专门人工智能:仅完成基础的、角色型任务;

· 综合人工智能:完成人类水平的任务,涉及到机器的持续学习;

图1.2.2-1


从目前人工智能的应用场景来看,当前人工智能仍是以特定应用领域为主的专门人工智能,而未来随着运算能力、数据量的大幅增长以及算法的提升,专门人工智能将逐步向综合人工智能转化。


1.2.2.1 机器学习


机器学习是人工智能的一个分支,该领域的主要研究对象是如何设计、分析、以及改进自动学习的算法。上述定义中“自动学习”的概念,是指无需直接对某些特征的识别进行计算机编程,而是计算机可以像人脑一样从数据中自动分析获得规律,以实现利用规律对未知特征进行预测的算法。


在机器学习领域,主要有以下四类学习方法:

图1.2.2.1-1


监督学习:

对具有概念标记的训练样本进行学习,以尽可能对训练样本集之外的数据进行标记预测。对于监督学习,所有的标记是已知的。因此,训练样本的歧义性低。监督学习算法的输出如果是连续的,称为回归;如果是离散的,称为分类。


非监督学习:

对没有概念标记的训练样本进行学习,以发现训练样本集中的结构知识。对于非监督学习,所有的标记是未知的。因此,训练样本的歧义性高。聚类就是典型的非监督学习。


半监督学习:

利用标记样本和未标记样本进行训练和分类。自动地对未加标记的数据加以利用,学习在整个数据分布上具有强泛化能力的模型。整个学习过程无需人工干预,完全基于学习系统自身对未加标记的数据的利用。


强化学习:

系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大。即观察后,再采取行动。每一个动作,都会对环境产生影响,而后环境以奖励的形式提供反馈以便指导学习算法。

图1.2.2.1-2


1.2.2.2神经网络


神经网络,是一种模仿生物神经网络结构和功能的数学模型或计算模型,用于对函数进行估计或近似。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部参数,是一种自适应系统。该结构包含可以像人脑中的神经元一样来解决复杂问题、以及学习的连接节点。


神经网络主要分为单层神经网络和多层神经网络。下面分别介绍。


单层神经网络:

图1.2.2.2-1


上图1.2.2.2-1为单层神经网络,它是最基本的神经元网络形式,由输入和输出两层神经元搭建而成,能解决“与、或、非”这些简单的线性问题。


多层神经网络:

图1.2.2.2-2


上图1.2.2.2-2为多层神经网络,它可以理解为是由单层神经网络堆叠而成的。第一层神经网络(如图中的输入层)会把大量矩阵数字作为输入,通过非线性激活方法取多个输入的权重,再产生另一个数据集合作为第二层神经网络(如图中的隐藏层1)的输入,第二层神经网络基于此输入与第一层神经网络进行类似操作,以此类推。其工作原理就像生物神经大脑一样,其通过合适的矩阵数量,多层组织链接在一起,利用学习算法,从大量关于特征的训练样本中学习统计规律,从而对未知事件进行预测,形成神经网络“大脑”进行精准复杂的处理。


多层神经网络中,在输入层和输出层之间有多个隐藏层,每个隐藏层可以理解为一个特征层次,每个神经元可以类似看作一个特征属性。


1.2.2.3深度学习


浅层学习

2006年之前,机器学习尚处于浅层学习阶段。虽然当时的神经网络也被称作多层神经网络,但是通常只有一层隐藏层,限制了特征的多层次学习。


深度学习

深度学习是通过训练多层神经网络结构得到关联权重,可以使数据通过网络便可自动获得更具体的含义,进一步可直接用于图形分类、语音识别、以及自然语言理解。具体地说,深度学习使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象,与目前的人脑模型接近,符合人类层次化的组织概念、由简至繁分层抽象的认知过程,其可以模拟人脑从外界环境中学习、理解乃至解决模糊歧义的过程。


深度学习领域的进展最直观的体现就是ImageNet大规模视觉识别挑战赛(ILSVRC),该竞赛包括分类定位、图像目标检测、视频目标检测、场景识别和分割等竞赛项目。

图1.2.2.3-1


上图1.2.2.3-1为ILSVRC比赛年份与分类错误率的示图。由上图可知,2012年之前,竞赛中分类错误率一直难以突破25%;在2012 年引入深度学习之后, 分类错误率骤降至16.4%,这标志了传统视觉方法被深度模型所取代的开端;2015年冠军的分类错误率低至3.57%,首次低于人类的测试结果5%。


1.2.3人工智能的技术分层


人工智能从技术分层来讲可分为基础设施层、技术层、和应用层。基础设施层最靠近“云”,而应用层最靠近“端”。如下图1.2.3-1所示。

图1.2.3-1


基础设施层:

基础设施层(基础支撑层)是人工智能最核心的载体,其中计算能力、算法(和框架)、以及和数据是人工智能产业发展的三大要素。


计算能力

大数据、云计算、GPU/FPGA等硬件加速、神经网络芯片等计算能力提供商;

数据

各行业、各场景的一手数据,例如:身份、医疗、购物、交通信息

算法和框架

TensorFlow、Caffe、Theano、Torch、DMTK、DTPAR、ROS等框架或操作系统

深度学习的各种算法


技术服务层:

建立在基础设施层之上的是技术服务层(通用技术层),最基础的通用技术包括计算机视觉、语音识别、和自然语言理解。


计算机视觉

计算机视觉是指用计算机代替人眼对目标进行识别、跟踪和测量,并进一步做图形处理,将其处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉识别技术可以进一步细分为:物体识别、物体属性识别、以及物体行为识别三类。物体识别包括:字符识别、人体识别、以及物件识别;物体属性识别包括:形状识别、以及方位识别;物体行为识别包括:移动识别、动作识别、以及行为识别。

语音识别

语音识别是以语音为研究对象,通过信号处理和识别技术让机器自动识别人类口述的语言之后,将语音信号转换成相应的文本或命令的技术。由语音识别、语音合成、自然语言理解、和语义网络等相结合的语音交互技术正在逐步成为当前多通道、多媒体智能人机交互的主要方式。

自然语言理解

自然语言理解是指研究用计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。


计算机视觉、语音识别、和自然语言理解三种技术具有共通的技术流程,具体地,其流程均分为训练、和预测两部分:


训练部分,是指利用学习算法对训练样本进行特征的选择、和提取以训练出分类器模型;预测部分,是指利用训练好的分类器对输入进行特征检测、判断和筛选。


图1.2.3-2


应用层

建立在技术服务层之上的是应用层,其包括应用平台和解决方案,如下表所示。


应用平台

从深挖技术入手,拓展应用平台。例如:行业应用分发和运营平台、机器人运营平台、机器人视觉开放平台。

解决方案

基于场景或行业数据,开发大量细分场景应用。例如:智能广告、智能诊断、自动写作、身份识别、智能投资顾问、智能助理、无人车等场景应用


1.3人工智能的发展趋势

1.3.1瓶颈与高潮


按照麦卡锡的划分,如果排除控制论的机器崛起的话,现代人工智能学科正处于第二次发展的高潮。没有什么学科像人工智能这样,在不算长的几十年期间里经历了如此剧烈的大起大落。这是因为人工智能的每一次衰落和崛起都是因为科学和技术预期目标遇到了瓶颈以及新的技术手段的出现解决了以前不能解决的问题。例如,在这次浪潮中,深度学习就解决了以前神经网络不能解决的语音和图像问题。随后。以强化学习为核心算法的AlphaGo又战胜了李世石和柯洁是一个标志,就像人们记忆中的“深蓝”战胜卡斯帕罗夫一样。又如逻辑派,知识图谱的进展也完全超越了专家系统的范畴。


人工智能的研发者正在不断回答着以前属于哲学家和科幻作家地盘的假设性问题,其中一些属于人工智能和普罗大众关注的终极问题。科学和工程的手段正在给回答这些问题提供可能,然而人们过高的期望并不一定导致经济上的泡沫。如果按照对人工智能技术发展的贡献度来排序,研究中心仍应聚焦在“算力”、“数据”和“算法”。没有足够的算力,就没有手段处理海量的数据,而很多算法的精华又是以某些特定的硬件为前提的。每当算力提升到达某个特定的临界点,就会使得相应的学习算法成为可能。


1.3.2预测和趋势


进入二十一世纪的第三个十年,无论是人工智能技术本身的发展还是其应用层面的解决方案已日趋成熟,全球范围内的AI模型企业和AI数据企业正在将AI模块整合在一起,使得AI“工业化”生产和应用成为可能,帮助实现了各行业赋能升级和转型的终极目的。这特别体现在AI解决方案在金融、医疗和教育等方面的应用。


AI硬件

AI芯片的日益成熟使其已然进入商业化的前期准备阶段。低成本化、专业化和系统集成化,使得神经网络处理单元(NPU)成为下一代终端侧CPU芯片组中的基本模块之一。未来越来越多的终端侧CPU芯片设计正在以兼容深度学习为核心支持进行着全新的芯片规划。并且,由此所导致的计算机体系架构、支持AI训练和预测计算的全新异构设计思路等将被重新定义。


深度学习与AutoML

作为近些年公认为业界最有效的算法技术之一,以深度学习为结构的开源平台极大降低了相关人工智能技术开发的门槛,在人工智能的具体应用领域有效地提高了质量和效率。自动机器学习为传统的机器学习构建了一个自动化的学习过程。以元知识为基础的适合数据自动选择、模型结构的调优和自主训练模型的配置搭建,大大降低了机器学习的成本和周期,使得AI应用迅速普及到各个商业领域。


5G与IoT

随着5G通讯技术和万物互联IoT技术的发展,边缘计算的能力将突破云计算中心的边界,向万物蔓延。人工智能技术与物联网技术结合的AIoT系统将允许物联网在没有人类参与的情况下自动学习和执行任务,这将在几乎所有的垂直行业(金融、制造、医疗、零售等)中提供最优的安全性和最佳的用户体验。AI将作为一种服务出现在各行各业和每个人的生活中。


量子计算

无论是“超级计算”或“超级智能”都不是这个维度(指知识和计算能力)近期能够实现的,人工智能的“奇点”似乎仍然遥不可及。但是“量子计算”也许能够为人工智能的发展带来新一轮的爆发。可编程的中等规模有噪量子计算设备已初步具备纠错功能,最终将能够运行具有一定使用价值的量子算法,这将使量子人工智能的实际应用得到极大助力。


标准与伦理

我们已经看到了通讯技术已经发展到了第五代(5G),并且正向第六代(6G)展望。然而,AI技术的相关标准仍未出现。实际上,随着新冠疫情的爆发和蔓延,给各行各业带来了诸多挑战和压力,大量员工在家远程办公,人们转而向人工智能来寻求改善利益相关方的用户体验。这样,像全球人工智能伙伴关系这样的国际合作伙伴关系已经从幕后走向前台,焦点问题例如“如何确保利用人工智能应对重大全球问题、确保包容性和多样性”和“一致性算法的公平性和数据的透明度”。同时,关于人工智能的伦理问题也越来越多地成为人们讨论的焦点。