我尊敬的一位长辈-相思引
人工智能系统智商评测方法报告
撰写人:刘锋 计算机博士
《互联网进化论》作者
0.背景
伴随着2016年AlphaGo战胜人类围棋冠军李世石
,世界范围人工智
能迅猛发展,人工智能威胁论也因此广泛传播,同时智能产品蓬勃发
展,不断
涌现。人工智能究竟能不能超越人类?这些智能产品的智能
究竟达到什么水平?回答这些问题都需要用定
量的方法测试智能系
统的发展水平。
从1950年图灵测试提出以来,科学家已经为
人工智能发展的评价体
系做了很多工作。1950年,图灵提出了著名的图灵实验,采用提问
和
人类裁判的方法,判断一台计算机是否具有同人相当的智力。作为
最被广泛应用的人工智能测试方法,但
图灵测试并不检验Ai的智能
发展水平,只是判断智能系统能否与人类智能相同,而且受人为因素
干扰太多,严重依赖于裁判者和被测试者的主观判断,因此往往有人
在没有得到严格验证的情况下宣称
其程序通过图灵测试,
2015年3月24日“美国科学院院刊(PNAS)发表一篇论文
,提出一
种新的图灵测试方法“Visual Turing test”
,这种测试方法用来
对计算机的图像认知能力进行更为深入的评估。
2014年美国佐治亚技术学院的瑞德教授(Mark O.
Riedl)认为,智
能的本质在于创造力。他设计了一个叫做Lovelace 2.0
版本的测试。
Lovelace 2.0
的测试范围包括:创作有虚拟故事的小说、诗歌创作、
油画和音乐等。
在解决人工
智能定量测试的问题上,包括图灵测试在内的各种方案还
存在两个问题:第一,这些测试方法没有形成统
一的智能模型,并以
此为基础进行分析,区分智能的多个分类。导致无法将不同的智能系
统包括
人类进行统一的测试;第二是这些测试方法无法定量分析人工
智能,或者只定量分析智能的某个方面,但
这个系统究竟达到人类智
慧的百分之多少,发展速度与人类智慧发展速度比率如何,这些问题
在
上述研究中没有涉及。
针对这些问题,科学院虚拟经济与数据科学研究中心刘锋、石勇研究
团队提出:根据评测目的的不同,智能系统的智能水平评估存在三种
智商,分别是:智能系统的
通用智商,服务智商和价值智商。这三种
智商的理论基础,详细定义和评测方法将在以下内容中做详细阐
述。
1.理论基础:标准智能系统和扩展的冯诺依曼架构 对智能系统包括人类和人工智能系统的智力能力进行评测面临两个
重要挑战:第一,人工智能系统目
前没有形成统一的模型;第二,人
工智能系统与以人类为代表的生命体之间的比较目前没有统一的模型。
针对这一问题,2014年 ,中科院虚拟经济与数据科学研究中心研究
团队成员,
刘锋,石勇,刘颖参考冯·诺伊曼结构、戴维·韦克斯勒
人类智力模型、知识管理领域DIKW模型体系
等。提出“标准智能模
型”,统一描述人工智能系统和人类的特征和属性,将任何一个智能
体视
为一个具有“知识的获取,掌握,创新和反馈”的系统。
其中,冯·诺伊曼结构给我们的启发是:标准
智能系统模型应包含输
入输出系统,能够从外界获取信息,能够将内部产生的结果反馈给
外部世
界。只有这样,标准智能系统才能成为“活”的系统。
戴维·韦克斯勒关于
人类智能的定义给我们的启发是:智力能力由多
个要素组成,而非图灵测试或视觉图灵测试那样只关注智
力能力的一
个方面。
DIKW模型体系给我们的启发是:智慧是一种解决问题、积
累知识的
能力;而知识是人类不断与外界交互后沉淀下来结构化的数据和信
息。一个智能系统不
仅仅要掌握知识,更重要的是还要有解决问题的
创新能力。这种对知识的掌握能力、解决问题的创新能力
与戴维·韦
克斯勒理论、冯·诺伊曼架构相结合,就可以形成智能系统智力能力
的多层次结构“
标准智能模型”。
根据上述研究,可提出标准智能系统的判定标准:任何系统(包括人工智能系统、人类等生命系统),如果符合如下特征,就可以认为这
个系统属于标准智能系统。
● 特征1:能通过声音、图像、文字等方式(包括但不限于这三种
方式)从外
界获取数据、信息和知识的能力。
●
特征2:能够将从外界获取的数据、信息和知识转化为系统掌握
的知识。
● 特征3:能根据
外界数据、信息和知识所产生的需求,通过运用
所掌握的知识进行创新的能力。这些能力包括但不限于联
想、创作、
猜测、发现规律等,这种能力运用的结果可以形成自身掌握的新知识。
● 特征4
:能够通过声音、图像、文字等方式(包括但不仅限于这
三种方式)将系统产生的数据、信息和知识反馈
给外界或对外界进行
改造。
二.智能系统三种不同智商的定义
2.1
AI通用智商的提出
基于标准智能模型,研究团队建立AI智商测试量表,分别与2014年
和2016年对包括谷歌、Siri、百度、Bing等50多个人工智能系统
和6岁,12岁和18岁
人群进行AI智商测试。
2014年根据智能系统统一模型,我们将从知识的获取能力(观察能
力)、知识掌握能力、知识创新能力,知识的反馈能力(表达能力)
等四大方面建立人工智能智商评价
体系,并从这四个方面建立图像、
文字、声音识别、常识、计算、翻译、创作、挑选、猜测、发现等十<
/p>
五个小类分测试,形成人工智能智力量表,通过这个人工智能智力量
表建立相关题
库,对世界50个搜索引擎和3个不同年龄段的人类进
行测试,形成2014版人工智能智商排名列表,
如表4.1所示(显示
其中的前13个测试结果)。
2016年2月,研究团队开
展了“2016年人工智能系统的智商测试”,
目前已对谷歌、百度、搜狗等人工智能系统以及苹果Si
ri、微软小
冰等进行了测试,工作还在进行中。不过从已完成的工作看,谷歌、
百度等人工智
能系统的性能比两年前已有大幅提高,但仍与6岁儿童
有一定差距。
应该说上述AI智商测试是为了解决AI能否超越人类智能这个问题而
开展的,这个研究是将每一个智
能系统包括机器人,AI软件系统,
人类,动物和其他生物当做平等的智能体,观察其与自然界,其他智
能体在交互中显示出来的智能水平。
AI通用智商的定
义如下:基于标准智能模型,为了解决“评价各智
能系统发展水平高低”的问题,将各智能系统视为平等
的智能体,通
过统一的AI智商测试量表形成的智能评测分数,可以称为AI系统的
通用智商
Artificial intelligence General intelligence
quotient (AI G IQ)。
2.2. AI服务智商的提出 <
br>在实践中,我们发现除了少数AI系统的产生是出于科学实验目的,
不为人类提供辅助性服务,其
他大多数AI系统是为了更好的服务于
人类而被制造出来,它的智能也主要体现在为人类服务的过程中,
智
能水平越高,也就能更好的为人类提供服务。
这种情
况下,如果用AI的通用智商标准进行评测,就明显与产品的
最初被制造出来的目的有重大差异。这就需
要我们根据此类AI系统
的特点,基于标准智能模型,选择与服务相关的指标进行评测,
<
br>这些指标与AI的通用智商评测指标有相关性,但又有比较大的差异。
包括对人工智能的法律,伦
理道德等约束条件也应该放在智能系统服
务智商中。而不用放在智能系统的通用智商中。
<
br>AI服务智商的定义:基于标准智能模型,为了回答“智能系统如何
才是更好的服务于人类”的问
题,对智能产品在服务过程中体现的智
能水平进行测试,并形成的智能评测分数,可以称为AI系统的服
务
智商,Artificial intelligence seveice
intelligence quotient
(AI S IQ)。
价值智商提出
为人类提供服务或支撑性工作的AI系统,往往会由不同的公司和企
业
提供相应的智能产品,例如智能音箱就有亚马逊、百度等品牌,智
能聊天机器人包括科大讯飞、苹果Si
ri等,由于是由不同企业生产
制造,完成相同或相近功能,每个企业的造价或售价也会
不同,服务
智商与成本或价格关联会对消费者购买智能产品产生重要的影响。
AI
价值智商的定义:基于标准智能模型,为了帮助使用者判断需要
用多大经济代价获得智能系统的智力能力
, 将智能系统的服务智商
除以该系统的出售价格,形成的智能评测分数,可以称为AI系统的
价值智商,Artificial intelligence Value intelligence
quotient (AI V IQ)。
三.智能系统通用智商和服务智商的测试量表设计。
3.1.智能系统通用智商的测试量表
为了解决AI能否超越人类智慧的问题,2014年开始,本文研究者根
据标准智能模型把智能
分为“知识的获取,掌握,创新和反馈”四类
能力,在这四类之下又分成15个小分类能力,从更多维度
评测AI,
人类的智能。这15个小分类是:图像、文字、声音的识别和输出,
常识、计算、翻
译、排列,创作、挑选、猜测、发现等能力,每个小
分类有不同的权重。
<
br>2017年,根据人工智能的发展和对智能的最新研究。研究团队将AI
通用智商评测量表从测试
分类和分类权重进行调整,主要调整的内容
增加了:1.识别动态图像的能力,2.情绪的识别与表达能
力,3.识别
敌我的能力,4.伪装真实意图的能力,5.实现移动定位的能力,6.
实现改造
世界的能力。除此之外对常识和创作的测试也做了更为细化
的工作。
令智能系统的
通用智商为IQ
AIG
,FG
i
是二级评价指标项得分,WG
i是二
级评价指标项的权重,N是评价指标项的个数。因此智能系统的通用
智商公式如下:
3.2.智能系统的服务智商测试量表
目前存在大量智能系统,例
如聊天机器人,智能化的搜索引擎,智能
音箱,智能手机,智能汽车,智能洗衣机,智能冰箱等,它们大
部分
是作为商品服务于人类的某一需求,这些智能系统可以称为智能产
品。
在标准智能系统和扩展的冯诺依曼架构下,提炼他们共同的智能特
征,并根据不同的服务需求,形成如
下智能系统服务智商的测试量表。
在这个服务智商的测试量表中主要突出了以下几个方面.
1.感知周围智能系统和使用者身份的能力
2.与互联网云端交互的能力。
3.将自身内部状况实时显示给使用者,出现故障给予支持的能力
4.按符合当地法律和伦理道德服务人类的能力
5.危险情况下保护使用者和其他人的能力
6.自身能源使用和自动补充的能力
智能系统的服务智
商为IQ
AIS
,FS
i
是二级评价指标项得分,WS
i
是
二级
评价指标项的权重,N是评价指标项的个数。因此智能系统的服务智
商公式如下:
作为一个智能产品服务智商的标准量表,为了尽量全面的覆盖不同种
类的
智能产品,在设计智能产品服务智商测试量表时,在测试量表中
从知识的获取,掌握,创新和反馈四个方
面为同智能产品留下接口:
1)在知识的获取分类中增加了”其他”信息输入方式,用来评估
智能产品在知识输入方面的新方式。
2)在知识的掌握中,增加了“专业常识”,用来
评估不同领域智
能产品的专业方面技能,
3)在知识的输出能力中,增加其他输出能力,用来评估智能产品
在知识输出方面的新方式。
3.3 AI价值智商的形成方法
根据智能系统AI价值智商(AIVIQ)的定义,如果该
智能系统通过出
售变为产品服务于人类,令智能系统的服务智商为AISIQ,该智能产
品的公
开售价为P,形成智能系统价值智商的公式如下:
IQ
AIV
=(IQ
AIS
p)*100
四.针对小爱音箱、天猫精灵、京东叮咚的AI测试
4.1.测试结果
4.2。测试说明:
1.因为对智能产品的智商测试是一项没有先例的科学实验和研究,会
处于不断修正和发展的过程,因此
研究团队并不认为这个测试结果是
完全成熟和客观的。希望通过这个测试结果的发布,接受更多指正意<
br>见,以推动这项研究的深入。
2。本次测试由科学院虚拟经济与数据科学研究中心刘锋,石勇,刘
颖团队基于团队的AI I
Q测试方法对智能音箱进行的AI智商水平测
试,人工智能学家未来智能实验室发布。相
关研究论文请参考:
http:
3.本次测试为2017年12月20日测试结果,测试产品
在测试日和发
布日之间的会有智能提升情况,本报告不能进行及时反映。
4.为了区分AI通
用智商和服务智商,在得分上AI通用智商总分为
100分,AI服务智商总分为1万分(实际得分*1
00),因为本次重点
测试智能音箱在服务人类过程中体现的智能,因此本次没有测试AI
通用
智商。(相关概念请看下文)
5.作为智能音箱重要的辅助和控制工具,智能手机智能音箱APP的功
能也在考察范围内 <
br>6.智能音箱专业技能的设置,根据智能音箱的为了实现为人类服务的
特定目标,反映智能音箱应
该掌握的专业知识的能力,这些能力包括
但不仅限于闹钟,故事,提醒,控制设备,天气,新闻,娱乐,
游戏,
定位,购物等等
7.从测试结果看,小米音箱在基本常识和专业技能,交互友好度等方
面表现较优,在设备互联方面京东叮咚和阿里天猫精灵表现较好,原
因是小米音箱目前只能控制
小米的智能产品,而京东和阿里属于平台
型互联网企业,合作商家多于小米音箱。阿里天猫精灵在识别用
户身
份上略优于其他两个品牌
8.从测试结果看,智能音箱总体在自动联网方
面明显较弱,用户需要
多步骤配置,不够智能。由于智能音箱主要通过声音进行交互,因此
总体
得分不高。但作为人类重要的交互方式,图像输入和展示未来是
不是智能音箱必备的功能值得厂家关注,
目前亚马逊和腾讯的智能音
箱产品已经具备了图像输入和展示功能,但带来的负面影响是成本会
大幅度提高。
5.总结
通过AI三种智商认为,智能系统根据不同的使用和评测
目标,可以
有三种不同的智能水平评测方法和由此得出的三种智商:AI通用智
商,AI服务智
商和AI的价值智商,其中AI的通用智商已在2014年
以来的论文中进行深入研究,也通过AI系统
和人类的共同评测,分
析了谷歌,SiRi,百度等与人类通用智商的差异。
本文
新提出的AI服务智商和AI的价值智商为评测智能产品的智能水
平提供了理论分析和实现方法。后续工
作将基于AI服务智商量表,
面向具体的智能产品,如智能音箱,智能手机,智能汽车,智能洗衣
机,智能电冰箱等,开展他们的AI通用智商、服务智商和AI价值智
商的评测工作。
六.关于AI IQ的研究论文从2014到2017年共有4篇,地址为:
http:encearticlepiiS1877#!
https:icle10.1007%2Fs40745-017-0109-0
http:abs10.1142S0030
https:1712.06440
七.新闻媒体报道
2017年麻省理工科技评论,美国CBNC,日本每日新闻,以及中国,
欧洲,中东等
国家和地区主流媒体对研究团队AI IQ研究的报道。
https:609120now-theres-an-iq-test-
for-s
iri-and-alexa
https:20171002google-
ai-has-almost-twice-the-iq-of-
http:iclegoogle-ai-vs-siri-vs-bing-iq-tests-
show-
one-is-smartest-by-a-mile
http:iclest
echnologytechnology201710a_i_s_iq_
is_still_som
ewhat_
https:gles-ai-still-isnt-smarter-than-
a-first-grade
r
http:nologystorygoogle-ai-
is-now-as-sma
https:cles20171005k0000m020065000c
刘梓辰-雨的英文
致我们终将失去的青春-西安世园会地址
给远方亲人的一封信-写事作文开头
简爱的读后感-桥梁远景图
关于尊严的作文-团员个人小结
高考作文素材大全-五年级数学试卷分析
蛋花儿-日全食多少年一次
家庭趣事作文500字-变美
-
上一篇:测试儿童智力脑筋急转弯大全及答案
下一篇:情绪智力的测量