如何测量智能产品的AI智商水平,论AI的三种智商

赞助本站

前言:本文是未来智能实验室关于人工智能智商的最新研究文章,主要提出智能系统的智能水平会因为测试目的的不同,产生三种不同的智商类型,针对这三种AI智商,本文也提出对应的测试方法和数学公式。相关英文论文与2017年12月19日发表在美国康奈尔大学的预印本网站arxiv.org上,论文地址为:https://arxiv.org/abs/1712.06440

我们在研究中发现,人类在讨论AI的智能发展水平时,需求和目的并不相同,由此在评估AI智商时也会出现差异,第一个目的和需求是评判当前的AI系统(或机器人)是否在智力上超越人类 ,第二个需求和目的是了解一个智能产品在服务人类时,究竟有多么聪明,和要付出多少价格。根据这一关键区别,未来智能实验室提出AI系统应该存在三种智商,分别是通用智商、服务智商和价值智商。

作者:刘锋,计算机博士,互联网进化论作者

0.背景

伴随着2016年AlphaGo战胜人类围棋冠军李世石,世界范围人工智能迅猛发展,人工智能威胁论也因此广泛传播,同时智能产品蓬勃发展,不断涌现。人工智能究竟能不能超越人类?这些智能产品的智能究竟达到什么水平?回答这些问题都需要用定量的方法测试智能系统的发展水平。 ? ?

从1950年图灵测试提出以来,科学家已经为人工智能发展的评价体系做了很多工作。1950年,图灵提出了著名的图灵实验,采用提问和人类裁判的方法,判断一台计算机是否具有同人相当的智力。作为最被广泛应用的人工智能测试方法,但图灵测试并不检验Ai的智能发展水平,只是判断智能系统能否与人类智能相同,而且受人为因素干扰太多,严重依赖于裁判者和被测试者的主观判断,因此往往有人在没有得到严格验证的情况下宣称其程序通过图灵测试,

2015年3月24日“美国科学院院刊(PNAS)发表一篇论文,提出一种新的图灵测试方法“Visual Turing test” ,这种测试方法用来对计算机的图像认知能力进行更为深入的评估。

2014年美国佐治亚技术学院的瑞德教授(Mark O. Riedl)认为,智能的本质在于创造力。他设计了一个叫做Lovelace 2.0版本的测试。Lovelace 2.0的测试范围包括:创作有虚拟故事的小说、诗歌创作、油画和音乐等。

在解决人工智能定量测试的问题上,包括图灵测试在内的各种方案还存在两个问题:第一,这些测试方法没有形成统一的智能模型,并以此为基础进行分析,区分智能的多个分类。导致无法将不同的智能系统包括人类进行统一的测试;第二是这些测试方法无法定量分析人工智能,或者只定量分析智能的某个方面,但这个系统究竟达到人类智慧的百分之多少,发展速度与人类智慧发展速度比率如何,这些问题在上述研究中没有涉及。

针对这些问题,研究团队提出:根据评测目的的不同,智能系统的智能水平评估存在三种智商,分别是:智能系统的通用智商,服务智商和价值智商。这三种智商的理论基础,详细定义和评测方法将在以下内容中做详细阐述。

1.理论基础:标准智能系统和扩展的冯诺依曼架构

对智能系统包括人类和人工智能系统的智力能力进行评测面临两个重要挑战:第一,人工智能系统目前没有形成统一的模型;第二,人工智能系统与以人类为代表的生命体之间的比较目前没有统一的模型。

针对这一问题,2014年 ,中科院虚拟经济与数据科学研究中心同时也是未来智能实验室研究团队成员,刘锋,石勇,刘颖参考冯·诺伊曼结构、戴维·韦克斯勒人类智力模型、知识管理领域DIKW模型体系等。提出“标准智能模型”,统一描述人工智能系统和人类的特征和属性,将任何一个智能体视为一个具有“知识的获取,掌握,创新和反馈”的系统。

基于这个模型与冯诺依曼架构结合,可以形成扩展的冯诺依曼架构,相比冯诺依曼架构,这个模型增加了创新创造功能,即能够根据已有的知识,发现新的知识元素和新的规律,使之进入到存储器,供计算机和控制器使用,并通过输入/输出系统与外部进行知识交互。第二个增加的是能够进行知识共享的外部知识库或云存储器,而冯·诺伊曼架构的外部存储只为单一系统服务。扩展的冯诺依曼架构在构建AI的智商中将起到重要的作用。