人和机器的视觉体验:为什么人工智能

人和机器的视觉体验:为什么人工智能

Google 的人工智能机器人将普通的照片生成了带有幻觉的图像,工程师们把这些图像和梦境进行比较,并将 Google 的这种图像生成手法命名为“盗梦风格”(Inceptionism),将所使用的生成代码叫做“深度梦境”(Deep Dream)。

但是许多人在观看了这些图像之后都有一个相同感受:它们并不是来自一个梦幻的世界,而是嗑药之后的反应。

在电脑生成的图像中充斥着色彩的变幻,扭曲的线条,拉长的脸孔,漂浮着的眼睛,以及由阴影和光线组成的、令人不安的波浪形状。电脑看起来像是出现了幻觉,看起来有点像是人类,太奇怪了。

深度梦境

这个项目背后的主旨是,通过命令机器描述它所看到的画面,来测试计算机神经网络对不同动物和风景图像的学习达到了一种怎样的程度。与以往向计算机展示一幅树木的图片,之后让它“告诉我这是什么”的做法不同,工程师这一次让机器做的事情是“放大你看到的图像元素。”

这是给电脑看的原图

1.jpg

机器输出的结果是这样的:

22.jpg

Google 工程师表示,这种效果与人们可能从不同形状的云朵中看出形状的情况并无不同。当给出能够辨识出的图像时,人类——还有计算机——会分辨并“过度解读”(over-interpret) 已知事物的形状。

“(Google 所使用的) 神经网络主要靠动物图像进行训练,所以很自然地它就会将图形解读成动物。但因为数据是以很高的抽象程度被存储的,所以结果就是这些机器学习特征的有趣组合,”Google 工程师在该公司的官方博客上这样写道,“基于图像的不同,结果也非常不一样,因为输入图像的特征会导致神经网络倾向形成某些解读。比如,水平线条会用佛塔的造型填充,岩石和树木会变成建筑。鸟和昆虫出现在叶子的图像里。”

因为神经网络以层的形式分析图像——通过色彩、线条类型和形状描述,等等——生成结果的复杂程度取决于工程师要求计算机放大的是哪个层。最低一级的层是轮廓——线和阴影——最高一层则是更加复杂的画面。“比如,偏低的层往往会生成笔画线或是简单的像装饰一样的图案,因为这些层对于基本特征如边缘和方向这些属性来说要比较敏锐。”Google 工程师这样写道。

这些简单的图案模式,经由“深度梦境”放大强化之后,结果看上去就变得扭曲和魔幻。但是为什么画面会变成这样,仍旧没有回答 人们提出的问题:为什么电脑神经网络“梦到”的画面会反应出人类嗑药后才有的致幻体验?

视觉体验

“要记住很重要的一点是,人类所有正常的感观体验都是经由感观输入限制后的幻觉,”纽约大学兰恭神经科学所 (New York University's Langone Neuroscience Institute) 研究助教 Lucas Sjulson 这样说道,“我们的幻觉从某种程度上说反映出外在世界的真实情况。但是感知全都是在内部形成的。”

换句话说,所有人类感知都是由大脑思维形成,而不在真实世界形成,即便你感知到的是真实存在也是如此。“人们将眼睛看作像摄像头一样,但其实不是,”Lucas Sjulson 解释说。你的眼睛能够让你看到东西,但你的大脑才是真正将看到的事物进行解释的器官——无论是放在桌上的咖啡杯,还是在你脑中投射分型图像的万花筒。

当人们使用致幻药物的时候 (LSD),会刺激大脑的某个皮层“产生这一类模式的形成能力”。所以当习惯处理多层图像的电脑被命令针对某一层图像进行放大时,出现类似的视觉效果,就不奇怪了。“我认为这大概是类似现象的一个例子。如果你研究一下头脑的运作,会发现它参与长时间解决问题的活动,而且以一种高度优化的方式进行。人类在进化中学习,同样也要靠视觉体验。