Facebook如何使用"我们"的数据去构建人工智能

"当我第一次在贝尔实验室做到部门主管时,我的老板对我说,你需要记住两点:首先,永远不要让自己陷入团队内部的竞争。第二,只雇佣那些比你更聪明的人,"LeCun说。

负责领导语言研究子群的Leon Bottou,是LeCun的一个老同事。他们一同研发了神经网络模拟器,1987年的AmigaOS就是他们的第一个作品。Bottou 2015年3月加入的FAIR,此前他在为微软研究组工作的同时,还致力于机器学习和机器推理的探索。

Facebook如何使用

从左数起,Leon Bottou, Yann LeCun, 还有Rob Fergus,在Facebook的纽约办公室里工作

2014年11月,LeCun请来 Vladimir Vapnik作为他们的团队顾问。Vapnik和LeCun曾一起在贝尔实验室工作,发表了关于机器学习的形成性研究,其中包括一项测量机器学习能力的技术。Vapnik是统计学习理论之父,统计学习理论即基于既定数据的预测。预测,对人类来说似乎是一个简单的任务,实际上却需要关于预先形成的概念和对世界的观察的海量信息(更多是后者)。Vapnik,这一领域的先驱,基于他在知识传播上的兴趣,继续着这一领域的工作,并把师生互动时的线索运用在机器学习当中。

目标

团队的规模和科研力量允许Facebook拥有雄心勃勃的长期目标,绝不会达不到被LeCun称为"明确的智慧"的标准。

"迄今,最好的人工智能系统也是愚钝的,因为它们没有常识。"LeCun说道。他用一种情况举例,比如我拿起一个瓶子,然后离开房间。(我们在纽约Facebook的会议室里讨论真正的机器智能的诞生,而这个房间的名字却不怎么吉利—— Gozer the Gozerian,与《捉鬼敢死队》里面的反派同名。)人类的大脑不难想象出一个人拿起瓶子然后离开房间这么个简单的场景,但对一台机器来说,仅这个前提就会导致大量的信息缺失。

Yann一边说,我一边在心中想象这个场景:"你很可能站起来,即使我在语句中没有提到,你也很可能走动;你打开门,走进去,也许还会关上门;瓶子不在房间里。由于知道真实世界的情况和界限,你可以借由判断。因此我并不需要告诉你所有的细节。"

现在对于机器如何学习该水平的推理,人工智能领域的专家知道得并不多。在向这个目标迈进途中,Facebook正致力于制造能足够好地学习已知世界的机器。

LeCun说:"最大的障碍是自助式学习(unsupervised learning)。"现在机器主要通过一两种方式进行学习,即他助式学习(supervised learning)——在系统中,向机器展示成千上万的狗的图片,直到机器了解了狗的特征。谷歌的DeepDream以研究者反转流程以揭示出其有效性对这一方法进行了阐释。

另一种方式是增强学习(reinforcement learning),即机器对给出的信息以是或否的二择一的方式进行选择,以给出一个答案。这种学习耗费的时间稍长,但是机器被强制由自身做出内在的抉择。当这两种学习方式结合起来时,就会产生强大结果。(还记得DeepMind Atari吗)。自助式学习不需要反馈或者输入,LeCun表示这就是人类的学习方式。我们发现、得出结论,并将其加入到人类的知识库存之中。这,被证明是一项艰巨的任务。

LeCun笑着说:"我们甚至没有一个用以发展人工智能的基本指导原则,很明显,我们在努力寻找。我们有很多点子,只是目前没一个奏效罢了。"

真正人工智能的早期探索

但是这并不是说以前的探索没有成果。现在让LeCun激动的是关于"记忆网络"的工作,其可以被整合进积卷神经网络,并使它们获得记忆保持的能力。LeCun把这个新的记忆模型比作大脑中的分别由海马体和大脑皮层控制的短期记忆和长期记忆(LeCun厌恶把CNNs比作大脑,相反他更喜欢这个模型:一个带有50亿把手的黑箱)。

记忆单元允许研究者向该"记忆网络"讲说一个故事,随后使该网络回答关于这个故事的问题。

故事选自《指环王》一书。我们不把全书而是书中主要情节的简短概述("比尔博拿到了魔戒")讲给"记忆网络",当被问及在书中某一具体情节中魔戒在哪里,这个"记忆网络"能做出简短正确的回答。Facebook 熟悉科学官Mike Schroepfer说(他强调技术可以帮助Facebook以更高的精确度向人们展示其想看到的)这意味着它理解书中事物与时间的关系。