人工智能领域的“刷分”该结束了

对于那些在人工智能领域的一些跑分测试上「刷分」的公司来说,到了算总账的时候了。

从 2014 年开始,人工智能领域突然成为了基于科研能力的科技初创公司和大公司竞相发力的热门领域。国内外各公司频繁发布图像、语音识别等相关人工智能领域的研究成果和学术论文。以百度为首,以及另外一群华裔教授离职创业的初创公司为主力军的公司对这口尤为喜爱,他们的 paper 发的特别多,在 ImageNet、LFW 或者其他图像和语音识别题库上,个个都奔着 100% 的正确率飞速进发。

百度无疑是当中成绩最卓越的那一家。百度深度学习研究院(IDL)在人脸识LFW数据库的测试中取得了99.62%准确率,比第二名 Facebook 的成绩高出了整整 2%,甚至比斯坦福大学用真人来做比对测试的成绩 99.2% 还要高;上个月中旬又有新的好消息传出:ImageNet 图像识别测试的错误率低至 4.58%——依旧比第二名的 Google,以及真人练习测试的成绩都高;更早前,百度首席科学家 Andrew Ng 亲自带队发布了自研的 语音识别系统 Deep Speech 的成绩论文 ,号称远超 Google 和苹果等对手的系统。

接着,连一个月不到,百度在 ImageNet 上作弊的消息就传出来了。

先不谈作弊事件本身。借助一些识别类题库的规则打擦边球,提高自己的成绩,已经不是第一次了。在这些具体事例背后,我们看到的是一个频繁发 paper 在学界刷存在感,急于给自己打上人工智能标签的百度。

作为国内可能是首个开始关注人工智能行业刷分乱象的大众媒体记者,几个月以前我明确报道过以下这些情况:

1)人工智能领域刷分的情况已经太过严重

强调技术牵头人/团队创始人是海归大师学术泰斗,强调天使或 pre-A 就获得世界知名基金数千万美元投资,经常出席各类场合陈词滥调人工智能,千篇一律预测人工智能发展未来——这恐怕是整个互联网创业圈的通玻人工智能公司怎样证明自己?在没有足够简单,足够黑科技,能被大众理解的产品出现之前,刷分是最好的方法。分数高,就是厉害——饱受应试教育摧残的中国人一定明白这个道理。

人工智能公司为什么要通过刷分的方式证明自己,逻辑其实也很好理解:对于大公司来说,招聘了世界顶级的研究人才,在公司上下 99% 的其他员工不理解的方向上做着研究,花费着公司主营业务收入赋予的大量研究经费,就算没有特别能应用到核心产品里的结果产出,到了年底总得交点 KPI 上来吧?对于初创公司来说,产品无论卖给 B 端还是 C 端用户,人工智能根本就是个 to VC 的行业,是资本密集型产业,总得让做出点成绩让 VC 老爷们看吧?

2)在学术的测试上跑出过高的分数,对于实际商业化和应用到生活当中并无太多意义

刷分就像应试教育,大家都以为谁分数高就一定厉害。然而,对人工智能领域刷分乱象解释地最好的一句话就是:不看广告看疗效。商业化对于人工智能的研究尤为重要,直接决定了重金投入的研究到底有没有实质性的作用。没有商业化的产品落地,没有得到比实验室测试数据量更大的大规模用户数据的填充和反哺,就根本说明不了一颗人工智能的大脑有多聪明。

我曾经采访过的一位人工智能研究者对我讲出了真话:现阶段聪明的人工智能差异根本不在于多会思考,大家的「智能」水平都差不多。更聪明的大脑单纯只是有更多的数据,也就是知识储备。博览群书的人大多出口成章下笔如有神,这个逻辑其实放在人工智能领域一样有效。

人脸识别技术公司 Face++曾经做过一个实验,把自己在 LFW(人脸识别题库)当中得到 99.5% 准确率的系统拿去到金融人脸识别的实际场景里,得到的通过率连万分之一误识率 70% 都不到。LFW 的样本量是 6000 个,想要取得更高成绩的直接方法就是熟记题库然后做优化,这就是大部分公司刷分的公司分数越来越高的最直接原因。

这个高分有没有用?在现实情况中,样本量根本不是 6000 个,假如支付宝钱包使用的是这个跑分超高的人脸验证系统,需要识别的量达到三个亿,刚才那个万分之一误识率 70% 通过率的成绩,就意味着一万个人里面至少有 1 个会被认错,而所有认对的人里面还有 30% 无法通过——意思就是说,一万个登陆支付宝钱包的用户里面就会有一个人被认成另外的人,登陆到错误的账号里;而其他里面高达 30% 比例的用户无法登陆,因为系统根本识别不了他们到底是对是错。如果这个跑分超高的系统被实装,结果就是严重(1/10k)的安全隐患+严重的用户体验降低。