人工智能领域的“刷分”该结束了

所以你问我跑分有意义吗?对于学界之外的大部分人来说,根本没有任何意义。

3)更何况还是在作弊的前提下跑出这个分数。

根据组织方的记录, 百度在过去的 6 个月内通过 30 个账号提交了大约 200 次测试结果,仅在 3 月份的 5 天里就突击提交了逾 40 次测试结果 。而根据 ImageNet 的官方规则,测试参与者每周只能向测试服务器提交 2 次结果。这意味着,百度在 6 个月的时间里,比制定的最高可参与次数多了 150 次之多。想象一下:如果让你知道高考的固定题目,然后再半个学期里多参加 150 次考试,拿个 749 分岂不是比踩死一只蚂蚁还容易?

半年前,百度使用自研的Deep Speech双向循环神经网络语音识别系统达到了非常低的识别错误率。由于论文中 Deep Speech 被研究者和苹果的听写系统、必应的对话系统以及 Google 的语音 API 拿来作对比,Deep Speech 错误率比前面几个不知道低到哪去了。这使得当时一部分国外媒体给出了百度语音识别准确度远超 Google 苹果的标题或小标题。

然而,Google 和苹果的语音 API 已经在很长时间内实现了商业化,而用户进行语音搜索和识别的时候往往通过移动互联网进行,带有特定的实际工作和生活目的去进行搜索,所以和准确率相比显然要对搜索的实时率进行优化;而 Deep Speech 是一个无计算资源限制、面向识别准确率调优的研究系统,和有高度限制,要求解码效率的商业系统,根本不具备可比性。学术不像学术,商业不像商业。更别提,这篇论文并未发布在语音识别的版块里,从学术的角度上无法被认作是语音识别方面的技术进展。

后话:

刚一听闻「百度为人工智能测试违规道歉」的消息,我的感觉不是愤怒或者暗爽,而是悲伤。基于我对百度并不全面的了解,相比交互方面的研究,语音和图像识别的研究在大百度和 IDL 内部不是被投以最高重视的方向。和投产相比,识别方向的人工智能在百度更重要的作用恐怕是每年刷刷 paper,交交 KPI。百度的人工智能研究能力不应该被质疑。 事实上,百度可能是国内在这方面投入最大,取得的真实成绩最好,最有希望将相关技术商业化的所有公司当中,最耀眼的那个明星。它是中国公司,跳出商业的范畴,已经在一定意义上成为了中国人工智能研究的明星,是中国人工智能实力的代表。而百度现在就像一个被宠坏的孩子一样,急于让世界承认自己。你问我刷分是错吗?我不认为这错了,我只是单纯的认为,选择了刷分,其实就是自己放弃了让世界用正确的姿势认识百度实力,甚至是中国实力的机会。

和智能手机计算性能一样,人工智能领域因为缺乏更多客观的差异性,也已经沦为刷分的重灾区。百度不是第一家这样做的公司,也绝对不会是最后一家。从商业角度,用刷分成绩来面对 VC 和上级是可耻的行为;从大众的角度,刷分的行为对普通民众对人工智能发展程度的理解造成了严重的迷惑。更何况,对于学界来说,刷分也是最不负学术责任的莽撞行为。Either way,刷分的行为应该被严令禁止,「刷」分得来的成绩应该被 VC、研究单位上级和大众当做废纸,就这样。

登陆|注册欢迎登陆本站,认识更多朋友,获得更多精彩内容推荐!