IDG资本牛奎光:人工智能创业的机会和坑

但这个事情本质上还是一维问题,就是从声音到文字,所以也相对较容易为人工智能技术解决。去年机器学习的发展使整个语音识别有了较大飞跃。

之前整个语音识别技术还没有到特别实用的阶段,但是今天在一些垂直领域,比如有些导航地图,因为POI(Point ofInterest,信息点)可能就是那么几十万个,所以容易基于某地理位置加上之前提高了准确率的模型,再来识别,准确率就会大大提高。

包括有些购物网站,因为它的SKU(Stock Keeping Unit,库存量单位)数尽管多,但也相对有限,所以通过语音搜索的准确率也容易大大提高。

这些都相当于在之前技术进步的基础上,加上行业应用,到目前已经达到了民用级的阶段,我相信可能在不久的将来,在这个领域可能也会有一个比较好的突破。

在语音识别领域,很可能大公司的技术积累,会比创业公司好很多,所以可以说给创业型公司留的机会相对来讲要少一些。但还是能举出例子来,像科大讯飞就是做语音做起来的,也做得非常好,又比如云知声,一直做语音服务,做得也还可以。就看时间会给它们留多少来跟巨头竞争。

语音的通用问题有可能还是大公司解决得比较好,创业公司相对比较难,但它可以在一些具体领域实现突破,比如在一些具体行业里,有一些行业专属库,涉及特珠的词或特珠的交流方式。但在通用型应用上基本是大公司的事情。

现在我们输入还是需要键盘,说明这个问题还没有很好地解决。什么时候我们输入不用键盘了,直接用语音来输入,这个时候才说明到实用程度了。但是现在技术才刚刚开始,找到具体的应用点非常重要。如果能把这件事情做到足够成熟和产品化,是件巨大的事情。因为这相当于掌握了输入入口,这也是大公司必争之地。

2.图像识别:找到接受目前成本结构和服务方式的方向

人工智能取得进展的第二个领域是图像识别。

图象基本上是人接收消息最快的方式,在微信里听语音可能要15秒,但是看字的话,有可能扫一眼就差不多了,因为它是二维的,你甚至可以说是有纵轴、横轴,甚至还有深度信息,其实它的信息获取效率是非常直观且非常快的。

当时关注到图像识别,很大程度上也是因为当时香港中文大学汤晓鸥教授一篇论文,说在他们限定的测试结果集上,计算机对人脸的识别已经开始超过了人眼,这件事说明在某些特定的领域,机器识别已经开始可以跟人相媲美了。

我们现在看到图像识别在一些ToB应用上会相对多一些,比如监控,包括在一些人跟证件照的比对上。但同时我们也发现,有很多To C的应用出来。

比如脸萌推出的Faceu,它的技术是由商汤集团提供的。也就是说机器在识别人脸之后,未必做的都是很严肃的事情,还可以做一些好玩的,比如画画眉毛涂涂腮红。这样我们看到其实现在很多娱乐领域里,人脸识别也得到了应用。又比如现在有云相册,可以按照人的归类使照片按人分享变得更容易:大家出去游玩拍照片,云相册可以自动识别人脸在后台将所有照片做好分类,只有点击一下,便可以直接按照人脸分别分享出去。

可以看到这些更偏娱乐化或实用化的To C方向应用,也是很好的方向。未来可能还会有更多更好的跟技术相关驱动的应用出现。

关于图像识别我目前有两个判断:一是产品上已经开始接近成熟,二是它刚刚迈到走向成熟的这个坎。换句话说,在一些算法、效率,以及降低成本方面,还有一些改进空间。而且关于深度学习,其实从出现到现在,从学术研究上也有不少值得研究和突破的地方,而且改进的空间可能还挺大。

另外,图像识别还是需要找到一些可以接受目前成本结构和服务方式的方向。比如在监控方面的应用,尤其是人员流量大的地方,像比利时爆炸案,跟公共安全相关的地方有很强的需求。

最后就是我们身边的智能设备,具有一些简单计算的能力,比如在拍摄时自动识别关键位置和关键的人,或着做人脸追踪,自动调整角度。这些都是很好的应用,如果能从这些角度展开,商业机遇也不校