谷歌公布了TPU细节，人工智能业界怎么看？_人工智能_计算头条_中国计算网——工业互联网一站式服务平台—

性能上看，确实通过裁剪运算器宽度（8位定点）达到了非常高的理论峰值，在大多数卷积操作上效率很好。但在部分其他类型的神经网络操作上，效率不是太高。

从工程角度看，Google通过TPU项目对深度学习硬件加速作出了有益的尝试，令人敬佩；未来Google未来一定会持续更新TPU的架构。而寒武纪商用产品最终并没有走脉动阵列机的技术路线，而是走一条通用智能处理器之路。我们十分期待未来继续与国际工业界和学术界同行同台竞技。”

虽然寒武纪与谷歌分别在硬件方面选择了不同的商用模式，但是双方都在从彼此身上学习和借鉴。陈天石提到谷歌这篇TPU文章，引用了寒武纪团队成员前期发表的6篇学术论文，并有专门的段落回顾他们一系列学术工作。

“论文中在提到DaDianNao/PuDianNao/ShiDianNao时还专门用英文注释这几个名字的含义（Big computer, general computer, vision computer），对我们前期学术工作显示了相当的尊重。非常值得骄傲的是，我们早期与Olivier Temam教授共同开展的这一系列开拓性学术工作，已经成为智能芯片领域引用次数最多的论文。而Olivier Temam教授本人在几年前就已经加入了Google。相信他会把DianNao系列的学术思想融入TPU后续的版本，把TPU的事业继续推向新高度。”

与此同时，雷锋网也采访了深鉴科技CEO姚颂，业界已经对TPU文章里的设计亮点评论颇丰了，姚颂从另一个角度看待这个问题，他认为“TPU的最大亮点其实是TPU这件事本身”。并行计算有很多种架构，如GPU、FPGA等等，一个公司选择某个方向有它的深思熟虑。姚颂认为谷歌做TPU这件事情本身，其实是展现出一种“直面应用需求”的姿态，直接根据最终应用来进行“定制计算”，而他所在的深鉴科技所选择的，也是类似谷歌这种“定制化”发展模式。

“大家可以很清楚的看到Google这样直面应用的公司，从最开始使用CPU这样的通用芯片，过渡到GPU与FPGA，再过渡到专用的ASIC，来直面应用的需求。沿着这样一条发展曲线，在不断提高性能和用户体验的同时，也降低了整体运行成本。Google第一次通过TPU这样一个终极形态走完了这样一条发展路径，其实为其他很多公司指出了一条未来的发展路径，这个意义超出了TPU本身设计的高效性。”

争议：论文里TPU的比较对象

论文里，TPU的比较对象是：英特尔 Haswell E5-2699 v3和英伟达Tesla K80。有人就对这个比较提出异议，因为Tesla K80并不是英伟达最强最新的芯片产品。

外国网友 jimmy 表示：

“Tesla P4就比Tesla K80 的能效高出至少16倍。谷歌拿TPU与5年前的芯片架构相比，有点狡猾。”

网友 Szilárd P 则表示，拿TPU跟Pascal Tesla做比较的说法很荒谬。因为英伟达发布Pascal Tesla的时间是在2016年9月，但当时谷歌这篇论文是为了第44界ISCA（国际计算机架构会议）准备的，论文提交截止日期是2016年11月份，而英伟达Pascal Tesla的正式出货时间也要等到10月份，所以谷歌再重新做实验测试，是不太现实的。但他同时也表示：

“谷歌不拿Maxwell M4/M40来做比较，有点说不过去。因为 GM20x也是28nm，而且比K80性能更强。”

针对这一点，陈天石认为如果纯粹考虑技术因素，这种比较是否公平要看从什么角度看：

“Google TPU所采用的脉动阵列机架构，在处理卷积的效率上确有其优势，在性能功耗比方面会显著胜过GPU。同时TPU是2016年以前的产品，与同期K80相比，其实不算太不公平。但若仅仅考虑技术因素，TPU使用8位运算器，相比之下强调高精度浮点运算的传统GPU会吃亏。”

姚颂则从另一个方面对这种“比较”进行解读，他认为这或许是谷歌一种“韬光养晦”的策略。他表示谷歌通常有了新一代的技术才会公开上一代技术，这篇论文里的比较对象没有采用最新的GPU芯片，并不是谷歌有意在取巧。

“其实TPU的设计大概在四年前就开始了，上线实用也已经有了一段的时间，在那个时间点，其实还没有出现Tesla M40这样的GPU，也没有出现最新的Tesla P40这样Pascal架构的GPU。”

2/3 首页上一页 1 2 3 下一页尾页