大数据人|中国大数据第一社区

 找回密码
 注册会员

扫一扫,访问微社区

泰一数据:AI与AI芯片:2019哪些参赛者能冲云破雾?

2018-12-10 10:00| 发布者: 泰一指尚| 查看: 399| 评论: 0

摘要: 任何技术的兴起都是市场需求、技术迭代与产业发展合力推动的结果,AI与AI芯片的变革亦是如此。

近日,高通发布了最新的AI芯片——骁龙855,凭借搭载第四代AI人工智能引擎,骁龙855性能提升至骁龙8453倍,每秒可处理7万亿万次运算(7TOPs),AI开放性更高,可以编程、有专用硬件加速器、兼容性高,高通宣称骁龙855远超另外两家7纳米SoC芯片友商……2018AIAI芯片领域的竞争不可谓不激烈,从芯片制造商、平台和基础设施提供商、模型和算法设计者,以及企业解决方案提供商、垂直工业解决方案提供商,你争我夺,在技术与市场的竞赛中难分高下。

 

任何技术的兴起都是市场需求、技术迭代与产业发展合力推动的结果,AIAI芯片的变革亦是如此。AI算法对芯片运算能力的要求上升到传统芯片的百倍以上,传统处理器已无力支持智能家居、自动驾驶和智能终端等应用场景的巨大算力需求,基于传统CPU搭建出新的架构就显得迫在眉睫。随着AI技术的发展,从基础算法,底层硬件,工具框架到实际应用场景,目前人工智能已经全面开花。

 

回顾2018 AI芯片也取得了诸多成绩。

 

国际

 

CEVA1月,发布了用于前端设备深度学习推理,而且功能强大的专用人工智能(AI)处理器系列NeuPro™。

 

英伟达:6月,发布全新AI芯片Jetson Xavier,包含了六颗处理器,每秒可执行 30 万亿次操作。

 

Google7月,发布新版AI芯片微型AI加速器Edge TPU,用于边缘计算,可实现物联网设备上的机器学习模型运算。

 

苹果:9月,发布A12仿生芯片,采用开创性的7 纳米芯片,其CPU部分的核心数也升级到了六个,分为两大核和四小核。

 

AMD11月,发布新一代Radeon Instinct MI60Radeon Instinct MI50,均基于7nm工艺的升级版Vega架构核心,全球首个7nm GPU

 

亚马逊:11月,发布首款云端AI芯片——Inferentia,其计算力将会高达几百TOPS,多芯片组合后算力可达数千TOPS。此外,Inferentia支持FP16INT8精度,并支持TensorFlowCaffe2ONNX等流行机器学习框架。

 

高通:12月,高通正式推出支持5GAI芯片骁龙855,是全球首款5G商用芯片。骁龙855是高通首款7nm工艺芯片,将支持5G网络上的“千兆位”数据速度,比上一代骁龙845高出三倍的AI性能,并将增加一个新的专用计算机视觉处理器ISP,用于增强计算摄影和视频捕捉。

 

……

 

 

国内

 

中科寒武纪:5月,发布新一代云端AI芯片,Cambricon MLU100云端智能芯片和板卡产品、寒武纪1M终端智能处理器IP产品。

 

中星微:5月,推出了第二代人工智能芯片——星光智能二号。

 

百度:7月,发布国内第一款云端全功能AI芯片"昆仑",其中包含训练芯片昆仑818-300,推理芯片昆仑818-100

 

地平线机器人(Horizon Robotics ):10月,首次展示基于旭日2.0处理器架构的XForce边缘AI计算平台。 旭日1.0处理器去年已量产,而旭日2.0芯片预计在2018年底量产流片。

 

华为:9月,发布麒麟980,全球首款量产的7nm手机芯片、双NPU,实现基于ARM Cortex-A76 CPU架构进行商业开发,首款搭载最新的Mali-G76 GPU架构的移动端芯片,通信方面率先支持LTE Cat.21,峰值下载速率1.4Gbps达业内最高,摄影方面,内存方面支持全球最快的LPDDR4X颗粒,主频最高可达2133MHz

 

10月,发布AI芯片昇腾910和昇腾310,昇腾910是目前单芯片计算密度最大的芯片,计算力远超谷歌及英伟达,而昇腾310芯片的最大功耗仅8W,是极致高效计算低功耗AI芯片。

 

……

 

2018年,AI芯片领国外芯片巨头占据了绝大部分市场份额,不论是在人才聚集还是公司合并等方面,都具有领先优势。同时随着人工智能芯片的持续发展,AI技术的应用领域也随时间推移而不断向多维方向发展。智能手机、ADAS(高级驾驶辅助系统)、CV(计算机视觉)设备、VR设备、机器人、语音交互设备、机器人六大方向成为目前业内的主流应用。

 

AI芯片应用领域

 

有数据表明,到2022年为止,AI芯片市场将以每年59%的成长速度增长,届时市场规模有望达到330亿美元。在此发展过程中,AIAI芯片还将面临哪些问题以及趋势的显露呢?

 

目前主流 AI芯片的核心主要是利用 MACMultiplier and Accumulation,乘加计算)加速阵列来实现对 CNN(卷积神经网络)中最主要的卷积运算的加速。这一代 AI 芯片主要有如下 3个方面的问题:

 

1)深度学习计算所需数据量巨大,造成内存带宽成为整个系统的瓶颈,即所谓“memory wall”问题。

 

2)与第一个问题相关,内存大量访问和MAC阵列的大量运算,造成AI芯片整体功耗的增加。

 

3)深度学习对算力要求很高,要提升算力,最好的方法是做硬件加速,但是同时深度学习算法的发展也是日新月异,新的算法可能在已经固化的硬件加速器上无法得到很好的支持,即性能和灵活度之间的平衡问题。

 

可以预见,下一代 AI芯片将有如下的5个发展趋势:

 

趋势一:更高效的大卷积解构/ 复用

在标准 SIMD的基础上,CNN 由于其特殊的复用机制,可以进一步减少总线上的数据通信。而复用这一概念,在超大型神经网络中就显得格外重要。如何合理地分解、映射这些超大卷积到有效的硬件上成为了一个值得研究的方向。

 

趋势二:更低的 Inference 计算/ 存储位宽

AI 芯片最大的演进方向之一可能就是神经网络参数/计算位宽的迅速减少——从 32 位浮点到16位浮点/定点、8位定点,甚至是4位定点。在理论计算领域,2位甚至1位参数位宽,都已经逐渐进入实践领域。

 

趋势三:更多样的存储器定制设计

 

当计算部件不再成为神经网络加速器的设计瓶颈时,如何减少存储器的访问延时将会成为下一个研究方向。通常,离计算越近的存储器速度越快,每字节的成本也越高,同时容量也越受限,因此新型的存储结构也将应运而生。

 

趋势四:更稀疏的大规模向量

神经网络虽然大,但是,实际上有很多以零为输入的情况,此时稀疏计算可以高效的减少无用能效。来自哈佛大学的团队就该问题提出了优化的五级流水线结构,在最后一级输出了触发信号。在Activation层后对下一次计算的必要性进行预先判断,如果发现这是一个稀疏节点,则触发 SKIP信号,避免乘法运算的功耗,以达到减少无用功耗的目的。

 

趋势五: 计算和存储一体化

计算和存储一体化(process-in-memory)技术,其要点是通过使用新型非易失性存储(如ReRAM)器件,在存储阵列里面加上神经网络计算功能,从而省去数据搬移操作,即实现了计算存储一体化的神经网络处理,在功耗性能方面可以获得显著提升。

 

#本文部分内容据行业报告(《2018人工智能芯片研究报告》)整理,如有侵权请联系删除;#


鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

关闭

站长推荐上一条 /2 下一条


id="mn_portal" >首页Portalid="mn_P18" onmouseover="navShow('P18')">应用id="mn_P15" onmouseover="navShow('P15')">技术id="mn_P37" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">前沿id="mn_P36" onmouseover="navShow('P36')">宝箱id="mn_P61" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">专栏id="mn_P65" >企业id="mn_forum_2" >社区BBSid="mn_Nd633" >导航 折叠导航 关注微信 关注微博 关注我们

QQ|广告服务|关于我们|鄂ICP备14012176号-2|Archiver|手机版|小黑屋|大数据人    

GMT+8, 2019-6-19 23:31 , Processed in 0.842170 second(s), 22 queries .

Powered by 小雄! X3.2

© 2014-2016 bigdataer Inc.

返回顶部