随着大数据的发展,计算能力的提升,人工智能近两年迎来了新一轮的爆发。而人工智能的实现村欲情史依赖三个要素:算法是核心,硬件和数据是基础,芯片就是硬件的最重要组成部分。它其实包括两个计算过程:1、训练(Train);2、应用(Inference)。
为什么需要人工智能芯片?神经网络算法应用的不断发展,使得传统的 CPU 已经无法负担几何级增长的计算量。深度学习作为机器学习的分支,是当前人工智能研究的主流方式。简单说就是用数学方法模拟人脑神经网络,用大量数据训练机器来模拟人脑学习过程,其本质是把传统算法问题为数据和计算问题。所以对底层基础芯片的要求也发生了根本性改变:人工智能芯片的设计目的不是为了执行指令,而是为了大量数据训练和应用的计算。
目前适合深度学习的人工智能芯片主要有GPU、FPGA、ASIC三种技术线。三类芯片代表分别有英伟达(NVIDIA)的Tesla系列GPU、赛灵思(Xilinx)的FPGA和Google的TPU。GPU 最先被引入深度学习,技术最为成熟;FPGA具有硬件可编程特点,性能出众但壁垒高。ASCI 由于可定制、低成本是未来终端应用的趋势。
GPU使用SIMD(单指令多数据流)来让多个执行单元以同样的步伐来处理不同的数据,原本用于处理图像数据,但其离散化和分布式的特征,以及用矩阵运算替代布尔运算适合处理深度学习所需要的非线性离散数据。作为加速器的使用,可以实现深度学习算法。
GPU由并行计算单元和控制单元以及存储单元构成GPU拥有大量的核(多达几千个核)和大量的高速内存,擅长做类似图像处理的并行计算,以矩阵的分布式形式来实现计算。同CPU不同的是,GPU的计算单元明显增多,特别适合大规模并行计算。
FPGA是用于解决专用集成电的一种方案。专用集成电是为特定用户或特定电子系统制作的集成电。人工智能算法所需要的复杂并行电的设计思适合用FPGA实现。FPGA计算芯片布满“逻辑单元阵列”,内部包括可配置逻辑模块,输入输出模块和内部连线三个部分,相互之间既可实现组合逻辑功能又可实现时序逻辑功能的基本逻辑单元。
FPGA相对于CPU与GPU有明显的能耗优势,主要有两个原因。首先,在FPGA中没有取指令与指令译码操作,在Intel的CPU里面,由于使用的是CISC架构,仅仅译码就占整个芯片能耗的50%;在GPU里面,取指令与译码也消耗了10%~20%的能耗。其次,FPGA的主频比CPU与GPU低很多,通常CPU与GPU都在1GHz到3GHz之间,而FPGA的主频一般在500MHz以下。如此大的频率差使得FPGA消耗的能耗远低于CPU与GPU。
ASIC(专用定制芯片)是为实现特定要求而定制的芯片,具有功耗低、可靠性高、性能高、体积小等优点,但不可编程,可扩展性不及FPGA,尤其适合高性能/低功耗的移动端。
目前,VPU和TPU都是基于ASIC架构的设计。针对图像和语音这两方面的人工智能定制芯片,目前主要有专用于图像处理的VPU,以及针对语音识别的FAGA和TPU芯片。
2016年人工智能芯片市场规模达到6亿美金,预计到2022年将达到60亿美金,年复合增长率达到46.7%,增长迅猛,发展空间巨大。
2016年成为芯片企业和互联网巨头们在芯片领域全面展开部署的一年。而在这其中,英伟达保持着绝对的领先地位。但随着包括谷歌、脸书、微软、亚马逊以及百度在内的巨头相继加入决战,人工智能领域未来的格局如何,仍然待解。
从云端芯片来看,目前GPU占据云端人工智能主导市场,占人工智能芯片市场份额的35%。而在这其中,GPU的领跑者英伟达(Nvidia)因其在人工智能领域的优势使其成为了资本市场的绝对宠儿:在过去的一年中,曾经以游戏芯片见长的Nvidia股价从十几年的稳居30美元迅速飙升至120美元。据悉,世界上目前约有3000多家AI初创公司,大部分都采用了Nvidia提供的硬件平台。
算法正向有利于FPGA发展的方向迭代。模型压缩是从训练环节推理环节的必要过程。深鉴科技在将LSTM模型的尺寸压缩20倍后,采用了搭建在FPGA上的硬件框架ESE,获得了高一个数量级的能量效率提升。能量效率分别为CPU的40倍和GPU的11.5倍。
FPGA受益于芯片NRE费用指数级上升带来的规模效应。随着制程工艺不断提高,芯片NRE费用指数级上升,越来越多的ASIC芯片将由于达不到规模经济而放弃,从而转向直接基于FPGA开发设计。
目前,我国的人工智能芯片行业发展尚处于起步阶段。华为在2017年国际消费类电子产品展览会发布华为首款人工智能( AI)移动计算平台——麒麟 970,是业界首颗带有 NPU(神经网络单元)的手机芯片,是华为人工智能的重要里程碑,也是中国芯片设计行业的重要里程碑。
随着大数据的发展,计算能力的提升,人工智能近两年迎来了新一轮的爆发。芯片约占人工智能比重的15%,结合我国人工智能市场规模,推算出2016年我国人工智能芯片市场规模约为20亿元。
据工信部统计,中国北上深三座城市的人工智能相关企业总数达447家,攀升速度迅猛。目前,几乎所有互联网企业的互联网产品,都会或多或少加入算法和深度学习的功能,AI正在成为中国互联网公司的标配。
NVIDIA是AI芯片的市场领先者,占据了全球GPU70%的市场份额;Intel接连收购Altera、Nervana、Movidius,全方位布局AI产品;Google发布两代TPU,从ASIC方向进军AI芯片市场;寒武纪科技是中科院计算所孵化的一家独角兽公司。2016年推出了国际首个深度学习专用处理器芯片(NPU),技术全球领先。
目前全球GPU行业的市场份额有超过70%被英伟达公司占据。而应用在人工智能领域的可进行通用计算的GPU市场则基本被英伟达公司垄断。
自1999年发布第一款GPU以来,GPU就成为了英伟达最为核心的产品,占到了英伟达总营业收入的八成以上。英伟达的股价表现也是十分惊人,2016年英伟达的股价上涨了228%,过去的5年内累计上涨500%。
目前英伟达GPU芯片主要应用方向为数据中心芯片、自动驾驶芯片和嵌入式芯片。主要包括采用Pascal架构的TeslaP100和TeslaP10芯片、采用Volta架构的DGX-1芯片、自动驾驶的DriverPX2芯片、JetsonTX2芯片等。
GPU芯片构成公司最主要收入来源,2017年上半年,GPU贡献收入34.59亿美元,占公司总收入的83%;TegraProcessor贡献收入6.65亿美元,占比16%,其他部分贡献收入1%。
2015年,英特尔以167亿美元收购了FPGA制造商Altera。英特尔斥巨资收购Altera不是来为FPGA技术发展做贡献的,而是要让FPGA技术为英特尔的发展做贡献。
2016年8月,Intel宣布收购创业公司NervanaSystems。Nervana准备推出深度学习定制芯片NervanaEngine,相比GPU在训练方面可以提升10倍性能。与TeslaP100类似,该芯片也利用16-bit半精度浮点计算单元和大容量高带宽内存(HBM,计划为32GB,是竞品P100的两倍),摒弃了大量深度学习不需要的通用计算单元。
第一代TPU展现出ASIC在神经网络推断方面的优秀性能。谷歌在2016年的I/O大会上推出了自己的AI芯片——张量处理器TPU(第一代)。
第二代TPU兼具推理+训练。2017年5月I/O大会上,谷歌发布了第二代TPU—CloudTPU,峰值性能达到180TFLOPS/s。第一代TPU只加速推理,但第二代TPU新增了训练的功能。不仅如此,谷歌的用户还能通过专门的网络,在云端利用TPU构建机器学习的超级计算机。
寒武纪科技由创始人陈天石教授带领中科院团队成立于2016年,致力于打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片。
2016年推出的寒武纪1A处理器(Cambricon-1A)是世界首款商用深度学习专用处理器,其搭载了国际首个深度学习专用处理器芯片(NPU)(属于ASIC),面向智能手机、安防、可穿戴设备、无人机和智能驾驶等各类终端设备,并于2017年8月获得了包括阿里在内的1亿美元A轮融资。
目前寒武纪主要包括产品线)智能终端处理器IP授权:智能IP指令集可授权集成到手机、安防、可穿戴设备等终端芯片中,客户包括国内顶尖SoC厂商。
(3)家用智能服务机器人芯片:从智能玩具、智能助手入手,使服务机器人具备看听说的能力。客户是各类下游机器人厂商,产品的推出将比智能云服务器芯片更晚一些。
本文由 恒宇国际(www.neivn.cn)整理发布
网友评论 ()条 查看