人工智能聊天机器人ChatGPT的火爆出圈,迎来了全球科技领域的一场AI狂欢。
这款基于深度神经网络的大型语言模型,所能实现的自然交互程度是人工智能技术在应用层面的重大突破,也充分展示出当下人工智能技术的发展程度。
ChatGPT现象级走红的背后蕴含着市场与技术发展的双重诉求。人工智能应用场景的不断增多,催生了消费者对于其发展速度的更高要求,呼唤更多未来场景进入我们的生活。
AI应用具有广阔的市场前景,而随着应用级别的提升,所需要的算力将呈现指数级爆炸式增长,对于技术发展有着很高的要求。
狂欢之后,越来越多的关注点转移到应用落地。那么作为人工智能的核心底层硬件的芯片又将如何加速AI?
AI应用落地难点
据麦肯锡预测,到2025年,全球AIoT市场规模将达到11.2万亿美元,AIoT海量市场吸引越来越多的玩家进入。
AI的发展需要算力的快速提升,算力又依靠芯片的发展。无论市场规模如何庞大,检验AI芯片长期发展实力的关键在于产品的实际性能和落地能力。
人工智能的迭代发展有赖于打破当前落地应用的壁垒。当前的AI应用多数集中在云端,设备端的落地仍有很高的门槛。
以智能语音为代表的人工智能交互技术,在技术处理和数据层面具备较高的复杂度,云端效果的背后是大量的模型训练和庞大的算力支持,而当AI技术在设备端普及时,仅考虑算法本身的性能表现是远远不够的。
AI技术的性能表现、易用和稳定程度以及芯片的算力、功耗、面积、成本等多个方面的因素相互交织、相互制约。
正如AI计算需要大量的数据计算,而传统的低功耗低成本计算架构很难进行这类高强度计算,落地的各类因素对芯片的发展提出了更高的诉求。
AI芯片的性能决定着AI产业的发展,能耗低、计算强、小型化、成本低越来越成为关注和研发的重点。
应用场景的碎片化同样为AI落地带来极大的考验。目前AI技术广泛应用的终端场景以家电家居、教育、办公、车载为主,将人工智能的赋能效应向生活的各个方面延伸,涵盖了一个万亿设备级别的市场空间。
在保证应用效果的前提下,让AI实现在每一个产品上的快速应用是最理想的状态,但是目前大到一辆汽车小到一台风扇,每个应用场景都有大量的具体需求,碎片化的应用场景成为落地难的又一个重要原因。
自主设计NPU,构建高效AI芯片
落地规模越来越大,应用场景越来越丰富,对于AI芯片也提出了更高的要求。如何构建高效的AI芯片,将AI技术与芯片技术有效结合成为了当下的热点话题。CSK6系列芯片是聆思科技面向AI落地应用专门打造的AI SoC芯片系列,高度适配AI场景。
算力作为AI应用的基础底座,优秀的AI产品离不开NPU的运行支持,NPU的设计需要满足高算力的需求和丰富算子的支持度。
聆思自研的深度神经网络处理单元支持了包括FFT计算、FIR/IIR滤波器、特征提取、卷积神经网络、DNN、LSTM、激活函数、维特比计算等在内的丰富的算子,充分满足当前业界的深度学习模型架构,并通过对这些必要的高热点算子进行硬件定制加速,实现低时钟频率下的高吞吐量和高算力要求,在同等成本下,算力提升至传统ARM架构芯片的五到十倍。
聆思CSK6系芯片的NPU在设计上采用了CGRA (Coarse-grained Reconfigurable Architecture) 可重构计算的创新型架构技术,与专用的ASIC芯片不同,基于CGRA架构的芯片,可以对硬件进行重新配置,实现不同的计算功能,从而大幅度强化了NPU的可扩展性和算子支持的灵活性。
可重构灵活的应用架构,为CSK6的应用带来了更多的可能性。从DenseNet到transformer的架构支持,从音频到图像应用,从家电场景到教育场景,紧随最新技术一路狂飙。
不仅能充分发挥语音算法的效果,同时能很好的处理音频降噪、计算机视觉等多项主流的AI能力,实现多模态的交互体验,满足更广泛场景的算法需要。灵活的可配置可编程计算单元能够在面对快速的技术演进时也毫不畏惧。
软硬耦合,双向加速
在当前的市场上,大多数的芯片设计公司和算法、方案公司彼此独立,是一种产业链交棒模式。芯片公司对芯片设计时,为了能覆盖更为广泛和通用的需求,在设计和定义上相对较为臃肿富余,在设计NPU时没有行业统一的规范和接口,各个厂商都倾向于设计研发自己的NPU硬件和生态工具。
算法和方案公司通常只能被动的接收和选择来自多个芯片厂商不同的芯片平台、不同的指令集和不同的NPU硬件及配套的AI开发工具包等,需要投入大量的成本去学习和掌握,而且对芯片计算的可控度是缺失的。
这样的产业链组合方式很难做到完美的契合和迭代,产业链衔接的制约影响着芯片的发展。
聆思作为业界独特的跨芯片、算法双领域的企业,拥有包含芯片设计、算法研究设计、产品方案研发的多方软硬耦合协作的团队,芯片+算法的理念贯穿芯片设计到落地的全流程。
在芯片设计的时候,针对算法的特性,设计了向量、矩阵、二维卷积等神经网络计算的硬件加速器,既可满足常规信号处理对计算需求处理,也为更高算力需求场景预留了足够的神经网络计算硬件算子单元。
通过源头软硬耦合设计的方式,能够让NPU的设计更好的与算法相融合匹配。算法运行时,能够充分利用硬件化的FFT、向量、卷积等加速单元,设计和实现效果更优的算法能力,用极低芯片主频能力,实现丰富的人工智能算法。
这种芯片+算法组成了一个高效的上升式螺旋,彼此促进,大幅度提升芯片的利用率,充分发挥AI的算法效果。
“无芯片,不AI”,AI的基础是算力,算力的核心是芯片,AI时代的底层基础就是高性能的芯片。
CSK6系芯片在硬件层面以定制化的NPU,大幅提升单位面积下的芯片算力,并通过可重构架构实现灵活配置;在算法层面实现耦合设计,打造软硬件双向的耦合、优化、定制。
让芯片和算法的有机融合,成为AI落地的有力载体,使人工智能在应用层面有更多的可能性,拓展万物智联的想象空间。