浏览位置:中国科技头条 > 快讯

韩国自研AI芯片,势头正猛

日期:2024-08-31 11:53   阅读量:8045   内容来源:网络   
韩国自研AI芯片,势头正猛

如果您希望可以时常见面,欢迎标星收藏哦~

DeepX在嵌入式视觉峰会上展示了其两款第一代芯片,分别针对不同的市场,并向EE Times透露了其下一代用于AI设备和自主机器人的芯片的一些信息。

演示

V1是一款系统级芯片(SoC),集成了DeepX 5-TOPS的神经网络处理器(NPU)和四核RISC-V处理器。此外,它还具有一个1200万像素的图像信号处理器(ISP)。这是一款为边缘设备设计的、价格低于10美元的小型SoC,基于三星28纳米工艺技术,具有较高的能效。DeepX的V1演示能够以30帧每秒的速度运行YOLO v7,实现实时处理,其功耗在1到2瓦之间。

M1是一款更大的加速器,设计用于与独立的主处理器配合工作。它具有25-TOPS的DeepX NPU,功耗为5瓦。演示中,M1在M.2卡上运行YOLO v5进行姿势估计,可能用于协作机器人环境的安全应用。相同的M.2卡还可以运行诸如工业PC中的人脸识别等应用,适用于摄像系统、无人机和机器人。

H1是一款使用M1芯片的多芯片PCIe卡,可以通过单张卡运行62个通道的YOLO v7。目前,原型卡上有8个M1加速器,但由于主处理器的瓶颈,预计量产版本将使用4个M1加速器,安装在半长卡上。

量化技术

DeepX的关键技术之一是其量化技术。公司听取了潜在客户的反馈,这些客户希望将他们在高功耗GPU上运行的算法移植到DeepX的NPU上进行部署。为了实现这一目标,需要将数据从FP32量化为INT8,但客户不能接受准确度相比GPU版本有所下降。

通常,量化和预测准确度之间存在权衡,而为部署系统平衡这两者的迭代可能“耗时过长,以至于产品可能被淘汰,”DeepX CEO金乐源告诉EE Times。

DeepX致力于分析量化过程中准确度损失的具体位置,从而开发出在这些关键点上减轻准确度损失的技术。效果好到甚至在某些模型中,量化后的INT8版本比FP32原版具有更好的预测准确性。

“我们最初以为做错了,无法理解这个现象,”金说。“我让我们的工程师去调查并检查结果。他们告诉我:没有错误,这只是很聪明!我们一次又一次地验证,证明这是可能的。”

金拥有图像系统实现的博士学位,他表示,虽然这似乎违背了香农定律,但经过一年时间终于理解了其中的奥秘。DeepX的量化算法实际上减少了过拟合,生成了能够更好泛化的模型。

“我们很幸运——这不是我们的发明,而是我们的发现,”他说。“这很有趣!虽然令人震惊,但确实可能。”

DeepX目前拥有60项专利,并已申请了282项专利,金表示,这比任何其他设备端AI芯片公司都多,不过他对公司量化技术的具体工作原理保持沉默,仅透露其涉及硬件和软件中的“四五”种不同技术。

“这是我们技术的独特功能,”金说。“DeepX是全球唯一一家在使用INT8时提供比GPU更好AI准确度的公司……我们比GPU更聪明。”

IP战略

V1样品自2023年11月起已投放市场。金表示,公司目前正在与来自欧洲、北美和亚洲的约100个客户展开合作。

此前公司曾向EE Times透露将向汽车客户授权其NPU。金表示,这部分业务也在顺利推进,主要与欧洲和日本的汽车制造商合作。汽车原始设备制造商正在改变他们的策略——以前芯片制造商会与一级供应商会面,现在OEM直接向芯片制造商发送提案请求,希望与特斯拉等制造自主AI加速芯片的公司竞争。

“在中国也有机会,”他说。“到2027年,中国的汽车制造商必须为所有汽车应用使用国产芯片,但他们没有先进的NPU技术。因此,对来自中国的NPU IP需求很大。”

不过,他澄清,公司仍将芯片销售作为首要任务。

芯片路线图

DeepX计划在下一代硅芯片中进一步支持Transformer模型。

“我们目前支持一小部分的Transformer——支持NPU上的Transformer编码器,但不支持解码器,”金说。“我们可以在技术上实现,但我们不会专注于这一部分,正在为下一代芯片做支持。”

下一代芯片将在明年年底推出,支持在边缘设备中运行的大型语言模型。金估计,一块M.2模块应能够在功耗不到5瓦的情况下每秒处理20-30个token。这是为了回应包括韩国消费电子巨头LG在内的潜在客户的需求,DeepX目前正在与其AI研究团队合作。金表示,LG有兴趣将LLM移植到DeepX的芯片上,应用于移动设备、汽车和家电中,因为在数据中心中进行AI推理的成本在电视生命周期中会超过电视的售价。

“对于他们的LLM商业模式非常合理,这就是为什么我们正在合作的原因,”他说。“他们提供了他们的LLM技术,以便我们了解模型的特性,以便为设备端应用进行优化。”

最终结果将是一个为设备端LLM优化的NPU芯片。金表示,第一代将是一个加速器,需要3到5年时间才能实现支持LLM的SoC,因为端点设备目前所需的内存容量无法满足。

“我们将坚持使用LPDDR,这是一个重要的点,”他说。“HBM虽然在带宽上表现不错,但在成本和功耗上不适用于移动设备。这就是为什么我们专注于LPDDR,尽管由于其带宽有限,在实现LLM时会比较困难。”

金表示,在DeepX芯片上实现LLM也面临巨大的软件挑战,并指出公司尚未将其量化技术应用于LLM。

与此同时,DeepX的下一个硅芯片是V3,这是之前提议的L2的重新设计,基于来自中国和台湾客户的建议进行重新设计。它将配备一个15-TOPS的双核DeepX NPU,四核Arm Cortex A52处理器,平均功耗低于5瓦。它还将与V1一样配备1200万像素的ISP,以及75 GFLOPS的DSP,以支持SLAM和雷达应用。

“我们之前使用了RISC-V CPU,但客户希望使用Arm,”他说。“这就是为什么我们选择了Arm的四核处理器。客户还希望支持USB 3.1和更强大的ISP,而不是升级NPU。这就是我们重新设计它的原因。”

部分客户想要Arm CPU,是因为Arm生态系统可以提供更好的安全解决方案——许多客户正在构建安全摄像系统。其他客户希望运行机器人操作系统,该系统现在支持Arm,但尚未支持RISC-V。金表示,RISC-V目前尚不具备这样的生态系统。

他补充说,DeepX将继续提供基于RISC-V的V1和基于Arm的V3。

DeepX V3样品将在2024年底上市。

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

今天是《半导体行业观察》为您分享的第3871内容,欢迎关注。

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

免责声明:该文章系本站转载,旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议,仅供读者参考。