韩国自研AI芯片，势头正猛

日期：2024-08-31 11:53 阅读量：8045 内容来源：网络

如果您希望可以时常见面，欢迎标星收藏哦~

DeepX在嵌入式视觉峰会上展示了其两款第一代芯片，分别针对不同的市场，并向EE Times透露了其下一代用于AI设备和自主机器人的芯片的一些信息。

演示

V1是一款系统级芯片(SoC)，集成了DeepX 5-TOPS的神经网络处理器(NPU)和四核RISC-V处理器。此外，它还具有一个1200万像素的图像信号处理器(ISP)。这是一款为边缘设备设计的、价格低于10美元的小型SoC，基于三星28纳米工艺技术，具有较高的能效。DeepX的V1演示能够以30帧每秒的速度运行YOLO v7，实现实时处理，其功耗在1到2瓦之间。

M1是一款更大的加速器，设计用于与独立的主处理器配合工作。它具有25-TOPS的DeepX NPU，功耗为5瓦。演示中，M1在M.2卡上运行YOLO v5进行姿势估计，可能用于协作机器人环境的安全应用。相同的M.2卡还可以运行诸如工业PC中的人脸识别等应用，适用于摄像系统、无人机和机器人。

H1是一款使用M1芯片的多芯片PCIe卡，可以通过单张卡运行62个通道的YOLO v7。目前，原型卡上有8个M1加速器，但由于主处理器的瓶颈，预计量产版本将使用4个M1加速器，安装在半长卡上。

量化技术

DeepX的关键技术之一是其量化技术。公司听取了潜在客户的反馈，这些客户希望将他们在高功耗GPU上运行的算法移植到DeepX的NPU上进行部署。为了实现这一目标，需要将数据从FP32量化为INT8，但客户不能接受准确度相比GPU版本有所下降。

通常，量化和预测准确度之间存在权衡，而为部署系统平衡这两者的迭代可能“耗时过长，以至于产品可能被淘汰，”DeepX CEO金乐源告诉EE Times。

DeepX致力于分析量化过程中准确度损失的具体位置，从而开发出在这些关键点上减轻准确度损失的技术。效果好到甚至在某些模型中，量化后的INT8版本比FP32原版具有更好的预测准确性。

“我们最初以为做错了，无法理解这个现象，”金说。“我让我们的工程师去调查并检查结果。他们告诉我:没有错误，这只是很聪明！我们一次又一次地验证，证明这是可能的。”

金拥有图像系统实现的博士学位，他表示，虽然这似乎违背了香农定律，但经过一年时间终于理解了其中的奥秘。DeepX的量化算法实际上减少了过拟合，生成了能够更好泛化的模型。

“我们很幸运——这不是我们的发明，而是我们的发现，”他说。“这很有趣！虽然令人震惊，但确实可能。”

DeepX目前拥有60项专利，并已申请了282项专利，金表示，这比任何其他设备端AI芯片公司都多，不过他对公司量化技术的具体工作原理保持沉默，仅透露其涉及硬件和软件中的“四五”种不同技术。

“这是我们技术的独特功能，”金说。“DeepX是全球唯一一家在使用INT8时提供比GPU更好AI准确度的公司……我们比GPU更聪明。”

IP战略

V1样品自2023年11月起已投放市场。金表示，公司目前正在与来自欧洲、北美和亚洲的约100个客户展开合作。

此前公司曾向EE Times透露将向汽车客户授权其NPU。金表示，这部分业务也在顺利推进，主要与欧洲和日本的汽车制造商合作。汽车原始设备制造商正在改变他们的策略——以前芯片制造商会与一级供应商会面，现在OEM直接向芯片制造商发送提案请求，希望与特斯拉等制造自主AI加速芯片的公司竞争。

“在中国也有机会，”他说。“到2027年，中国的汽车制造商必须为所有汽车应用使用国产芯片，但他们没有先进的NPU技术。因此，对来自中国的NPU IP需求很大。”

不过，他澄清，公司仍将芯片销售作为首要任务。

芯片路线图

DeepX计划在下一代硅芯片中进一步支持Transformer模型。

“我们目前支持一小部分的Transformer——支持NPU上的Transformer编码器，但不支持解码器，”金说。“我们可以在技术上实现，但我们不会专注于这一部分，正在为下一代芯片做支持。”

下一代芯片将在明年年底推出，支持在边缘设备中运行的大型语言模型。金估计，一块M.2模块应能够在功耗不到5瓦的情况下每秒处理20-30个token。这是为了回应包括韩国消费电子巨头LG在内的潜在客户的需求，DeepX目前正在与其AI研究团队合作。金表示，LG有兴趣将LLM移植到DeepX的芯片上，应用于移动设备、汽车和家电中，因为在数据中心中进行AI推理的成本在电视生命周期中会超过电视的售价。

“对于他们的LLM商业模式非常合理，这就是为什么我们正在合作的原因，”他说。“他们提供了他们的LLM技术，以便我们了解模型的特性，以便为设备端应用进行优化。”

最终结果将是一个为设备端LLM优化的NPU芯片。金表示，第一代将是一个加速器，需要3到5年时间才能实现支持LLM的SoC，因为端点设备目前所需的内存容量无法满足。

“我们将坚持使用LPDDR，这是一个重要的点，”他说。“HBM虽然在带宽上表现不错，但在成本和功耗上不适用于移动设备。这就是为什么我们专注于LPDDR，尽管由于其带宽有限，在实现LLM时会比较困难。”

金表示，在DeepX芯片上实现LLM也面临巨大的软件挑战，并指出公司尚未将其量化技术应用于LLM。

与此同时，DeepX的下一个硅芯片是V3，这是之前提议的L2的重新设计，基于来自中国和台湾客户的建议进行重新设计。它将配备一个15-TOPS的双核DeepX NPU，四核Arm Cortex A52处理器，平均功耗低于5瓦。它还将与V1一样配备1200万像素的ISP，以及75 GFLOPS的DSP，以支持SLAM和雷达应用。

“我们之前使用了RISC-V CPU，但客户希望使用Arm，”他说。“这就是为什么我们选择了Arm的四核处理器。客户还希望支持USB 3.1和更强大的ISP，而不是升级NPU。这就是我们重新设计它的原因。”

部分客户想要Arm CPU，是因为Arm生态系统可以提供更好的安全解决方案——许多客户正在构建安全摄像系统。其他客户希望运行机器人操作系统，该系统现在支持Arm，但尚未支持RISC-V。金表示，RISC-V目前尚不具备这样的生态系统。

他补充说，DeepX将继续提供基于RISC-V的V1和基于Arm的V3。

DeepX V3样品将在2024年底上市。

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

今天是《半导体行业观察》为您分享的第3871内容，欢迎关注。

『半导体第一垂直媒体』

实时专业原创深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

免责声明：该文章系本站转载，旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议，仅供读者参考。