加载中 0 收藏

座舱离线大模型的落地：选NPU还是GPU

来源：盖世汽车 2023-07-29 08:30 汽车产业观点

刚刚听了杨总的分享，其实跟我们很多在行业里面的观点是一样的。首先我们本身自己是一家初创公司，虽然也就出了三个产品，但是还能活到现在，这其实本身来说也是一个非常值得骄傲的一件事情。然后从这个过程中我们看到的是整个汽车行业的一个变化，大家经常在说黄骏你老是不务正业，正常的会你都不参加，然后正常的搞汽车你也不参加，你老是在搞这种奇奇怪怪的东西。比如说我们在21年跟微软研究院，那个时候小冰还在亚洲工程院，开始搞AIGC。最近因为有些情况还不能透露，但是可以剧透一下，就是在成都车展的时候，我们跟微软研究院有一个基于现在的这个主题“离线大模型在今天座舱业务上的落地”，这个也要感谢我们的合作伙伴高通，没有高通的混合精度AINPU芯片，我们也不可能在离线端落地这样的产品。

当然最近也有很多人在说，今天的大模型，因为国家有很多的政策，导致它不可能在像今天行业大势所趋的“端云一体”的方向一样，有很大的延展。我们就来看，今天如果我们想去将这样一个模型落地在座舱里，先不说这个模型有什么用途，我们就看怎么卷效率才是最高的。我们大家都知道AI大模型目前在座舱里面有以下几个用途，比如说像大语言模型，聊天机器人、数字人都依赖这项技术，包括引爆这次革命的ChatGPT、Meta开源的Llama这些大模型，以及谷歌最近也把BERT开放给大家使用。这些都可以在不同程度上减轻今天车企在座舱语音上的开发难度，因为它们本身已经具备很强的自然语言交流能力，对于本身不擅长在这个技术领域垂直业务深挖，只是在做整合上比较擅长的主机厂来说，这是一个非常大的一个利好。

可能很长时间来大家写正则式的这个时代，从今天开始其实就要过去了。虽然有可能得罪各位做语音供应商的伙伴，但是很长久以来，今天在座舱语音上面，无论是今天用小模型也好，或者一些模态识别也好，大家更多的方案还是在写正则式的方向上。另外，今天大家在座舱里提到非常重要的一个东西:多模态检测模型。传统来说的话，像理想有一个Top摄像头可以识别手势，或者是当有很多人在座舱里面时，可以支持表情这样子的一些小模型，整个座舱里面已经非常成熟了。但是大模型时代一到，很多模型可以归一化，比如说我可以在同时检测你姿态，并且还能对瞳孔眼球进行一些追踪等，它们共用的是一个模型，对算力消耗等都是有一个非常非常大的节省，并且大幅削减今天检测模型的一些标注成本。

在座舱里面不得不提到今天跟ADAS非常相关的一个业务。很多人只认为就是所有的ADAS功能都是由ADAS闭环，实际上并不是。今天之所以不能叫Auto-pilot，而只能叫Co-pilot的一个很重要的原因就是人要为自己的行为负责任，不是机器为你的行为负责任。所以今天我们所有的ADAS都要告诉用户，当前在什么样的状态下，车子是怎么样理解今天的环境。所以座舱里面有一个很多用户看起来会觉得说很多公司在耍帅的一个行为，但这恰恰是一个非常重要的交互环节，就是SR重建。

而今天对于SR重建以及360环视，大家的做法比较常见的，一个是坐标式对齐曲线运动方程，然后就是从ADAS控制器里把坐标等提取出来，然后在座舱里找一个3D引擎，无论是Unreal也好，还是Unity也好，或者Kanzi也好，把这个东西绘制出来。然后在360里面，绝大多数都是基于畸变标靶的纸杯合成环视。这些效果对于用户来说可能现在是够的，但是也有很多人诟病，为什么我今天在手机上或者是我今天在很多的便携设备上，这些体验完全不一样。原因今天其实是基于像扩散网络，包括现在很火的画图应用Midjourney都是基于扩散网络一些应用。当ADAS控制器在感知上感知到了基于空间的占用坐标以及占用体积之后，其实在这些网格点上利用扩散网络就可以实时生成今天的SR场景，而这些SR场景才能真正闭环今天用户的需求，并且大大地降低今天座舱里的很多计算负载，不再需要使用对于GPU来说负担很重的图形引擎。并且在今天行业不成熟的形势下，其实OEM很难找到非常好的3D图形合作伙伴。我们之前找了很多游戏公司，但是游戏公司其实对于整个OEM的开发流程不太了解，因为它们没有很强的业务使命感，而且我们这些业务量，可能对于一个游戏公司来说觉得这个钱根本不算什么。

知道了我们这些业务要做什么之后，就要看看我今天这些业务怎么做。其实刚刚后面两块已经有所体现到，无论是模态追踪也好，还是SR感知也好，对实时性的要求都非常高。大家广泛谈论的大模型，在座舱里可以端云一体的应用，无非就是语言模型。语言模型肯定有好处，端云一体，云端服务接入很方便，改一个API我们就接进来了。行业可选的服务很多，可以选讯飞的、思必驰的、百度的文心一言、阿里千问。这个确实是目前我们所知道的行业在23年下半年一个主流选择方向，并且云端的算力基本上是等同于无穷大。

在这样子的一个环境下，还有另外一种思考就是跨域融合，或者是在汽车里使用大算力芯片。首先各行业都很卷，基本上到了下半年，25万的车就会搭载像“8155”、“8295”，或者是Orin，都会配置在这个价位的车上。而像Orin这样的大算力芯片，只用来做自动驾驶，真的对于一个汽车公司来说合算吗？虽然NVIDIA的路川总也在，NVIDIA在绝大多数的场合做得对于自动驾驶的宣贯也好，阐述也好，当然NVIDIA在自动驾驶方面的确非常厉害。但是大家遗漏了一点，NVIDIA在语言应用上也是非常强大的。我们发现在Orin上面有专门的Riva模块可以用来做声音合成，并且这个技术是目前应用在 Open AI的Whisper AI上的。这样子的技术其实是能加速大家在座舱里给用户提供更好的声音合成，并且提供更好的离线语音识别的。我们甚至实测过一个值，如果使用了离线端大模型的语音类算法，我们发现识别率几乎跟在线不相上下，准确率趋近94%以上，延迟大大下降。因为今天无论我们使用多好的网络，其实在这个网络延迟波动上面仍然没有非常好的一个解决解决方案。

今天的电子架构牵一发而动全身，因为跨域融合涉及的业务范围非常广，本身需要把一家汽车公司从原本的汽车电子研发推向IDC服务中心化的转变。这样子的话，汽车行业的研究重心就会由原本单纯的控制器研发转向今天研究路由交换、加密、传输以及负载均衡这些原本在云计算行业才会研究很多的领域。当然这些东西跟今天的AI主题没有关系，我就不展开。

但是之后肯定会有人说我今天的车电子架构没法动，怎么办？那赶快就是做座舱芯片的升级，这个也是一个行业趋势。最近可以看到像亿咖通也在卷，都把比特斯拉座舱芯片算力还高的V2000搬上了汽车。我听说之后还有汽车公司要在车上用V4000A加上赛灵斯算力非常强大的FPGA来做整个座舱的大模型业务落地。云端的一个好处就是它对隐私有非常好的保护，这也是今天手机行业在嵌入式语音助手，这个大家会比较多谈起来的话题，在去年的WWDC上，苹果首次去对外宣称所有的Siri资源，无论你问Siri什么样的问题，除了对接数据员会访问网络以外，所有的处理在哪里进行呢？

有了这样两派路线之争后，就到了今天我要分享的一个核心，就是在座舱里面如何选择行业里面的两大主流阵营，就是选GPU还是NPU。其实说到这样专业的一个领域，不可避免地要提GPU阵营的英伟达，原因就是今天无论大家做什么样的AI业务，CUDA的生态一定是目前最完善的，并且在整个行业浪潮里面，黄教主一直在推动整个行业往舱驾一体的方向去发展。所以这个也比较符合今天跨行业像 Game Console以及一些其它智能终端的发展方向，毕竟汽车整个行业的业务规模并不大，但产值很大，因为它拉动的供应链体系以及零部件体系非常的庞杂。但是对于计算业务来说，业务量其实是远远小于今天行业上面出货量非常庞大的像消费电子、游戏主机。今天在这些业务的推动之下，舱驾一体必然是行业方向。选GPU方向的一个好处就是，今天自动驾驶这个体系我不会轻易的去触碰，因为整个自动驾驶的软件栈的研发占整个公司总研发成本的大头，而座舱本身其实对于公司来说更像APP开发，更多的就是像我开发一堆内容的附属。所以这个肯定会是今后绝大多数对成本以及效率有追求的主流公司的一个首选。

另外还有一个方向，就是嵌入式NPU的开发。如今有很多的汽车在路上跑，我总不见得说这些用户就都抛弃了，这样子的行为其实对于用户来说是很不负责任的，并且GPU的功耗目前来说对于整车功耗来说还是比较大的。例如，一些车子停靠之后需要保持一些AI服务，比如说用户比较追捧哨兵模式，还有一些碰撞之后的数据脱敏，这些服务如果依赖超高功耗的GPU来做的话，今天有多少电都都不够。所以在NPU开发上，今天很多 OEM也必须去布局，并且整NPU的嵌入式框架的移植和Coding将会成为一家 OEM在AI业务投资以及单车收效比上非常重要的、起决定性作用的一个组成部分。

如果说在这一块业务上做得不好，就会导致单车的硬件成本居高不下，需要堆很多的物料才能把同样的功能推向消费者。这个做得好的话，硬件成本相较其它同行竞品来说就可以大大降低，而主要的成本就可以放在软件上。对比同样功能的软件，这就可以实现盈利，软件盈利并不一定是要卖给用户一个软件服务。

最后我想分享一下我们对行业的一些观点。AI大模型在智能汽车领域推广之后，其实会有三个必然趋势。一，算法归一，这个怎么理解？今天无论是使用Transformer模型，还是像一些公司从Transformer模型向ReCoNet模型去做转变，因为ReCoNet在效率上面可能比Transformer更好，但是它的算法层面跟Transformer的相近。很多目前在做Transformer模型的工程师可以迅速地转到这一项业务上去。

今天无论是语音也好，还是自动驾驶也好，在汽车上面的业务其实都要高屋建瓴。不像医疗，其实它专注的是准确率和必然识别的目标检测，所以在医疗领域没有人说我今天能推Transformer，因为Transformer看就是雾里看花，而传统CV就是在像素点里抠针眼。这样子的话一定会推动整个算法语言以及视觉多模态融合，车上只会有一个AI计算模型，也会推动像今天的域控制器架构从业务域往功能域的方向发展，像现在大家都说座舱域、自动驾驶域，车身域是不是以后就会变成控制域、AI域以及传输域。

然后另外就是消费者信心。今天因为很多业务在用很多的小模型进行串联，这些小模型之间的串联导致了巨大的Common Case需要给产品经理，产品经理需要花大量的时间去对每一个Common Case进行分析，去重新再做排列，再做规则，这样子用户的获取成本是非常高的。很多用户排斥自动驾驶的原因就是因为，在使用了第一次高阶辅助驾驶功能之后，发现退出非常多，企业非常糟糕、非常吓人，用户再也不用这个功能了。当这些大模型逐渐的推向市场之后，Common Case的减少必然伴随着很多后起之秀，不会再有初见杀给到用户，这样用户的粘性也会大大的提高。

最后就是算法开销会和今天算力达到一个平衡，最好的例子就是今天的特斯拉。有情报的公司都已经知道，Highlight的车型上面会推HW4.0。而伴随着HW4.0，特斯拉会把所有的摄像头升级到500万。为什么特斯拉没有选择像主流车厂选择的800万，可能第一点是我们今天的供应链体系跟特斯拉不一样。第二还有一个点就是，特斯拉的算力平衡，跟它今天的120万像素的摄像头是非常好的一个匹配，它只要使用它的144Top的算力，就足以完美的使用120万像素的摄像头了。而今天升级到500万之后，把算力再推高4倍，都是平滑升级，它的传感器和它的计算单元同时推，把自己的性能推高4倍。也不去浪费，不像行业里面的一种说法，就是我可以感知很垃圾，但是我要把算力堆得很高，其实这是没有多大意义的。

今天我那个分享可能比较枯燥，谢谢各位。

评论区