专访高通中国区研发负责人徐晧：手机是大模型的新战场

2023-09-01 23:14

经济观察网记者沈怡然 8月以来，高通公司一边与手机客户紧密研发，另一边与微软、谷歌、Meta等大厂合作。作为全球端侧芯片技术领导者，高通和伙伴们尝试将AI大模型从主流的计算机下沉到手机、汽车、头显设备，以发挥更多的商业价值。

基于对海量计算和存储的需求，大模型在先期的研发和训练中，只能部署到云端，这也是为何英伟达能在芯片低谷中逆势爆发。在高通中国区研发负责人徐晧看来，将大模型从云到端部署，尤其进入手机，是必然的演进路线。进入高通研发团队20年来，徐晧领导了3G至5G演进中的多个芯片研究项目，还负责高通在智能终端侧的AI算法研究。

如今，徐晧的重要任务是让大模型进入手机，尽管这一天还没到来，他紧凑的日程表已经显现出，这不是纸上谈兵，AI、芯片、手机企业正看好该方向，并通力合作，把大模型“缩小”，再做硬件上的改进，目前尚有一些技术瓶颈，徐晧预计，高通年底可实现在终端运行百亿级参数的大模型。

当前消费电子仍然疲软，高通有信心认为大模型会给市场带来春天，甚至能在5G和6G之间掀起新的一轮手机周期，尤其在中国巨大的消费市场，大模型会开启手机个人助理、办公助手、甚至更多类似“妙鸭相机APP”——一款可以利用人工智能技术生成个人照片的应用——那样的想象空间。从企业竞争的角度看，将更强的AI能力集成到SoC（系统级芯片），也有助于高通在更多消费和工业等新市场中取得技术优势。

高通的确完成了从0到1的尝试——今年2月在安卓手机上跑通了Stable Diffusion，手机没有联网，整个文生图的过程完全在终端运行。徐晧表示，“这仅仅证明，在没有任何云端帮助的情况下，大模型在手机上是可行的，真正大规模地部署仍需要时间”。

在徐晧看来，一些软硬件及兼容适配的问题有待解决，同时，演进的路径是，先训练好大模型，再谈如何部署到设备端并运行大模型，在终端推理（可理解为执行任务）的需求比在云端训练的需求来的要晚，爆发未必会立即显现。但趋势是可见的，混合AI架构作为未来AI的发展方向，AI也会从云侧扩展到端侧。

以下内容根据专访整理：

经济观察网：大模型进入手机端会是怎样的应用场景？

徐晧：率先进入手机的会是ChatGPT这类大语言模型，相比过去的语音助理应用，只能处理简单的信息，比如查询天气、股市、讲笑话等，大语言模型可以回答相对抽象、复杂的问题，尤其通过对话方式来有针对性地解决问题。

当用户提出“请根据我在海南4天的旅行日程预定酒店”的需求，AI大模型会在理解需求的基础上，提供解决方案，这不同于关键词检索这类简单的任务，大语言模型还能进一步总结归纳，综合考虑酒店价格、地理位置等因素，分析得出方案。如果用户反馈酒店价格过于昂贵，它还能进一步提供另一个方案，可以像“个人助手”一样和用户进行互动。

另外，也有多模态的应用，多个功能的大模型集成到一起，比如根据需求生成计算机代码，解决数学问题，通过各种类型的考试等等。

经济观察网：大语言模型在手机上究竟怎么发挥价值，业界还没有一个定论？

徐晧：是的，大模型本身也在不断演进，届时到底哪个大语言模型更流行或者更有用，也要看具体的应用场景。有可能是生成语言来回答问题、帮助用户写PPT、写文档、写代码、识别语言等等。可能是一个通用大模型处理所有问题，或是每一类功能交由更小的模型去做。

经济观察网：和上一波AI进入手机生成的内容截然不同？

徐晧：此前AI为手机带来了照相背景虚化、美颜、指纹识别、人脸识别等功能，这些都是具象的、相对简单的、点对点的。在大模型进入手机后，这些简单算法所生成的内容也将继续存在，不需要大模型的支持。

经济观察网：大模型进入终端是一个必然过程吗，它的演进过程是怎样的？

徐晧：大模型进入终端是普及的必然过程，对大多数用户或企业来说，能够普及的、有意义的应用还是在终端。就像曾经银河系列巨型计算机，可以算出非常复杂的太空飞行轨迹，但真正对普通民众有意义的还是个人电脑。大型模型经过训练、微调最终会被部署到终端的应用程序中，进入手机、汽车、电脑，VR/XR头显设备，这才能被消费者真正体验到，同理，企业用户也可以将大模型部署在机器人，或者监控摄像头等物联网设备中，以完成更多业务操作和生产任务。

经济观察网：所以，大模型的部署也要从云端到终端去演进？

徐晧：是的，准确地说是从云到端、并达到一个云端协同的状态。

经济观察网：具体谈谈高通对这个过程的考虑？

徐晧：毫无争议地是，初期ChatGPT等大模型的训练是在云端进行的，大语言模型的参数众多，甚至达到百亿或千亿级，训练时需要众多GPU提供算力，只有云端能提供这样的条件。

而一旦大模型训练完成，进入到推理（可理解为执行任务）阶段，企业就会对成本和安全有更多考虑。以大语言模型为例，它的搜索成本比简单搜索要高10倍，当有大量用户涌入进行搜索时，成本将节节攀升。所以，仅在云端推理并不划算，企业要支付数据中心基础设施的各项成本，包括硬件、场地、能耗、运营、额外带宽和网络传输方面。相比之下，部署在终端只需要支付硬件上的成本。此时，有些个性化的问题相对简单，本不用调用大量参数进行计算的，这类问题就可以在手机侧完成推理。

经济观察网：仅仅是为了节省成本吗？

徐晧：还有隐私安全的考虑。比如，在终端侧完成查询路线的操作时，用户可以避免将自己的目的地暴露；当用户在处理自己的图像或视频时，也无须将图像或视频上传至云端，从而避免别人盗用人脸信息的风险，也可以更好地保护用户隐私。

经济观察网：这就是云端和终端的协同部署？

徐晧：是的，我们也称为混合AI，端侧AI更快速、个性化和保护隐私，云侧AI更支持大规模运算和海量数据，各有优点。实际上，如果一个模型或者一项任务，需要消耗大量的时间、算力和数据，就可以把它放到云端去处理，完成后把答案回传就可以了。但如果这个问题相对简单，能够在手机上处理，就不需要传到云端了。

大部分的情况是，终端侧会有一个判断，即某个问题能否在本地处理，是否需要上传至云端。需要上传的才会传至云端，不需要的就在终端侧处理了。

经济观察网：目前能部署到终端的大模型是怎样的？

徐晧：现阶段来看，是规模相对小的通用大模型和垂直大模型。我们的目标分界线是，十亿以下到百亿以下参数规模的模型在终端处理，例如参数规模较小的Stable Diffusion可以在终端侧处理。

经济观察网：这也是很多厂商在努力把大模型“做小”的原因？

徐晧：“做小”是一个重要工作，企业要对大模型作出一系列的简化和优化，而非将其原封不动地搬到手机上。去年11月ChatGPT发布，催生了人们的兴趣和特别多大语言模型的开发。但是，大语言模型有很多的分支，每个分支可能还有它自己的缩减版。比如LLaMA模型有70亿参数的版本。

经济观察网：现在很多厂商在开发多模态，规模比单模态要大，是不是很难进入手机？

徐晧：一般来说，处理各种模态的选择越多，模型就会越大。所谓的多模态就是语音、文字、图片、录像等不同模态信息的综合处理应用，可以用于处理数学、法律、医学等领域的问题。业界也在考虑能否将这些大模型压缩，或者分割成更小的模型，让它们能够更容易地做事。比如新闻工作者关心的可能是稿件，程序员关心能否让模型帮忙写代码。如果每次只用一个功能，就可以根据那种功能来微调它的模型。大语言模型在云端就像一个巨型的大脑，但我们在电脑上真正能用到的，可能不会是有1000亿参数的模型，而是100亿参数的小模型。

经济观察网：高通是全球首个在安卓手机上跑通了Stable Diffusion的企业，能不能解释这个DEMO的意义？

徐晧：在手机上，在没有任何云端的帮助的情况下，这个大模型是可行的。至少从0到1让大规模AI模型进入手机终端，证明了下一步AI在端侧有很好的应用机会和发展空间。

这其中涉及到大量的工作，因为如此大的一个模型要搬到手机里运行，大多数人认为是不大可行的，但它运行的速度也很快，基本上每十几秒钟就能输出结果。

经济观察网：大模型进入终端，尤其是手机，给产业链带来的影响很大吗？

徐晧：AI可以推动手机和其他终端形式的全面升级，芯片是尤其需要升级的部分。比如说以前大家对手机的定位就是打电话，所以当时的芯片就相对简单；后来因为数据的应用，芯片开始变得复杂；再后来因为引入了小模型的AI算法，以及深度学习的算法，芯片就变得更复杂了一点；直到现在，我们要支持大模型，就需要使用处理能力更强的芯片。

经济观察网：具体需要怎样的芯片呢？

徐晧：把大模型运行在手机上进行推理，意味着手机的内存要变大，算力也要增强，这对手机芯片的要求是更高的。具体来说，高通有三点考虑，第一，让手机芯片功耗更小、运算能力更强；第二，改进过去的AI算法，从算法的角度来提高运算效率；第三，采用一些软件工具。现在的硬件、软件和算法结合得都比较紧密，在硬件上做任何事情都需要软件的支持，所以我们希望提供全栈的AI优化，包括软件的编译、模型的优化，与整个生态系统的适配，比如芯片要与手机厂家适配，让客户把我们的芯片用得更好，而我们也能支持各种操作系统，以保证和生态的兼容。

经济观察网：是 CPU、GPU、NPU等全方位的更新换代，还是只升级AI相关的专用芯片？

徐晧：不同部件更新换代的需求是不一样的。以高通为例，我们的AI引擎是由多个硬件和软件组件构成的一个整体，其中包含了高通Hexagon处理器、Adreno GPU、Kryo CPU和传感器中枢。目前我们团队准备将这些能力集成在一起，提供给手机和更多终端客户使用。

经济观察网：同时服务很多手机客户，是否也要支持客户在大模型上的差异化设计？

徐晧：我们在与手机厂商的合作中了解到，手机品牌为实现差异化，在大模型的部署和设计上有所不同。所以，我们的模式是，提供一个统一的AI平台，硬件、软件都有，让他们自行适配自己的大模型，拥有较大的优化设计的空间。比如同样基于高通提供的芯片，不同的手机厂商推出了拥有不同功能侧重点的手机。AI同理，在大模型方面，高通与多家手机客户紧密合作，但最终客户的呈现结果会有很大差别，开发出的应用程序和用户体验完全不同。

经济观察网：短期看，芯片的升级无疑会增加研发成本。这是否会让新一代手机成本上升？

徐晧：目前我认为最关键的是找到使用大模型的刚性需求。虽然很难准确评估其价值，但当人们认为一项技术极具实用性的时候，那么就会愿意为之投入，将其应用于实际。我认为这是最为重要的。

经济观察网：对于芯片厂商，支持大模型是否像当年支持5G一样面临复杂的技术挑战？

徐晧：5G和AI还有所不同。此前AI应用已经对手机的性能有了很大提升。过去手机中已经运用简单的AI算法，用于智能识别、美颜、背景虚化等功能。如今，大语言模型刚开始流行，我们就进行了全球首个运行在安卓手机上的 Stable Diffusion 终端侧演示，是因为我们在终端侧AI有多年的积累。从技术上说，5G的复杂度在于基带的算法，更多的是对通信芯片的影响；而AI更多的是对算力和整个AI的加速器的影响，二者涉及不同领域的升级。

经济观察网：手机之外，在汽车、头显、物联网等设备上支持大模型，高通是否也在尝试？

徐晧：高通在这些终端形式上都有持续的研发，一些终端客户显示出了对大模型的需求，但每一个终端的形式和需求不一样。

经济观察网：未来，很多智能终端仍然会延续过去的AI算法，也就是传统的小模型吗？

徐晧：这取决于用户的需求，AI存在诸多算法，大模型只是其中之一，仅仅作为一个工具。从工程的角度来看，对于简单的任务，最好的方法是使用最简单的工具。就像要将一个钉子敲入时，使用锤子是最合适的选择。大模型可以类比为电钻或大型联合收割机，但并非所有的事情都需要它来完成，终端侧的需求有可能是其他一系列的AI算法。

经济观察网：有了大模型，原来的小模型并不是完全没有用武之地？

徐晧：很多场景小模型就能胜任。例如，应对让“小度”响应用户的召唤这种需求，就只需要一种非常低功耗的算法，调用大模型并没有意义，因为只需实时识别出“小度小度”这一词汇即可。未来，我们的客户会将大模型和传统小模型结合使用，它们就像一个工具包中的各种不同工具，无法简单地认为哪个更好，因为应用的目标不同。