新V观海外：模态融合正成为前沿AI发展新风向

2024-05-24 10:23

陈沛/文 OpenAI在2024年春季发布会上展示了GPT-4o的多语音输入和实时视觉交互效果，令人印象深刻。在春季发布会后，OpenAI正抓紧在ChatGPT中推出GPT-4o语音模式Alpha预览版，新版GPT-4o模型背后的模态融合已成为AI发展前沿，各家机构正力争实现突破。

GPT-4o模型背后的模态融合训练变化

按照OpenAI官方解释，之前使用GPT-4的语音模式输出之所以会产生数秒延迟，是因为整个过程需要经历将输入语音转换成文本、GPT-4模型处理并输出文本、将生成文本转换成语音并输出等三个步骤。

这么多步骤不仅会导致延迟，还失去了很多上下文信息，例如识别说话者语气、分析多语音输入、消除背景噪声等。而且，模型也难以输出带有自然语气的声音。

而新版GPT-4o则是将文本、声音、视觉等多模态数据融合，端到端重新训练了一个新模型，直接使用语音转语音的方式来实现实时对话。

Meta紧跟发布混合模态早期融合基础模型

或许是看到GPT-4o模态融合效果大受欢迎，Meta随后不久便发布了Chameleon模型的研究论文，声称是在统一模型架构上对文本、图像等多模态的数据进行了早期融合训练。

Meta专门强调了早期融合，表明这个Chameleon模型是在早期训练阶段就将文本、图像、代码等多模态数据进行了统一转换，各种模态都被映射到一个共享的表征空间。

可以看出，这种融合模态的训练方法与GPT-4o类似，都是使用统一模型架构从头开始端到端训练，从而实现融合模态的无缝处理、生成以及推理。

更高层面的研究也印证了模态融合方向

长期研究AI前沿方向的前OpenAI首席科学家Ilya Sutskever最近也有新的关注。当年正是他识别出了注意力机制和Transformer研究论文在大语言模型上的应用潜力，此后一步步打造出GPT系列模型。

不过他自去年底OpenAI董事会动荡事件后再无发声，并在春季发布会后官宣离开了OpenAI。随后离开的还有他所在的超级对齐团队联合负责人和相关成员。

就在Ilya官宣离开OpenAI后，他首个公开点赞的研究论文立即引发业内关注。这篇研究论文是MIT提出的《柏拉图式表征假说》，核心思想是跨模态神经网络模型在处理不同模态数据和任务时，表征方式正在趋向于收敛，而且能在现有的语言模型和视觉模型上得到验证。因此，未来可能出现类似柏拉图理想现实的一个共享统计模型。

这就表明，今天的大语言模型、文生图模型、文生视频模型等处理某些模态的模型，都只是在现实世界的表征空间中找到了局部更优解。而要找到未来统一模型的全局最优解，或许需要的是融合模态模型。

随着融合模态已经成为前沿AI新风向，一系列变化还将接踵而至。不仅在模型输入层、端到端训练损失函数等方面将会出现创新的空间，而且在现有分模态对照标记数据集结构方面，甚至还会出现全新的变化。