苹果Siri的AI突破:从语音助手变成智能体

沈怡然2024-06-11 18:47

经济观察网 记者 沈怡然 2024年6月11日,苹果(AAPL. NASDAQ)在线上举行的2024苹果全球开发者大会上发布了全新升级的人工智能(AI)助手Siri。苹果公司首席执行官蒂姆·库克在会上宣称,新版Siri不仅可以执行任务、理解上下文,还可以调用App并与其深度交互。

根据苹果发布会,新版Siri的文本转语音功能经过改进,使得其声音听起来更自然、更接近人类的语音;新版Siri将具备“屏幕感知”功能,能够理解用户正在浏览的内容,并针对相关App提供操作建议;此外,新版Siri能够更深入地与第三方App集成,执行如打开应用、控制媒体播放等操作。

在对Siri的AI功能进行升级之外,苹果还宣布与OpenAI合作,将ChatGPT集成到其操作系统中,允许用户免费访问GPT-4o的某些功能,并为订阅用户提供更深入的个性化服务。

商汤科技(00020.HK)智能产业研究院院长田丰对记者称,新版Siri是人工智能演进到更高阶段——智能体的一个体现。田丰说,从技术上看,人工智能已经从单一的大语言模型迈向了多模态大模型,最终又演进到了智能体阶段。但是,光有智能体技术是不够的,还需要将技术嵌入到海量终端设备和App中以实现其功能。苹果与OpenAI等AI技术提供商合作,可以充分发挥苹果的海量用户和App生态优势。新版Siri在海量终端用户和大规模的第三方App的调用中,将发挥AI的更大应用潜力。

田丰说,当一个学会这几样技能的智能体被植入用户的手机里,用户无须再去搜索,甚至连App都不需要打开了。例如,智能体可以作为手机上的助手,帮助用户进行日常任务,如修改文档、生成报告、搜索信息等。例如,手机上的助手可以处理文本信息,并帮助用户在移动设备上完成任务,如修改文档或生成报告。

在田丰看来,智能体技术已经开始商业化并进入市场,很多家公司已经推出了智能体产品,这意味着用户可以更多地将这些技术视为助手或工具,而不是专业的术语。

清华大学计算机系副教授刘知远对经济观察网说:“技术上看,人工智能正迈入智能体时代。”

刘知远称,智能体代表了人工智能领域的一个新阶段,它们不仅能够处理和理解多种类型的数据,还能够在真实世界中执行复杂的任务,具备学习和自我改进的能力。智能体技术是大模型技术的演进成果,不仅继承了大模型的能力,还引入了更丰富的功能和更高的技术门槛。与大模型相比,智能体的技术更复杂,应用潜力也更大。

斯坦福大学计算机科学系教授吴恩达指出,智能体通过四大技能实现了这一飞跃:首先,反思(Reflection)允许智能体评估自身行为并进行调整,模仿了人类完成任务后的自我检查;其次,工具使用(Tool Use)使智能体能够利用搜索、计算等各种工具来辅助任务执行;再次,规划(Planning)能力让智能体能够将大任务细分并有序执行,类似于人类写作前的提纲准备;最后,多智能体协同(Multi-agent collaboration)使得智能体能在团队中协作,每个成员都有自己的角色和任务,共同寻找最佳解决方案。

吴恩达认为,这些技能的综合体现了智能体在模拟人类决策和行动方面的进步。

以OpenAI为首的诸多科技公司,正将智能体技术作为其核心战略。在2023年11月6日的OpenAI开发者大会上,OpenAI创始人Sam Altman强调了智能体及相关生态构建的重要性。

OpenAI于2023年3月14日发布了GPT-4,这是一款能够处理多模态输入的大型语言模型。GPT-4更新了All Tools功能,该功能允许模型在一个对话中调用多个工具完成复杂指令。

Sam Altman表示:“帮助用户和开发者更好地构建智能体并为其寻找商业模式已经成为OpenAI目前的重要工作。”例如,在GPTs应用商店内,OpenAI开放出技术让用户和开发者可以定制和商业化发布自己的智能体。

“如果大模型是发动机,智能体就是整辆车。”田丰认为,多模态大模型将不同的模态集成在一起,使得AI能够更全面地理解和响应用户的需求。智能体能够实现环境感知、任务分解、长期记忆和自我改进等复杂功能,可以调用多个软件工具或模型来完成复杂的任务。

版权声明:以上内容为《经济观察报》社原创作品,版权归《经济观察报》社所有。未经《经济观察报》社授权,严禁转载或镜像,否则将依法追究相关行为主体的法律责任。版权合作请致电:【010-60910566-1260】。
大科创新闻部记者
关注硬科技领域,包括机器人及人工智能、无人机、虚拟现实(VR/AR)、智能穿戴,以及新材料领域。擅长企业深度报道及上市公司分析报道。发现前沿技术、发展趋势投资价值。