我的科学家正在构建人工智能“通用大脑”

您可能见过与您交谈的智能助手、生成美丽图像的人工智能 (AI) 以及跳舞的机器人……但它们是驱动说话、绘画和移动的三个独立系统,还是同一个智能大脑的一部分?近日,北京致远人工智能研究院牵头的一项重大科研突破发表在国际学术期刊《自然》上,为实现真正“看得见、理性、稳定”的通用人工智能指明了新方向。这也是中国科研机构主导的独特大型模型的研究成果首次在《自然》官方期刊上发表。该论文的主要作者、北京驰远人工智能研究院院长、北京大学教授黄铁军表示,中心思想研究的方法非常简单:用统一的架构来教人工智能“集龙”” “无论是阅读文字、欣赏照片、观看视频还是生成动作,在新开发的致远鸸鹋模型的‘眼’里,一切都转化为一系列‘数字积木’。该模型的任务是不断预测‘下一个积木’会如何出现,就像玩抒情纸牌时一样。”该公司的GPT模型是沿着“预测下一个单词”路线训练的,ChatGPT于2022年推出,标志着大规模语言模型的突破。“黄铁军团队推测,‘预测下一个单词’架构不仅可以应用于语言,还可以扩展到多种语言。方式、图像、文本和视频。在同一架构下统一训练数据的能力允许开发m个模型,具有“一个大脑,多种功能”的大规模终极模式。据团队成员介绍,迄今为止全球出现的大多数模型都采取了“专门构建的工具组合”的方法,他们理解语言和图像,生成图像和视频,并且每个都作为独立的模型或工具工作。每个函数都在同一个文件中执行。这种分工模式虽然目的明确,但也增加了协作成本。能否培训“多面手”使用集成架构来处理所有类型的数据并获得多种技能?研究团队的Emu3模型给出了肯定的答案。 Emu3就是这样一个“多面手”AI。给定文本描述,它可以生成具有许多细节和合理结构的图像。当您提供图像和相关问题时,您可以结合视觉信息和常识来准确理解图像的问题和答案。此外,您还可以生成连续的视频剪辑。通过从头开始,模型可以逐帧生成后续图像,您甚至可以为每个图像添加文本描述,就像漫画中一样。在改进版本中在Emu3.5中,研究团队引入大规模长序列视频训练,将模型从“预测下一个单词元素”扩展到“预测下一个状态”,并开始学习世界随时间演化的统计规律,探索一条通往更完整“世界模型”的可行路径。黄铁军表示,这意味着原本被多模态模型割裂的“理解”和“生成”两类技能,如今在同一个简单统一的建模范式下首次系统地连接起来。效力“集成建模”的关键超出了多模式内容的生成。它可以扩展到物理世界,为机器人操纵提供可行的运动序列的洞察,还可以解释各种复杂的数据,例如大脑信号。黄铁棍介绍,“预测接下来会发生什么”看似简单的想法,蕴藏着发展通用智能的基因。 《自然》杂志编辑评价致远Emu3的成果对于构建多模态、集成化、可扩展的智能系统具有重要意义。黄铁军表示,这一成果证实了生成式人工智能技术道路的普适性,并表示人类已经学会了如何让不同的智能出现在同一个系统内,开始稳步走上人工智能持续进化的道路。 (金浩特记者)
(编者:何欣)

推荐文章

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注