文|脑极体
图灵奖得主杨立昆认为,目前AI界持续追捧的大语言模型并非十全十美,它隐藏着四个难以突破的致命弱点:一是理解物理世界,二是拥有持久记忆,三是具备推理能力,四是复杂规划能力。
而能够克服第一个“致命弱点”的技术,叫作世界模型。
这听起来或许很抽象,但你一定知道谷歌的3D游戏、特斯拉的自动驾驶。
世界模型意味着机器能够像人一样辨别物理空间、理解物理规律、根据经验做出推理决策。
与大语言模型不同的是,世界模型不再遵循从海量文本语料生成概率的逻辑,而是在深度分析大规模现实世界视频后推测因果。
就像人类世界的婴儿一样,在交互学习中构建对这个世界的认知。
想象一个刚出生的婴儿,她的眼睛尚未完全聚焦,却能通过触摸、温度、声音的碎片拼凑出世界的轮廓。人类大脑用数百万年进化出这种能力——将感官信息转化为对物理规律的理解。
而这恰是今天人工智能所欠缺的,世界模型正在努力发展的——从数据中重构对重力、时间等知识的理解。
世界模型的概念最早可追溯至1980s到1990s的认知科学和控制理论,那时的研究者受心理学影响,提出AI系统需要构建对环境的内部模拟,从而进行预测和决策,即AI的环境建模能力。
这里有一个重要的要素:环境。
从生物学上来讲,不论是微生物、动物还是人,行为都遵循着一个最基本的规则:刺激-反应模式,即生物反应是对环境刺激的直接响应。
随着生物千亿年漫长的进化,动物发展出感觉和心理,通过视觉、听觉、嗅觉等感官感知外界,产生出兴奋、恐惧等简单情绪;人类进一步发展出自我意识,而人类意识和动物感觉最大的区别是能否自主规划、有目的地进行决策和行动。
拿生物进化过程和AI的发展历程相比,我们不难发现,其实AI的终极形态AGI就是要发展出自主感知现实、自我规划、有目的决策的能力。
世界模型的雏形就萌芽于心理学家对人类和动物认知理解世界并做出决策的观察。这个理论叫作心智模型,1990年由David Rumelhart提出,强调智能体需对环境形成抽象表征。
以我们自身举例,人类大脑对周围世界有一种习得的内在认知框架,根据经验做决策,如看到乌云就联想到下雨。再比如,我们不会记住每片树叶的形状,却能瞬间判断树枝能否承受体重。同理,世界模型就是让机器构建起对周围环境和世界的理解和预测能力,比如看到火就联想到烫伤。这种抽象能力,正是这一时期学者希望机器具有的禀赋。
但是,这阶段的世界模型研究停留在理论构想阶段,虽有了较为清晰的定义和目标,仍没有具体的技术路径。
世界模型研究开始落地是2000s到2010s的计算建模阶段,随着强化学习和深度学习的深入发展,学者开始尝试用神经网络构建可训练的世界模型。
强化学习通过奖惩机制让其在与环境交互过程中不断习得策略,类似于“训狗”,深度学习通过分层特征提取让其从海量数据中自动学习规律,类似于“炼金”。
2018年,DeepMind 《World Models》(Ha & Schmidhuber)论文首次用“VAE+RNN+控制器”的三段式架构,构建可预测环境的神经网络模型,成为现代世界模型的里程碑。
这一过程类似于“造梦”——先通过自动编码器VAE将现实场景压缩成数据,再利用RNN循环神经网络推演未来可能的情节,最后用精简的控制器指导行动。这意味着世界模型首次具备了颅内推演的能力,像人类一样在行动前预判后果,大大降低了试错成本。
2022年后,世界模型进入大模型时代,借助Transformer的序列建模能力和多模态学习技术,应用范围从单一模态扩展到跨模态仿真,世界模型的推演也从2D走向3D(如OpenAI的GATO、DeepMind的Genie)。
近期研究如Meta的VC-1、Google的PaLM-E进一步将世界模型的概念带入公众视野,将世界模型与大语言模型结合以实现更通用的环境推理成为一种技术发展路径。
Google的PaLM-E(5620亿参数)模型成功将语言模型与视觉、传感器数据等物理世界信息结合,机器人能够理解复杂指令(如“捡起掉落的锤子”)并适应新环境执行任务。Meta Llama系列的开源多模态框架(如MultiPLY)进一步促进了对物理环境的3D感知研究。
由上,从概念推演到落地实践,世界模型在发展中逐步摸索,渐渐走出一条从混沌到清明的路。
Transformer架构的进化、多模态数据的爆发,让世界模型走出训练场,走进游戏场,再走向真实世界——谷歌、腾讯通过其生成逼真的游戏场景,特斯拉用神经网络预测车辆轨迹,DeepMind通过建模预测全球天气。
就这样,在实验室中蹒跚学步的世界模型开始了他对现实物理规律的探索之路。
就像人类幼年通过游戏感受规则完成社会化一样,世界模型的第一关也是游戏。
初期的模型应用仰赖规则明确的虚拟环境和边界清晰的离散空间,如Atari游戏(DQN)、星际争霸(AlphaStar),采用表格型模型(如Dyna),后期结合CNN/RNN处理图像输入。
进化至3D版后,谷歌DeepMind的Genie 2可通过单张图片生成可交互的无限3D世界,时长达1min,用户可自由探索动态环境(如地形变化、物体互动)。由腾讯、港科大、中国科大联合推出的GameGen-O模型可一键生成西部牛仔、魔法师、驯兽师等游戏角色,还能以更高保真度、更复杂的物理效果生成海啸、龙卷风、激光等各种场景。
经过大量训练后,世界模型由游戏过渡到工业场景。
游戏引擎的核心能力在于构建高保真、可交互的3D虚拟环境。这种能力被直接迁移到工业场景中,用于模拟工业场景中各种可能出现故障的复杂场景。
机器人公司波士顿动力在虚拟环境中预演机器人动作(如摔倒恢复),再迁移到实体机器;特斯拉2023年提出的世界模型直接整合了游戏引擎的仿真技术,利用合成数据训练自动驾驶系统,减少对真实路测数据的依赖;蔚来的智能世界模型能够在极短时间内推演数百种可能情境并做好预案和决策。
最近,世界模型还走进了基础研究领域。
DeepMind的GraphCast靠世界模型处理百万级网格气象变量,预测天气能力比传统数值模拟快1000倍,能耗降低1000倍。它通过图神经网络架构,能够直接从历史再分析数据中学习天气系统的复杂动力学,精准、高效预测全球天气。
从游戏般的虚拟场景到自动驾驶等现实场景,世界模型的本质是通过大量多模态资料理解物理世界的规律。未来,“世界模型+大语言模型”可能成为AGI的核心架构,让AI不仅能聊天,还能真正理解并做出决策改变现实世界。
不过,我们为何需要世界模型?在大语言模型火爆全球的今天,是什么让其显得不可替代呢?
让AI真正从模仿表征到感知本质,克服其各种恐怖谷效应的关键是:让它真正理解这个世界,了解现实空间和物理规律,进而理解它为什么会做这件事,而不是机械地根据海量数据的关联概率推测下一个token是什么。
这是基于大规模文本语料的大语言模型和不断试错优化寻找最优路径的强化学习做不到的,只有世界模型能做到。
传统AI是数据驱动型的被动反应系统,而世界模型通过构建内部虚拟环境理解了物理、碰撞等现实规律,能够像人类一样通过想象预演行动后果,并在游戏、机器人等领域共享底层推理算力。
首先是通过底层建模和多模态整合构建出跟人类一样的心智模型。外部,世界模型不仅模拟物理规律,还试图理解社会规则和生物行为,从而在复杂场景中趋利避害。内部,世界模型根据感知、预测、规划和学习的协同,形成类似人类心智的时空认知能力。
其次是因果预测和反事实推理能力。世界模型能够基于当前状态和行动,预测未来的演变结果。其具备类似人类的常识库,能填补缺失信息并进行反事实推理(what if),即使未直接观察某事件,也能推断“如果采取不同行动会如何”。这种能力使其在数据稀缺时仍能有效决策,减少对海量标注数据的依赖,在自动驾驶领域应用较多。
最后,世界模型通过自监督学习构建对世界的通用表征,获得了跨任务、跨场景的泛化能力,而传统模型通常需针对特定领域的具体任务微调。
但是,这些能力,为什么火极一时的大语言模型做不到呢?
要弄清为什么世界模型的预测能力和大语言模型的推测token能力不一样,我们需要弄清一个概念:相关性≠因果性。前者是概率关联、后者是因果推理。
大语言模型(如GPT系列)侧重于大数据驱动的自回归学习,通过海量文本数据训练模型以生成文本,本质是预测概率,而世界模型学派认为自回归的Transformer无法通往AGI。AI需要具备真正的常识性理解能力,这些能力只能通过深度分析大量照片、音视频等多模态数据对世界的内在表征来获得。
模型结构层面,大语言模型主要依赖Transformer架构,通过自注意力机制处理文本序列。世界模型则包含多个模块,如配置器、感知、世界模型、角色等,能够估计世界状态、预测变化、寻找最优方案。
通俗地讲,大语言模型训练出的文本天才是纸上谈兵的文将,对常识可能一窍不通。而世界模型更像在建模环境里身经百战的武将,可以凭直觉和经验预判对手如何出招。
世界模型虽前景可期,目前依然面临着一些瓶颈。
算力上,训练世界模型所需要的计算资源远超大语言模型,且存在“幻觉”(错误预测)问题;泛化能力上,如何平衡模型复杂度与跨场景适应性仍需突破;训练集上,多模态的数据规模更少,且需深度标注,质量把关是重中之重。
如果说类似GPT一样的大语言模型已经到了能言善辩的青春期,世界模型实则还处于牙牙学语的幼年期。
总的来讲,世界模型是深度学习之外的另一条探索道路。如果未来深度学习陷入发展瓶颈,世界模型可能是一种备选方案。但现阶段,世界模型仍在探索期,我们仍要将主心骨放在大语言模型和深度学习这条技术线上。
多点发力,协同并进,才能让AI的成长有更多道路可走。
极目新闻记者 刘闪 何佳仪通讯员 李胜唐7月16日下午,2025湖北省人形机器人产业链对接会在第三届中国国际供应链促进博览会期间(简称 “链博会”)举行。本次对接会以“链动创新前沿,赋能新质未来”为主题,全方位展现湖北人形机器人产业发展优势与潜力,推动产业链上下游精准对接,为全球人形机器人产业协同发
2025-07-16 23:03:00文 | 源媒汇,作者 | 谢春生,编辑 | 苏淮国补叠加618,清洁电器巨头们可谓是过了一个肥沃的上半年。近日,奥维云网发布数据显示,今年618促销期,整体清洁电器维持较高增幅,销额同比增长27%。另有监测数据显示,618促销期,清洁电器领涨家电大盘,同比增长26.0%,生活电器、水家电、厨房小电同
2025-07-10 18:46:00来源:环球网 【环球网报道 记者 姜蔼玲】据路透社、美国有线电视新闻网(CNN)等外媒报道,美国总统特朗普当地时间9日在白宫接待非洲多国领导人时,当众称赞利比里亚总统博阿凯“英语说得真好”,并询问他“在哪学的”。多家外媒在报道这一消息时提到,英语正是利比里亚的官方语言。特朗普此番言论在社交平台上引发
2025-07-10 10:01:002025年7月1日 谣 言 山西晋中榆次遭遇水灾? 科 普 警惕!穿洞洞鞋易引发这些安全隐患详情:夏天,洞洞鞋凭借柔软舒适的特性广受大众青睐,然而,其存在的诸多安全隐患不容忽视。增加脚部真菌感染的风险:医生介绍,洞洞鞋吸汗性不如网面鞋、布鞋,透气性比塑料拖鞋弱,高温下长期穿着易产生潮湿环境,增加
2025-07-02 11:32:00近日,瑞士洛桑国际管理学院发布《2025年世界竞争力年报》,香港竞争力全球排名上升两位至全球第三,继2019年后首次重返三甲。舆论认为,这是国际社会对香港的独特地位和优势的充分肯定,也是对香港在国际舞台上实力的高度认可,更是对“一国两制”成功实践的有力印证。这份报告中,香港总得分99.2(满分100
2025-06-30 09:59:0027日,省政府新闻办公室召开福建培育文化旅游支柱产业暨夏季文旅惠民消费季新闻发布会。“清新福建”文旅惠民卡同期上线,为你带来更多实惠。这个暑期,省文旅厅将联动全省各地,举办“来福建·邂逅山海的夏天”文旅惠民消费季,开展3600多场活动,推出270多项惠民措施,创新打造文旅场景。此次福建将打造六大文旅
2025-06-28 10:13:00作为连接终端厂商与普通消费者之间的重要纽带,机器人租赁公司总是会最先感受到市场的变化。当人形机器人上线618京东开卖时,游走于租赁市场的老板们却感受到了市场的寒意。在五一假期冲向高峰之后,市场热度开始锐减。李湘宇、宇哥都算是在机器人租赁市场上第一批“吃螃蟹”的人。当宇树机器人走下春晚舞台,李湘宇就发
2025-06-25 08:26:00书页翻动处,激荡时代的声响;文化交融中,生发精神的力量。书香里潜藏着社会进步的巨大动力见到82岁的初洪昌老人,是在吉林长春举办的第二届东北图书交易博览会(以下简称“书博会”)上。开幕当天凌晨4点,他从公主岭市范家屯镇出发,赶赴书博会。“阅读让生活快乐”,只为心中这份热爱,他多年来在劳作之余坚持阅读,
2025-06-24 07:17:00