Editorial Note
这不是工具盘点,而是一篇关于 AI 基础条件的结构文章。
如果只看模型排行榜,我们看到的是“谁更会答题”;如果把依赖链展开,我们看到的才是“谁更可能进入现实”。这篇文章真正要讨论的,是 AI 变强背后那套常常被忽略的支撑系统。
AI 的依赖链,不在榜单上,而在现实系统里
这期先把结论说在前面:今天的人工智能,表面上依赖的是算力、数据和算法;往深处看,它依赖的是一整套现实系统。它不是一个单独漂在云端里的模型,而是被芯片、电力、数据中心、训练方法、工具接口、任务环境和信任机制共同托起来的技术体系。
这期核心判断
AI 越强,越不是单纯的“模型变聪明”。
它越强,越依赖现实世界。
Editorial Note
如果只看模型排行榜,我们看到的是“谁更会答题”;如果把依赖链展开,我们看到的才是“谁更可能进入现实”。这篇文章真正要讨论的,是 AI 变强背后那套常常被忽略的支撑系统。
Reading Map
Interactive Map
这个小控台把“模型能力”拆成七个相互牵引的条件。点击不同层级,先看它卡住什么、放大什么,再带着这个视角去读后面的正文。
当前焦点
当训练更大、推理更长、用户更多时,真正先撞上的往往不是“想法不够”,而是 GPU、供电、散热、网络和单位成本。
当前焦点
公开文本让模型学会描述世界,但真实反馈、结果记录和多模态任务,才能让它学会一个动作进入世界后会发生什么。
当前焦点
模型变强,越来越依赖推理策略、自我检查、后训练和计算效率。它不再只是“知道多少”,而是“会不会停下来想清楚”。
当前焦点
当 AI 开始读数据库、调 API、操作浏览器或更新系统时,它的能力和风险会一起上升。接口越强,对边界的要求也越高。
当前焦点
记忆、上下文、任务拆解、重试、停止机制、成本控制这些东西,决定了一个 AI 是“会回答”,还是“真能工作”。
当前焦点
模型并不自带完整任务环境。目标、边界、素材、时间、判断标准越清楚,AI 就越有机会从“像模板”变成“能落地”。
当前焦点
授权、审批、日志、回滚、成本限制和责任链,让一个可以做事的 AI 不会变成一个不可控的风险源。
Opening
很多人现在聊 AI,最容易从工具开始聊。但如果只看工具,我们就会误以为 AI 的进步只是产品界面的变化,是一个聊天框变得更顺手,是一个按钮生成得更快。
导语
可《计算》这本书里讲人工智能的时候,给了一个更底层的框架:人工智能技术是电子计算机发展的产物,它的发展同样依赖计算的关键要素。书里把这个问题压缩成三个词:算力、数据、算法。
这三个词听起来很技术,但它们其实决定了 AI 能不能继续往前走。算力决定模型能不能被训练出来,能不能承担复杂推理,能不能在真实用户量下运行;数据决定模型到底学到了什么,它接触的是公开文本、专业知识,还是来自现实任务的反馈;算法决定模型怎样使用这些算力和数据,怎样学习,怎样推理,怎样调用工具,怎样从一次回答走向一套行动过程。
所以今天我们要讲的不是“AI 有没有用”。这个问题已经不用再争。真正值得问的是:AI 的能力从哪里来?它受什么限制?它未来继续发展,最需要补上的短板是什么?以及普通人到底应该怎样理解它,而不是被它带来的速度压力推着走。
《计算》里的底座
这三层没有过时,它们仍然是 AI 发展的原始骨架。
945 TWh
2030 数据中心用电
IEA 在基准情景下预计,全球数据中心用电量到 2030 年将达到约 945 TWh。[1]
300T
质量调整后公开文本
Epoch AI 估计,人类公开文本在质量和重复度调整后大约处于 300 万亿 token 量级。[3]
671B / 37B
DeepSeek-V3 MoE
DeepSeek-V3 官方技术说明给出 671B 总参数、每个 token 激活 37B 的 MoE 设计。[6]
~66%
OSWorld Agent 成功率
Stanford HAI 指出,AI agent 在真实电脑任务基准上进步很快,但仍会在结构化任务里频繁失败。[8]
Seven Layers
榜单告诉你它在测试题上表现如何,依赖链告诉你它能不能进入现实。下面这七层,就是这次口播稿真正想拆开的部分。
算力
很多人对 AI 的体验,是打开一个网页,输入一句话,等几秒钟,答案就出来了。这个动作太轻了,所以我们很容易忘记,它背后是非常重的物理基础设施。
一个大模型能不能训练,不只取决于研究员有没有想法,也取决于有没有足够的 GPU、显存、高速网络、服务器集群、数据中心、电力供应和冷却系统。模型能不能服务大量用户,也不只是算法问题,还要看推理时的计算成本能不能承受,看网络延迟能不能控制,看服务器能不能稳定运行。
国际能源署的 Energy and AI 报告里给过一个很直接的数字:在基准情景下,全球数据中心用电量预计到 2030 年会达到约 945 TWh,接近全球总用电量的 3%,而且从 2024 到 2030 年,数据中心用电增长速度大约是其他部门总用电增长速度的四倍以上。[1]
这说明 AI 的成本不是只发生在模型公司的报表里。它会发生在电网里,发生在数据中心选址里,发生在芯片供应链里,发生在能源结构里。
OpenAI 在介绍 o1 时提到,模型能力会随着更多强化学习训练计算,以及更多测试时思考时间而提升。换句话说,模型在回答阶段分配更多计算,也可能带来更好的表现。[2]
这就是第一层结论:AI 的回答发生在屏幕上,但 AI 的成本发生在现实里。
数据
如果说算力决定模型能不能被训练出来,那么数据决定模型到底学到了什么。过去几年,大模型最重要的成长路径,是吸收大量公开文本。网页、书籍、代码、论坛、论文、新闻、问答、产品文档,这些内容共同组成了模型理解语言和世界的基础。
但这条路径正在遇到新的瓶颈。Epoch AI 的研究估计,经过质量和重复度调整的人类公开文本大约在 300 万亿 token 量级;如果趋势持续,语言模型可能会在 2026 到 2032 年之间充分利用这部分公开文本库存。[3]
这并不是说数据会突然用完,而是普通公开文本的边际价值正在下降。下一阶段,AI 需要的不是简单地“更多文本”,而是“更高质量、更接近真实任务的数据”。
这包括专业数据、企业内部知识、医疗影像、法律案例、工业设备日志、机器人操作轨迹、真实用户反馈、多模态视频,以及模型行动后的结果记录。公开文本告诉 AI,人类怎样描述世界;真实反馈告诉 AI,一个动作进入世界以后会发生什么。
所以现在很多研究重新强调世界模型、多模态学习和空间智能。Meta 在介绍 V-JEPA 2 时,把它称为一种基于视频训练的世界模型,目标是提升 AI agent 对物理世界的理解和预测能力,并让系统能在新环境中进行规划和机器人控制。[4]
这就是第二层结论:AI 依赖数据,但更准确地说,它依赖可验证、可更新、可反馈的经验。
章节中线
AI 从文本走向世界,不只是语料升级,而是从“看过很多内容”走向“经历过可验证任务”。
算法
书里讲算法依赖,会提到神经网络、Transformer、强化学习、世界模型。这些当然重要。但站在今天看,算法已经不只是模型结构本身。更重要的是,模型怎样学习,怎样推理,怎样节省计算,怎样在不确定时检查自己,怎样把一个复杂任务拆成多个步骤。
过去我们常常把 AI 能力理解成“模型里存了多少知识”。但现在越来越明显,模型能力不只来自预训练阶段读过多少内容,还来自后训练阶段被塑造成什么行为。
它会不会先理解问题?会不会拆分条件?会不会检查矛盾?会不会在不确定时搜索更多证据?会不会调用工具验证?会不会发现自己走错了,然后调整路径?
DeepSeek-R1 的论文指出,语言模型的推理能力可以通过强化学习被激励出来,并出现自我反思、验证和动态策略调整等高级推理模式。[5]
DeepSeek-V3 的技术报告也显示,模型进步不只有“规模扩大”这一条路线。DeepSeek-V3 是一个 MoE 模型,总参数 671B,每个 token 激活 37B 参数,使用 14.8T token 预训练,并通过 MLA、DeepSeekMoE、多 token 预测等方法提高训练和推理效率。[6]
这就是第三层结论:AI 的能力,越来越依赖它怎样思考,而不只是它学了多少。
工具和接口
今天我们觉得 AI 变强了,很多时候不只是模型本体变强了,而是模型开始接入外部工具。它能搜索网页,读取 PDF,分析表格,运行代码,调用函数,连接数据库,操作浏览器,接入邮箱、日历、CRM、Notion、GitHub、n8n、Zapier 或企业后台。
Anthropic 推出 Model Context Protocol 的时候,把 MCP 定义为一个开放标准,用来在数据源和 AI 工具之间建立安全的双向连接。开发者可以通过 MCP server 暴露数据,也可以构建连接这些 server 的 AI 应用。[7]
这个方向很重要,因为它解决的是 AI 落地中非常现实的问题:模型本身再强,如果被困在信息孤岛里,能力也会被限制。它可能会写 SQL,但如果没有安全访问数据库的接口,它就只能停在文字层;它可能会规划客户跟进,但如果不能读取客户状态、历史沟通和业务规则,它的规划就会停在泛泛建议。
但一旦 AI 能做事,它的错误就不再只是答案错了。它可能发错邮件,改错表格,读取不该读取的文件,调用错误 API,也可能在权限过大的环境里造成真实损失。
所以第四层结论是:模型负责判断,工具负责接触现实;接口越强,越需要边界。
Agent 框架
Agent 这个词现在被用得很多,但它真正重要的地方,不是名字,而是中间层。一个 AI 产品前端看起来可能很简单:一个输入框,一个聊天窗口,几个按钮,一个上传文件的入口。但真正影响体验的,往往藏在后面。
它怎样组织上下文?怎样保存长期记忆?怎样拆分任务?怎样选择工具?怎样决定调用哪个模型?怎样失败重试?怎样控制成本?什么时候继续执行?什么时候停下来问用户?什么时候把任务交给另一个 Agent?
这些东西合在一起,才是 Agent 框架。很多人会觉得,模型强就够了。但实际使用中,强模型如果没有好的任务组织,也会输出很散;中等模型如果被放进一个设计良好的框架里,反而可能在特定场景中表现很稳定。
一个真正能用的 Agent,不应该只会积极执行。它还应该会停:当信息不足时停,当权限不够时停,当风险过高时停,当需要用户判断时停。
这就是第五层结论:未来真正重要的,不只是哪个模型更强,还有谁更会组织模型。
任务环境
这一层对普通人最重要。很多人用 AI,最常见的感受是:有时候很惊艳,有时候很空。有时候它能把问题拆得很清楚,有时候它写出来像模板。这里面当然有模型能力差异,但更常见的原因是任务环境不清楚。
你让它写文案,却不给账号定位、受众、平台、风格、素材、限制,它只能写通用稿。你让它做分析,却不给资料来源、判断标准、时间范围,它只能用常识补。你让它规划项目,却不给预算、时间、目标、工具、风险约束,它只能给一套看起来完整但无法执行的路线。
所以 AI 依赖的不只是输入一句提示词。它依赖一个清楚的任务场。目标要清楚,材料要清楚,边界要清楚,评价标准要清楚,下一步动作要清楚。
很多人以为 prompt engineering 是把话写得更复杂。其实更重要的是把任务定义得更准确。你不是在和 AI 玩文字游戏,你是在把一个模糊需求,翻译成机器可以处理的任务结构。
更稳的方式,是回到自己的任务环境:我每天最被什么消耗?是信息太乱?是任务启动太难?是资料太多看不完?是反复改格式?是写第一版太痛苦?还是明明有想法,但无法转成结构?
所以第六层结论是:AI 依赖任务环境。人越能定义问题,AI 越能产生价值。
治理和信任
很多人看 AI,只看它会不会。但当 AI 进入真实流程以后,更重要的问题不是它会不会,而是它能不能被控制。
Stanford HAI 的 2026 AI Index 提到一个很有代表性的现象:AI 模型可以在国际数学奥赛级任务上达到金牌水平,但顶级模型读取指针式时钟的正确率只有 50.1%;AI agent 在 OSWorld 真实电脑任务基准上的成功率从 12% 提升到约 66%,但在结构化任务里仍然大约每三次失败一次。[8]
这个现象说明,AI 的能力边界并不平滑。它可能在很难的问题上表现惊人,也可能在简单任务上突然出错。它可能写出很高级的推理,也可能误读一个基础信息。
所以治理不是一句“安全很重要”。治理要落实成权限、日志、审批、回滚、隐私、成本限制和责任链。AI 能读取哪些数据?能调用哪些工具?哪些动作必须人工批准?出了问题谁负责?用户能不能撤回授权?
这就是第七层结论:AI 的终点不是无限放权,而是可控行动。
System Layer
过去大家更关注基础模型本身。现在越来越多价值发生在系统层。一个模型会回答问题,价值是一层;一个系统能管理记忆、调用工具、拆分任务、接入业务、保留日志、控制权限,价值就完全不同。
中间层的价值
普通脚本按规则走,Agent 系统要在不确定环境中持续判断。但判断越多,错误空间也越大,所以 Agent 框架的价值,不只在于“自动”,还在于“可控自动”。
Human View
对于普通人来说,也不需要把 AI 神化,更不需要每天被新工具追着跑。你真正要做的,是看清两件事:第一,AI 的能力来自哪里;第二,你自己的真实需求在哪里。
如果你需要学习,它可以帮你拆资料、做提纲、检查理解漏洞,但不能替你建立长期判断。如果你需要创作,它可以帮你冷启动、整理素材、改结构,但不能替你决定账号要表达什么。如果你需要做自动化,它可以帮你设计流程、写接口说明、检查异常分支,但不能替你承担客户数据和业务责任。
AI 可以承担很多工作,但它不能替人类承担每一个关键选择的后果。所以普通人面对 AI 最稳的姿态,不是恐惧,也不是崇拜,而是理解它:理解它的能力,理解它的限制,理解它的依赖链。
让它处理重复,让它整理混乱,让它承担冷启动,让它帮你生成初稿,让它接入流程,但不越过边界;让它提升效率,也保留人的判断。
AI 更适合帮你做
仍然要由你完成
未来真正改变世界的 AI,未必只是最会聊天的模型。更可能是那些能稳定接入现实、承受约束、完成任务,并且被人类安全使用的一整套系统。
最后再回到《计算》里那个更大的问题:大模型到底是在理解世界,还是在做巨大规模的统计匹配?这个问题今天还没有结束。但有一点已经越来越清楚:它越强,越离不开现实。
Sources
本页正文出现的 [1] 到 [8] 对应以下材料,保留为网页稿尾注,方便继续延展阅读。