最近我常被问一个问题:AI 到底怎么一路升级到今天这副“能说会写还能自己干活”的样子?我就按我自己的见闻,顺一道来。
起点要往前拨十年。那时的 AI 很老实,像个听话的记录员:能看、能听,但不怎么“想”。行话叫感知型人工智能(就是用来“看和听”的 AI,本质是识别器)。你给它一张脸,它认是谁;给它一句口令,它按词对号入座。更像是去数据库里翻卡片,匹配上了就搬出来,没那么多发挥。它的“匹配”不是查数据库,而是神经网络把图像/语音压成特征,再做分类或识别。当时深度学习,尤其是卷积神经网络、循环神经网络是推动感知 AI 的核心技术。
后来戏份变了。生成式人工智能(Generative AI,会按提示“现场造内容”的 AI)上台,AI 从“会看会听”升级到“会创作”。这几年行业基本在教它做跨模态“翻译”(把一种信息形态换成另一种):文生图(用文字生成图片)、图生文(用图片生成文字)、文字变视频,甚至把氨基酸序列变成蛋白质结构、把化学式推到物理性质。地铁上我单手抓扶杆,另一只手敲了句提示,它就给我吐出一版海报底稿,但灵感是现做的。Transformer 架构(2017 起)和扩散模型(2021 起)带来了跨模态生成能力。
背后发生的事儿,其实是计算模式的换挡。以前更像超级硬盘:东西都预先存好,要啥取啥。现在像万能作坊:先听明白你要什么,再现场打磨;必要时还会去检索补漏,然后把自己的旧知识和新线索揉在一起,给你一个独一份的结果。也就是说,电脑不只是“找答案”,而是在“编答案”,还能根据上下文临场调整。其实基础模型本身不能直接上网检索,除非与检索模块结合(RAG 模式)或接入外部 API。
当 AI 会创作之后,野心自然不止在“回答你”。它开始自己去把一件事办完,这套叫代理型人工智能(Agent AI,能分步骤自主完成任务的 AI)。它会推理(把背景过一遍、排可能路径)、会规划(把任务拆成可执行的几步)、会执行(用工具、写点代码、下指令、上网跑一圈)、还会学习(读网页/文档/视频,把新知识现学现用)。我让它帮写一份市场调研,它没有立刻给我一篇“像样但不靠谱”的长文,而是先拉数据、画趋势、拼表格,再把结论串起来。中途我把咖啡打翻在笔记本触控板上,它自己继续跑,等我擦完桌子,图都好了。AutoGPT、LangChain Agents、OpenAI o1 等都能执行这些步骤。
现在又到下一道坡:物理人工智能(Physical AI,懂物理规律、能在现实里动手的 AI)。这类 AI 不只摸得清数字世界,还能理解摩擦力、惯性、因果、物体持久性(拐角看不见的东西不会消失这些常识),能在三维空间里感知、推理、规划行动。想象一个仓库机器人,遇到通道被一堆纸箱堵住,它不是傻等,而是先挪走障碍再继续搬运。家里 Wi‑Fi 偶尔抽风,它也不会卡住,先做离线能做的,再补齐。当然了,这是对未来趋势判断。
把这些串起来看,十年里 AI 走了三大步:从“会感知”,到“会生成”,再到“能代理式地自己把事办了”;下一步正朝“能在物理世界动手”的方向走。大概等它和机器人配合得更顺,我们习惯的很多小活儿,比如收拾屋子、送个东西、照看老人,甚至一些科研跑腿,它们都能搭把手。到那时,你没开口,它也差不多猜得到你想要啥。
大概就是这样,一路从会看会听,到会想会干。