mola
假设用户上传了一张手写的化学方程式照片,问模型:“帮我配平一下。”如果用户用的是类似我之前开发的 MolaGPT Routes 或者类似的路由器的话,这时候就会有点犯难:这到底算图像识别,还是化学推理?如果系统把它交给一个擅长看图的模型,模型确实能看清图片上写了什么,但如果这个模型逻辑能力捉急,配平就可能配错。换个擅长推理的模型呢?方程式也许能配得漂漂亮亮,但前提是它得先看懂图片里写了什么。要是碰上某些不支持多模态输入的模型,还得有人先把图片里的内容转成文字,再交给它推理。
一开始我觉得问题出在“图片变成文字”这个环节。现实世界里的纸张、笔迹、光线和阴影,被拍成照片之后,必须先转化成模型能处理的文字,才能进入推理过程。看起来,这里横着一道从现实到数据之间的鸿沟。但是,如果视觉模型已经把字符认出来了,说明化学方程式本身已经进入了系统,配平出错,更多是因为这个模型不擅长化学推理。在视觉模型后面接一层文字提取,再把结果传给推理模型,这条路当然能解决很多问题。说到底,这其实是一个 Agent 工程问题,是 Harness 没设计好导致的。
假设未来的模型足够强,它既能看图,又能推理,还能在一张复杂照片里主动放大、裁切、识别细节。那刚才那道鸿沟是不是就消失了?或者说当模型已经能越来越熟练地处理图像、声音、文本、网页、代码和工具返回结果时,我们还能不能说它“没有真正接触世界”?
看见,不等于经历
用户上传的那张纸上,除了化学方程式,也许还有很多东西。某个地方笔迹突然加重了,也许是写的人当时有点烦,也许是快下课了,手上不自觉用力。方程式旁边有一团被涂掉的墨迹,那是一次写错又改掉的痕迹。纸张有折痕和褶皱,可能是被塞进书包里,又在第二天早上皱巴巴地翻出来。
一个足够强的多模态模型,当然可以看到这些。它可以识别笔迹加重,可以指出涂改痕迹,可以判断纸张有折痕,甚至可以根据画面推测这张纸经历过什么。随着多模态能力继续发展,这些细节迟早会被模型捕捉得越来越准。所以说问题不在于它能不能看到,问题在于它看到之后,究竟会把这些东西当成什么。

用户问的是“帮我配平一下”。这几个字就是一个提示词,它告诉模型:请你只关心方程式本身。于是笔压、涂改、褶皱、纸张边缘的阴影,都被任务框架排除在意义之外。它们也许都在视觉词元里,也许都被模型编码进了某个高维空间,但在这次任务里,它们没有被允许变得重要。

这有点像我们拿着手电筒走进一间屋子,屋子里当然有桌子、椅子、灰尘、旧玩具和很多已经被遗忘的小物件。手电筒照到哪里,我们才会聚焦在哪里。但人手里的那束光是会乱跑的,一张小时候的照片,一个早就忘在角落里的玩具,有时候手电筒只是无意中扫过去,记忆却会突然自己亮起来。本来只是想找一串钥匙,结果却被一个毫无准备的细节拽回很多年前的某个下午。
大模型从某种意义上来说也是如此,只不过拿着手电筒的人往往不是它自己,更多时候是 Prompt、上下文、系统提示词、工具权限和整个任务框架。它可以识别屋子里有什么,也可以描述照片、玩具和划痕,但如果任务没有允许这些东西变得重要,它们就只是背景信息。哪怕那束光同样扫过那个玩具也不会有谁因此停下来。
即便模型真的把这些细节都说了出来,也不代表它经历了这些细节。它可以说笔迹加重可能暗示书写者情绪波动,但它没有真的握过那支笔。
2024 年年底考研数学那天,临交卷前我突然发现自己算错了一道填空题。那一瞬间的感觉很难描述,手已经开始重新在草稿纸上演算,急切地寻找草稿纸上之前的计算过程,心里却同时在计算剩下的时间。草稿纸上那些被划掉的式子、越写越重的笔画,放到模型眼里都可以被识别成图像细节。但对我来说,那是一段被身体记住的紧张时刻。
同样是一张纸,人看到的可能是作业、考试、焦虑、教室、老师催促的声音,甚至是某个已经回不去的下午。模型看到的是视觉词元,是纹理、边缘、字符、空间关系,以及提示词要求它关注的那部分内容。AI 和世界之间隔着的那层东西,我想把它叫作认知界面。
认知界面
认知界面,指的是现实世界进入 AI 系统之前,必须经过的过滤、翻译和组织机制,一张照片要变成视觉词元,一段声音要变成音频词元,MCP 工具返回的是 JSON、代码沙箱里的执行结果是 stdout,这些东西把现实中的某个片段给翻译成模型可以处理的符号。
如果拆开来看,应该是有两层,第一层是感知入口,它负责把现实转成模型能接收的形式;第二层是行动组织,它负责决定模型在这些输入里该关注什么、该调用什么工具、哪些操作需要人类确认、哪些信息应该写回长短期记忆文档。
在真实产品里,我们常常会发现,同一个模型放进不同的运行时环境,表现会差很多。这里的差异并不神秘,它来自上下文怎样被组织,工具怎样被调用,结果怎样被验证,风险动作怎样被拦截,任务状态怎样被保存。模型本身当然重要,它决定了系统能力的上限;但模型进入产品之后,外层运行时会极大影响这些能力能不能稳定落到具体任务里。
这也是 Harness Engineering 值得被认真讨论的原因。Harness 并不负责把图片变成视觉表示,也不能让一个弱模型凭空拥有强推理能力。它更像是包裹在模型外面的一层运行时系统,负责把模型能力组织成一个可以稳定做事的流程。一个 Agent 能不能持续完成任务,很多时候取决于它能不能正确拿到上下文、选择工具、执行操作、验证结果、处理失败,以及在高风险动作前停下来请求人类确认。
我在做 MolaGPT Routes、Projects、视觉推理、MCP 和代码沙箱时在 Harness 上的考虑:Routes 解决的是用户不想理解模型差异时,系统如何替用户选择更合适的模型和运行策略;Projects 解决的是长期任务里上下文如何持续存在;视觉推理解决的是模型面对复杂图像时,如何通过工程设计的动作复查逐步看清细节;MCP 和代码沙箱解决的是模型如何调用外部工具,把文字里的意图变成真实的查询、计算、文件和图表。
这也是为什么近两年 Agent 产品的差异,很多时候并不只来自模型本身,一个模型放在普通聊天框里,和放进一个有项目文件、长期上下文、工具调用、代码执行、结果校验、权限控制的 Agent 里,呈现出来的能力会完全不同。

所以,Harness 更准确的位置是 AI 接触现实过程中的行动组织层,现实先被感知系统和工具接口翻译成模型能处理的材料,然后 Harness 决定这些材料如何进入任务、如何被调用、如何被验证,以及哪些结果会被写回系统。它让模型更像一个能稳定做事的系统,也让模型和现实之间的接触变得更可控。
但无论 Harness 设计得多好,它仍然是一层被设计出来的工程结构,它能决定模型看什么、做什么、如何验证结果,却很难让模型因为看到什么而自然长出新的在意,图片里的折痕可以进入系统,但系统可能只把它当作背景噪声;一次对话里,用户真正的焦虑可能藏在一句“没事”后面,但如果任务框架只让模型总结待办事项,它就会把那一点颤抖的情绪轻轻放过去。
我们评价一个 Coding Agent 时基本都是在评价模型外面的那层工程界面,Harness 让模型更像一个能稳定做事的系统,也让模型和现实之间的接触变得更可控。但无论 Harness 设计得多好,它仍然是一层被设计出来的界面。它能决定模型看什么、做什么,却很难让模型因为看到了什么而长出新的在意。
人也有自己的认知界面,人的眼睛、耳朵、身体、记忆、情绪都会过滤世界,我们看到的也不是现实本身,而是被生物感官和大脑重构过的版本。会因为一张很多年前的合影,在某个普通下午突然想起一段已经变得很远的关系,我们人的认知界面会被生活不断改写。
AI 没有这种生活,它的界面由模型架构、Prompt、上下文、工具权限和系统设计组成,这套界面可以被优化、被更新、被安全加固,也可以被接上越来越多工具。但它通常没有从一段不可重来的人生里慢慢长出自己的偏执、牵挂和遗憾。它关心什么,很多时候是别人告诉它该关心什么。
越来越像,越来越容易误会
MCP、沙箱,或者像 OpenClaw、Hermes 这样的项目,看起来都在让模型更接近现实:调用外部服务,把某些想法变成真实动作。代码从文字变成了行为,模型似乎也从一个回答者变成了执行者。这正是 Agent 让人兴奋的地方,模型开始替你做一点事,帮你解决问题。它能自行串起一整条流程,很多过去只能停留在对话框里的东西,现在终于有机会落到现实里。

但这并不意味着它真的触碰到了世界,它只是隔着一层又一层接口,在世界表面留下了结果。它可以发出一条微信回复,但不会在发送之后反复想“我刚才那句话是不是说重了?” 它可以帮你整理一段旧照片里的回忆,却不会因为看到照片里的人老去而沉默。工具让 AI 拥有了手,但没有给它身体;记忆让 AI 像是认识你,但没有给它人生。
我之前的文章提过好几次,Agent 一旦获得执行权限,风险会沿着能力扩张的路径同步扩大,让 Agent 有用的,正是让它危险的同一个特征,自主性。我想再补充一点:AI 越来越牛,我们会不会很容易产生一种错觉,觉得 Agent 乃至 AI 本身,是不是也越来越接近活着?
它能记住你,能安慰你,能模仿某种语气,能在角色空间里陪你聊天,能调用工具替你完成任务。它的表现越来越像一个拥有经验的对象,可这种“像”本身,恰恰是最虚无的地方,像经历,不等于有经历;像理解,不等于曾经痛过;像在意,不等于真的舍不得。
不过最近兴起的具身智能正在让这个问题变得复杂,当机器人在物理世界里行走、碰撞、抓取物体,通过摄像头、触觉传感器、力反馈和环境交互不断修正自己的策略时,它确实拥有了比今天聊天模型更丰富的感知和行动闭环。未来的 AI 会拥有越来越多进入现实的接口,也会在越来越多物理反馈中调整自身行为,它们会比今天的模型更能感知环境,更能行动,更能从行动后果里学习。
不过话又又又说回来,这种是对物理规律的适应,另一种属于我们人类的是在生命时间里形成的牵挂。前者可以被工程系统不断逼近,机器人可以学习水会流动,桌子是硬的,摔倒会导致任务失败,抓取太用力会损坏物体。后者则复杂得多,其关乎有限性,关乎一些事情发生之后再也回不到原来的样子。
人类知道疼,不只是因为神经系统给出了痛觉信号,很多时候,疼还意味着羞耻的回忆,摔一跤之后,你记住的可能不是地面硬度较高,而是那天旁边有没有人笑。。。
无法体验世界
AI 无法真正体验世界,这句话听起来有点老生常谈。毕竟 LLM 是权重和代码组成的,例如,模型可以学习“疼痛”这个词在人类语言里通常怎么出现。它知道疼痛常常和受伤或安慰联系在一起。它可以在用户难过的时候生成一段非常合适的话,语气温柔体贴,甚至比很多真人更知道该怎么说。但它没有疼过,没有心跳加速,没有在某个夜里翻来覆去睡不着。它可以写出怀念,却没有离开过一个地方。需要相信这句话的,永远是屏幕前的那个人。
所以我并不想否认 AI 的价值,恰恰相反,AI 是一种极其强大的认知延伸。它可以帮我们处理复杂信息,替我们执行繁琐步骤,能扩展人的视野,增强人的行动能力,只是这些事情的意义,始终要落回人身上,一句安慰有重量,是因为屏幕前真的有一个人需要它。
照片也是如此,模型可以识别一张照片里的每一张脸,判断谁在笑,谁站在边上,光线大概来自哪个方向。它甚至可以根据衣着、背景和画质推测年代,写出一段很像回忆的文字。可它不知道那张照片拍完之后,大家各自走向了哪里;不知道有些人后来慢慢不再联系,有些地方后来再也没有回去;也不知道一张照片为什么会在多年后突然变得沉重。对模型来说,一张照片是一组像素。对人来说,那可能是一段关系最后还能被看见的样子。
活过
AI 当然聪明,而且会越来越聪明。可以预见的未来,AI 会调用更多工具,接入更多系统,更加深度地参与世界运转。它会把很多过去需要人亲手完成的事情变得轻而易举,也会在很多时候比人类更稳定、更高效,更像一个永不疲惫的协作者,但它没有在世界里度过一生。
我不想用一种廉价的人类中心主义去安慰自己,说它再强也终究只是机器,那样也太轻松了。我们真正值得认真面对的是:AI 会在越来越多任务上超过人类,也会在越来越多场景里比人更可靠。
AI 可以把很多碎片化的东西整理成流畅的文字,可以让它们看起来更完整、更清晰、更像一个故事。它能把记忆修得更亮,却无法知道人为什么会舍不得那些模糊的部分。我们这一代人造出了能看、能做、能陪的软件或者模型,也给它接上了越来越多通向现实的接口。可无论这些接口多么精密,它依然没有一条需要自己走完、并且只能走一次的人生。

也许这就是我想说的认知界面。AI 触碰世界的方式,是通过感知、符号、工具和反馈;人触碰世界的方式,是活过。

发表回复