Converge

Converge

mola

殊途同归

暨 MolaGPT 开发日志 - 其(十一)

我在 MolaGPT 的模型选择器里放了很多模型,它们涵盖了来自不同厂商的不同型号的模型,从实时搜索到深度推理到中文写作各有所长,因为我一开始认为给用户更多选择即为优秀的体验,直到我在日志里发现了一个现象:绝大多数用户选了一个模型之后,再也没换过。

一开始我觉得这可能是用户的惰性,但仔细想想,我觉得这个判断可能错怪了他们。因为你问我 GPT 的推理更强还是 Gemini 的推理更强?Grok 的联网搜索和 DeepSeek 的联网搜索有什么区别?Qwen 什么时候该用、什么时候不该用?我都只能说出个大概,这些问题连天天泡在 AI 圈里的人都未必说得清楚,我又凭什么期待一个只是想解决具体问题的用户去搞明白。

LLM 的发展正走向一种高度工程化的专精路线。每家都在自己的赛道上拼命优化,拼 Benchmark、拼特定任务的成绩、拼推理深度。这种竞争催生了单项突破,却也让通用变得越来越稀缺。用户面对的早已不是好模型和差模型的简单区分,而是一个错综复杂的模型列表。

前两个月的时候打开某个 AI Coding 软件的模型列表,GPT-5.1 Codex Max 一个系列就能衍生出 High、Low、Extra High、Medium Fast、High Fast、Low Fast、Extra High Fast 七个变体,密密麻麻排在一起,连命名都在考验用户的阅读理解能力。

选择权看似很多,并且都在用户手中,但实则更像是一种负担。这个负担不该由他们来扛。然而,正如上文所说的,此前绝大多数 AI 产品(包括我的 MolaGPT)面对这个局面的做法,是继续往选择器里塞更多的模型,以此希望用户有更好的体验。

这种堆砌模型数量的内卷,本质上是把决策成本原封不动地甩给了用户却忽略了一个朴素的事实:绝大多数人打开 AI 工具,只是想解决一个问题而已。

让选择消失

让我最终决定动手的契机,来自 Arena 发布的 MAX

根据 Arena Team 的介绍,MAX Mode 是一个智能模型路由器,基于 Arena 平台上超过五百万次真实社区投票的数据构建,在用户提问的瞬间自动将请求路由到当前最适合的模型。它的基础版本直接登上了 Arena 排行榜第一,延迟优化版在保持近乎相同成绩的同时将首 Token 延迟降低了超过 16 秒。

MAX 带给我的启发不在分数本身,毕竟我也没有那么大的时间成本和金钱成本在 MolaGPT 上做大范围的 A/B 测试,它的意义在于它验证了一个我一直在想的命题:与其教用户怎么选模型,不如让选择本身消失,所以就诞生了 MolaGPT Routes.

MolaGPT Routes 在每次发送前,会先经过一个轻量级路由网关来判断当前问题最适合交给哪个模型。这个网关由多个判断层构成,整个过程对用户透明,你只管提问。

快速分类意图

MolaGPT Routes 在收到用户问题后,首先会快速扫描消息中的关键特征,基于我预先定义的一系列规则,从代码与数学、实时搜索、深度研究、结构化输出、创意写作、多语言支持等多个维度进行识别。

当特征足够明确时,系统会直接做出决策。例如:

  • 消息中包含复杂的图片分析请求,交给 Gemini;
  • 涉及实时新闻与搜索,交给 Grok;
  • 明确的编程任务,交给 GPT。

但现实中的问题往往错综复杂,一句用中文提出的深度代码调试请求,即为可能同时触发了语言和代码两个维度;一句“帮我查一下这个 API 的用法”,既像实时搜索又像技术咨询。单纯依靠规则,很难在这些交叉地带做出精准判断。

深入意图理解

当第一层无法确定最佳去向时,系统会将问题继续交由一个轻量级模型进行深度分析。它不仅会参考第一层的初步建议,更会结合完整的对话上下文和历史信息,独立做出最终决定。

第一层负责快速捕获显而易见的信号,第二层负责处理预定义规则难以界定的模糊地带,确保每一次路由请求都是基于对真实意图的真实理解。

不只是选模型

MolaGPT Routes 的智慧不止于模型选择,在为用户匹配模型的同时,系统还会根据问题特征,自动生成一套最优的运行配置,用户无需手动调整任何开关,系统将会为用户根据具体问题自动设定好最佳状态。

每一次调度,系统都会同步决策以下关键策略:

  • 思考模式与深度:自动判断是否需要开启深度思考,并根据任务复杂度动态调节思考强度;
  • 联网与解析能力:智能决策是否需要实时搜索,以及是否深入解析网页内容。

场景即策略

策略的价值在于对场景的精准适配,当用户询问实时新闻时,系统不仅会调用 Grok,还会自动开启联网搜索与网页解析,同时关闭思考模式,我的实测表明,Grok 在处理即时信息时开启思考只会增加延迟而无实质收益,直出结果才是最优解。

当用户提交复杂的编程任务时,系统会调度 GPT,并自动开启思考模式,依据代码难度匹配相应的思考深度。

局限性

坦率说,目前的 MolaGPT Routes 还有不少粗糙的地方,相比较 Arena MAX Mode 最大的问题就是缺少样本。不过这个我打算就不提了,毕竟 MolaGPT 只是一个个人项目,根本没有办法收集到太多的用户投票样本来自动化路由模型... 并且这一问题也不影响 MolaGPT Routes 的路由过程。

除此之外,我认为还有一些可能存在的问题,并且是现实会影响到用户体验的。

  • 路由延迟:虽然通常在 1-2 秒,但档第二层的 LLM 路由器响应较慢时,用户会感知到一段额外的等待;
  • 信号分析的覆盖面: 基于我预置规则的路由层在面对隐晦或复合意图时仍会误判,一个用户如果写了一段很长的中文来描述一个技术架构方案,护栏可能会同时触发中文写作、研究、代码三个维度,导致信号互相干扰,如果没有透传到第二层处理的话,可能会导致模型路由效果不佳;
  • 路由器的一致性:第二层路由的结果是不完全确定的,所以相同的问题偶尔会被路由到不同模型上。

写在后面:让每个模型在对的场景发光

回看 MolaGPT 这一路的更新,我发现它们有一条隐约的主线。

MolaGPT Tracks 记忆系统让 MolaGPT 不再每次都像初次见面;个性化问候让深夜打开它时能感受到一份被记住的温度;MolaGPT Projects 让长期任务不再需要从头讲起。我做了不少工作来试图填平横亘在用户和 AI 之间的沟壑。

我见过一种让人惋惜的场景。用户用一个擅长写作的模型去解数学题,得到了一个糟糕的回答,从此拉黑了这个模型。他可能永远不会知道,同一个模型在润色一篇文章时能给出多惊艳的结果。模型被放在了错误的位置上,这种遗憾本不该发生。这两年不少厂商把训练重心放在了工程化和 Agentic 能力上,更强调工具调用、和任务完成。这样的偏向会改变模型的能力分布,让它在干活上越来越强,却未必把写作、表达和润色打磨到同样出色的程度。

但现实的是,绝大多数用户并不关心模型背后的训练偏好,更没精力去反复试错来确认哪个模型擅长哪个领域。可一旦选错模型,误判导致的失望却已真实地刻在了用户的心中。所以 MolaGPT Routes 是我为此所做的一项工作,旨在降低这种情况发生的概率。

如果说此前的更新都是在让 AI 更懂你,那么 MolaGPT Routes 做的事情恰好反了过来,让用户不必懂 AI,用户不需要知道 Grok 和 Gemini 的区别,不需要判断什么时候该开推理、什么时候该关,不需要担心因为一次误选而错过一个好模型。

我没有 Arena 那样的五百万条投票数据,MolaGPT 的路由也远没有做到精确。不过,最起码从这个版本开始,模型之间的复杂性不再是用户需要操心的事了。

模型各有千秋,但用户只需要一个入口。好的工具应该消解复杂性,而不是把复杂性转嫁给使用者,让每一个模型都在对的场景发光。

你只需要提出你的问题,剩下的交给 MolaGPT Routes.

发表回复

必填项已用 * 标注。