Zooming into Reasoning

mola

“见微知著”

OpenAI 在 o3 和 o4-mini 模型中引入了图像推理能力，模型可以在推理过程中主动对图像进行裁切、放大和旋转，而不只是被动看图像。这种能力让视觉分析从简单的图像识别升级为真正的视觉推理。受此启发，我为 MolaGPT 实现了和 ChatGPT 类似的视觉推理能力。

坐标网格化

LLM 衍生物的 VL 模型在分析复杂图像时存在一个根本问题，当用户询问“这个区域在哪里”时，模型不能更好地定位目标，通常是直接估算像素坐标，而这种估算往往不准确。模型可能会给出超出图片边界的坐标，或者定位到完全错误的位置。

为了改善这一问题，我在图像上叠加了一套标准化的网格坐标系统。根据图像尺寸，系统会自动生成适当密度的网格，然后每个单元格都有明确的坐标标签，如 (A, 1)、(B, 2) 等。视觉模型不再需要猜测像素值，而是识别目标所在的网格单元格。这就将坐标估算转化为了单元格分类任务。

当模型返回"目标位于 (A, 4) 到(B, 4) 区域"时，系统会自动将网格坐标转换为精确的像素坐标，完成后续的裁剪或放大操作。

迭代分析

对于信息密集的复杂图像，单次分析通常无法获取足够的细节，所以 MolaGPT 支持迭代式的分析流程，这些过程可以完全发生在模型的思维链中。

全景扫描。 首次分析时，模型会对整张图像进行概览，识别主要区域和值得关注的重点。分析结果会以网格坐标的形式标注建议查看的区域；
精准裁剪。 用户可以根据建议，使用自然语言指令让系统裁剪特定区域。如用户希望系统性分析，系统也能分块，或者分重点区域按顺序查看；
细节分析。 对裁剪后的图像进行更详细的分析，识别文字内容、图形特征、布局结构等。如果仍有看不清的部分，可以继续迭代放大；
结果汇总。 将多轮分析的信息整合，形成完整的图像理解。

系统支持使用自然语言描述目标区域，例如：“查看一下这个截图”

在整个过程中，用户和主要模型都不需要手动计算裁剪坐标，后端的多 Agent 会自动完成自然语言到区块再到坐标的转换，系统会自动完成以下流程：在图像上叠加网格 → 让视觉模型识别目标描述对应的网格单元格 → 将网格坐标转换为像素坐标 → 执行裁剪或放大操作。

实际案例

视觉推理允许用户以更符合直觉的方式与 MolaGPT 交互。用户可以通过拍照来提问，而不必担心对象的位置，甚至即使乍看之下对象并不明显，视觉推理也能促使模型将照片放大，从而看得更清楚。下面是几个实际的例子来说明视觉推理对问题解决的促进作用。

所有案例均由 MolaGPT 上的 DeepSeek V3.2 (Thinking) 模型完成

案例 1

我以我在游戏《都市：天际线》的 CSLMapview Mod 生成的路网与轨道交通图像作为附件，然后提出问题：“仔细系统性分析这个城市的轨道交通规划，推断城市的发展脉络。”

模型在大致查看图片后，得出结论：

“现在我有了对这张轨道交通规划图的整体了解。这是一个虚构城市‘湖京’的轨道交通规划图，包含复杂的放射+环线网络。我需要更仔细地分析具体的线路、车站和区域划分，以推断城市的发展脉络。让我进一步放大查看关键区域，获取更多细节。我将使用image_file_process工具来裁剪和放大中心城区等重要区域。”

随后，模型对轨道交通线路密度较高的中心城区进行了放大处理，随后得出结论：

“从截取的中心城区枢纽区域（F4-G7）分析中，我看到了更详细的区域划分：青柏区、湖京区、江珠区、南湖区。有大量机构标注：学校、政府机构、医院、公园等。”

“有多条轨道交通线路，包括环线系统和放射线。线路在中心城区高度密集，形成多个多线换乘枢纽。”

随后，模型又查看了南部科学城、滨海区及航空港区的轨道交通情况并给出了最终的分析结果。

“湖京市轨道交通网络展现出典型的 "放射状+环线+网格" 复合结构：

放射状骨干线：至少6条骨干线路从中心城区向外辐射，连接各功能区
环线系统：在中心城区（F4-G7区域）形成了清晰的环状线路，优化换乘效率
网络加密：各功能区内部存在次级支线，形成分层级服务网络
线路密度分级：中心城区 > 新区科学城 > 滨海港区 > 远郊区域
换乘枢纽布局：在F5-G6区域形成超大型综合交通枢纽，连接5条以上
线路走向：主要沿城市发展轴布设，与主要交通走廊高度重合
区域快线（深绿色线）：连接港口、机场等交通门户
市区干线（红色/蓝色线）：连接中心城区与主要副中心
加密支线（黄色/紫色线）：服务功能区内部通勤”

分析来自 MolaGPT

案例 2

我选取了 OpenAI 网站上展示的一张经典物理笔记照片作为另一个案例，这张照片包含两个手绘的费曼图。我将照片上传并提出请求：“Solve the QED problem on the left（求解左侧的 QED 问题）。”

MolaGPT 根据需求，执行了视觉操作，将注意力聚焦在目标区域（模拟人类凑近看纸张的动作）。

图片被精确地放大了，MolaGPT 成功定位到了题目的位置所在并给出了最终的答案。

经过验证，答案正确。

局限性

分析结果过于笼统：面对信息密集的图像，模型有时只会给出概括性描述，而未能提取具体的文字内容或细节信息。这通常需要通过多轮裁剪放大来逐步获取更详细的内容；
感知错误：即使网格定位正确，模型仍可能在识别具体内容时出错，例如将图标名称读错、遗漏部分文字、或误判区域边界；
迭代次数较多：对于高分辨率的复杂图像（如大型城市规划图），可能需要多次裁剪放大才能获取所需的细节信息，这会增加交互的时间成本。并且模型在接受到过多信息后可能会出现注意力下降的现象，从而影响处理效果。

MolaGPT 视觉推理功能现已向所有用户开放。上传任意图片，使用自然语言描述你想了解的内容或你的问题，然后剩下的一切就交给 MolaGPT.