浙大联合多校突破:全景图理解实现机器人导航与视觉搜索能力提升,浙江大学智能机器人班

这项由浙江大学、加州大学圣地亚哥分校、加州大学尔湾分校和香港大学联合开展的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.13169，感兴趣的读者可通过该编号查阅完整论文。

**当AI只能"管中窥豹"时**

你有没有试过在一个陌生的房间里蒙着眼睛，只能通过一根细细的吸管向外看，然后被要求回答"椅子在桌子的哪边"这种问题？对于现在大多数视觉AI来说，这就是它们每天面对的处境——它们看到的永远只是一个局部的"窗口"，而不是完整的环境。

现实世界里，无论是家用机器人在房间里寻找落下的遥控器，还是导航系统引导你在商场里找到出口，抑或是安防摄像头判断人物的方位关系，这些任务都需要AI对"整个周围环境"有完整的感知，而不是只盯着正前方的一小块区域。正因如此，360度全景摄像头成了一个极具潜力的感知工具——它可以一次性捕捉观察者四面八方的所有场景，相当于给AI装上了"千里眼"。

然而，有了全景图还不够。研究团队发现，当前几乎所有的视觉AI在处理全景图时，都采用一种"笨办法"：把一张完整的360度全景图切碎成好几张普通视角的小图，然后一张一张地分析，最后再拼凑结论。这就像你要了解一座城市的全貌，却非要把一张完整的城市地图撕成几十张碎片，一片一片地阅读——不仅麻烦，还会丢失很多关于各个区域之间位置关系的关键信息。

这支由浙江大学主导的研究团队决定从根本上改变这一局面。他们的目标是训练一个AI，让它能够像人站在房间正中央环视四周一样，直接理解一张完整的360度全景图——不切片、不拼凑，一次性感知整个球形空间的所有内容，并推理出各个物体的位置关系和三维空间结构。他们把这个能力称为"全景原生理解"，并为此构建了一套完整的研究框架，命名为PanoWorld。

**一、普通相机和全景相机拍出来的图，差别有多大？**

在深入了解PanoWorld是如何工作之前，有必要先搞清楚全景图和普通图片之间的根本差异，因为这是整个研究的出发点所在。

普通照片对应的是人眼的视角：你看向哪里，就拍下那个方向的画面，视野大概只有90度到120度。而360度全景图则是把观察者周围整个球形空间的光线，"压扁"映射到一张矩形图片上——专业上叫做"等矩形投影"（Equirectangular Projection，简称ERP）。可以用地球仪和世界地图的关系来理解：地球仪是真实的球形，而世界地图是把这个球形"摊平"后的结果。如果你仔细看世界地图，会发现北极圈和南极圈附近的陆地被拉伸得很厉害——格陵兰岛看起来几乎和非洲一样大，但实际上非洲是格陵兰的14倍。

全景图也有同样的问题。在全景图中，图片中间的水平区域（对应观察者正前方和正后方的区域）是相对准确的，而图片的顶部和底部（对应天花板和地板方向）则会发生严重的拉伸变形。此外，全景图的左边缘和右边缘在真实空间里其实是紧挨着的——它们都代表观察者的"正后方"——但在图片上却是分隔在两端的，仿佛是两个不相关的区域。

这些特性带来了一个大问题：普通图片训练出来的AI，其视觉理解能力是建立在"图片上的位置关系等于真实空间中的位置关系"这一假设上的。一旦换成全景图，这个假设就不成立了。比如，AI可能会认为全景图左侧边缘的物体和右侧边缘的物体距离很远，但实际上它们背靠背，近在咫尺。

研究团队把AI从普通图片迁移到全景图时面临的这些挑战，归结为三大鸿沟：几何变形、非均匀空间采样、以及边界不连续性。要跨越这三道鸿沟，光靠普通图片训练出来的AI是远远不够的。

**二、一套专门训练"空间超感知"的能力体系**

要让AI真正理解全景图，首先需要明确"理解"意味着什么。研究团队并没有含糊其辞，而是系统地将全景图理解能力分解为四个层次递进的核心能力家族，就像学武功必须先扎马步、再练套路、最后融会贯通一样。

第一个能力家族叫做"语义锚定"。这是最基础的能力——AI需要能够把语言描述和全景图中的视觉内容对应起来。比如你问"房间里有沙发吗"，AI需要在360度的全景图中找到那个沙发，并识别出它的类别、颜色、材质等属性信息。这是后续所有空间推理的基础，没有这个能力，AI连"在讨论什么物体"都搞不清楚。

第二个能力家族叫做"球面定位"。这不是普通图片上的"在图片左上角"这种说法，而是要用真正的球面坐标来描述位置：偏航角（左右方向，从正前方的0度到左右各180度）和俯仰角（上下方向，从正上方90度到正下方-90度）。比如说，"桌子在偏航角45度、俯仰角-10度的方向"——这才是全景图中真正有意义的位置描述方式。研究团队还要求AI能够给出"球形视场角"（BFOV），也就是一个物体在球面空间中占据的角度范围，类似于确定一个物体的"视觉大小"。

第三个能力家族叫做"参考系变换"。这是更高级的空间推理能力。假设AI站在房间中央，看到沙发在它的正前方、电视在它的右手边。现在如果AI转身90度，让沙发变成它的右手边，那么电视现在在哪里？这种"在脑海中旋转视角后重新计算位置关系"的能力，对于机器人导航和人机交互至关重要。此外，全景图左右边缘连通的"环形连续性"也需要AI专门理解——如果一个物体在全景图的右侧边缘附近，那么紧邻它的物体可能出现在全景图的左侧边缘，而不是图片中间某处。

第四个能力家族叫做"深度感知三维空间推理"。仅仅知道方向还不够，AI还需要判断"谁更近、谁更远"，以及在三维空间中的上下、左右、前后关系。这需要AI从二维的全景图中恢复出三维空间结构的信息。

这四个能力家族共同定义了一个完整的全景理解系统：从"这里有什么"，到"它在哪个方向"，再到"换个角度看它在哪里"，最后到"它在三维空间中如何分布"——层层递进，缺一不可。

**三、从原始全景图到"带标注的知识库"——数据工厂是如何运转的**

有了明确的能力目标，接下来的挑战就是：如何收集足够多的训练数据，来教会AI这四种能力？这是整个研究中最耗费工程心血的部分。

研究团队建立了一条精密的"全景图数据生产流水线"，最终生产出了包含57万张高质量全景图的大规模数据集，并为每张图生成了丰富的结构化标注信息。这条流水线分为四个主要环节，每个环节都像工厂里的一道质检工序。

原材料的来源非常多元：一部分来自已有的全景图数据集，比如真实室内场景的Realsee3D数据集（包含24025张真实拍摄图和273451张合成图）；一部分来自网络爬取的室外全景图；一部分来自街景API；还有一部分来自社区用户上传的内容。经过质量筛查——包括检查全景图的左右边缘是否真正连通、过滤模糊低分辨率的图、去除地理位置重复的图片——最终形成了约57万张室内室外各占一半的高质量全景图库。

第一道加工工序是"几何感知检测"。直接在全景图上识别物体是不靠谱的，因为变形问题会让检测器把一张沙发识别成各种奇怪的形状。研究团队的做法是：把每张全景图切成若干张相互重叠的普通视角小图（120度视场角，60度步长，相邻图之间有60度重叠），然后用一个叫做WeDetect-Large的开放词汇检测器在每张小图上识别物体，再把检测结果"反投影"回全景图的球面坐标系中，并合并来自不同视角的重复检测结果。经过置信度过滤、重叠度去重、跨视角一致性检查等几道筛选，最终保留下来的才是可靠的物体候选。

第二道加工工序是"语言对齐语义标注"。对于每个通过几何验证的物体，研究团队裁取它对应的最清晰视角图像，调用大语言模型（Qwen3-VL-32B）生成详细的语义描述，包括物体类别、视觉属性、完整描述文字，以及一个专门用于"区分这个物体和其他同类物体"的指代短语。随后还有一道"语义验证"：把生成的指代短语再次输入给一个检测模型，让它重新在图中定位该物体——如果重新定位的结果和原始检测结果足够吻合（IoU大于0.7），才最终认为这个物体的语义标注是可靠的；否则丢弃。这道验证确保了语言描述和视觉内容之间的严格对应。

第三道加工工序是"深度信息关联"。研究团队为每个验证过的物体附上深度信息——如果原始数据有对齐的深度图就直接用，否则使用一个专门针对全景图训练的深度估计模型来生成伪深度图。深度值在物体的球面区域内取平均，作为估算的观察者距离。

最后，把语义信息、球面位置、角度范围、深度信息整合在一起，形成一个"元数据图"。在这个图中，每个节点代表一个验证过的物体，包含它的语义描述、属性、球面坐标、角度范围、观察者距离和局部视觉上下文；每条边代表两个物体之间的关系，包括它们在球面上的角度偏差、相对深度差、以及球面空间和三维空间中的方向关系。从这个结构化的元数据图出发，研究团队自动生成了近800万条候选训练问答对，覆盖了前述四个能力家族的所有任务类型，最终采样形成了约300万条规范训练数据。

**四、PanoWorld的"球形神经系统"——模型是如何工作的**

光有数据还不够，研究团队还在模型结构上做了针对性的改造。他们以Qwen3.5-VL作为基础大模型，并在其视觉编码器的入口处插入了一个全新设计的模块，叫做"球面空间交叉注意力"（Spherical Spatial Cross-Attention，简称SSCA）。

要理解SSCA的作用，可以用这样一个类比：普通视觉编码器处理图片时，就像一个只会看"平面地图"的向导，它告诉你"沙发在图片左上角"，但无法告诉你这对应球面空间的哪个方向。SSCA相当于给这个向导额外配备了一张"球形空间地图"，让它在理解每个图片区域的时候，同时知道这个区域对应的是观察者周围哪个球面方向。

具体来说，SSCA的工作流程是这样的：首先，对于全景图中的每一个图像块（patch），根据它在图片上的像素位置，计算出对应的球面方向（偏航角和俯仰角）；然后用正弦函数编码这个球面方向，生成一个"球面位置标记"；接着，通过交叉注意力机制，让每个图像块的视觉特征去"询问"自己对应的球面位置标记，获取几何信息，并通过一个可学习的门控系数把这个几何信息融入到原始视觉特征中。这个门控系数初始化为接近零，意味着训练开始时模型基本维持原来的状态，随着训练进行逐渐学会利用几何信息。

SSCA的插入位置也经过了仔细的实验对比：放在图像块编码之后（最早）效果最好，比放在视觉特征合并之后或视觉编码器输出之后都要强。这说明球面几何信息越早注入，对后续所有视觉特征的处理就越有益——就像做菜时调味料越早放，渗透得越彻底。

训练时，整个视觉编码器、视觉-语言接口层和语言模型都参与微调，而不只是训练SSCA模块或语言模型部分。消融实验证明，如果只微调语言模型而不更新视觉端，或者只更新接口层而不更新语言模型，性能都会明显下降。全景空间理解是视觉感知和语言推理共同作用的结果，缺少任何一方都不完整。

**五、一个专门测量"空间感"的考场——PanoSpace-Bench**

为了客观评估模型能力，研究团队还构建了一套全新的评估基准，叫做PanoSpace-Bench。这套基准涵盖四个能力家族、八类任务，共计2000道题，每类250题。

绝大多数任务是选择题，用答对率来衡量。另外还有一类特殊任务叫做BFOV定位，要求模型预测一个物体在球面空间中的角度矩形范围，用"角度IoU"（预测范围和真实范围的重叠面积除以合并面积）来评分。

八类任务覆盖的范围包括：绝对方向判断（这个物体在左前方还是右后方？）、BFOV定位（给出物体的精确球面范围）、相对方向推理（A在B的哪个方向？）、相机旋转变换（转了多少度之后这个物体在哪里？）、物体条件朝向变换（面朝A时，B在哪个方向？）、观察者距离比较（哪个物体离我更近？）、相对三维位置推理（综合方向和深度，A相对B是在左前上方还是右后下方？），以及全景图边界连续性理解（靠近全景图右边缘的物体，它在360度真实场景中的近邻是哪个？）。

为了防止数据泄露，PanoSpace-Bench的全景图来自与训练数据完全不重叠的图片来源，而且题目的形式和格式也与训练时的问答模板刻意设计得不同——测试的是模型真正的泛化能力，而不是对训练数据的记忆。

**六、数字会说话——PanoWorld在各项测试中的表现**

研究团队在三个基准测试上对PanoWorld进行了评估，结果展示了一幅相当清晰的图景。

在PanoSpace-Bench上，研究团队将PanoWorld和一批知名的视觉语言模型进行对比，包括GPT-4o、Gemini-2.5-Pro、InternVL系列、Qwen系列等。这些通用模型在这套全景空间推理题上的整体准确率普遍徘徊在23%到37%之间——要知道，如果随机选择四个选项中的一个，期望准确率就是25%，所以很多模型的表现只是略好于瞎猜。PanoWorld的整体准确率达到了56.5%，相比作为基础的Qwen3.5模型从30.8%提升了近26个百分点。

分项来看，改善尤为显著。BFOV定位任务中，所有通用模型的平均IoU都不超过18%，大多数在3%以下（这意味着模型几乎无法给出有意义的球面定位）；PanoWorld将这一指标提升到了73.3%，相当于精确度的数量级式跳跃。绝对方向判断从25.2%提升到93.7%；全景图边界连续性理解从41.2%提升到65.5%；球面关系平均准确率从26.1%提升到47.4%；三维空间平均准确率从36.9%提升到49.8%。

值得关注的是，研究团队还测试了一种"只改提示词"的做法——在输入给模型的指令中详细解释ERP坐标系的含义（如"图片中央对应正前方，偏航角0度；图片左右边缘对应正后方"等），而不对模型做任何训练。这种方法确实有些效果，整体准确率可以从30.8%提升到36.4%，但在球面关系推理和三维空间推理等需要深层几何理解的任务上，提升非常有限。这说明：告诉模型坐标系的规则，和让模型真正理解球面空间，是两件不同的事情。

在第二个基准测试H*Bench（人形视觉搜索基准）上，结果更加引人注目。这个基准测试的传统做法是：给AI模型一张小视角的局部图，让它决定下一步往哪个方向旋转，反复执行多步探索，直到找到目标。这个过程平均需要6.27步、调用大模型6.27次。研究团队最强的传统方法（一个专门针对这项任务训练的3B参数模型）整体成功率是38.4%。

PanoWorld在不做任何H*Bench专项训练的情况下，直接输入完整全景图并一次性输出答案，零样本成功率就达到了56.1%。在专门针对H*Bench数据进行额外微调之后，成功率进一步提升到70.1%，比最强基线高出了31.7个百分点，所需模型调用次数只需1次（而不是6次以上）。相比之下，如果只把Qwen3.5基础模型拿来在H*Bench上做专项微调（不经过PanoWorld的全景原生训练），反而成绩下降到17.8%——这清楚地说明，全景空间理解能力不是靠单一下游任务的数据微调就能补上的，必须通过系统性的全景原生学习。

在第三个基准测试R2R-CE（视觉语言导航基准）上，PanoWorld同样表现优异。与那些使用专门的路径点预测器、或利用全景图采样多个候选视角进行选择的方法不同，PanoWorld直接把完整全景图作为输入，一次性预测导航方向，无需任何辅助工具。在只使用80%训练数据的情况下，PanoWorld在未见过场景上的成功率达到54.3%、路径效率（SPL）达到52.1，超过了包括GridMM、StreamVLN等在内的多个近年SOTA方法。

**七、拆开来看——每个设计决策到底贡献了多少？**

研究团队还通过大量消融实验，把各个设计决策的贡献精确地量化了出来，确认每一块"零件"是否真的有用。

从训练数据的角度来看，四类能力数据各有其侧重、互相补充。只用语义理解类数据训练时，模型在空间定位和三维推理方面表现很差；加入球面定位数据后，定位精度大幅跳升；加入参考系变换数据对球面关系推理最有帮助；加入深度三维数据则显著改善了距离比较和三维位置判断。四类数据全部组合在一起时，整体效果最好——这验证了全景理解是一个多维度、互相依赖的综合能力，不能只偏重某一方面。

从数据质量验证的角度来看，不经过任何验证的原始数据训练出来的模型整体准确率只有38.8%；加入几何验证（过滤不稳定的检测结果）后提升到46.4%；加入语义验证（过滤语言和视觉不匹配的标注）后提升到48.0%；两种验证都加上后达到55.1%。数据质量对最终效果的影响非常显著，好数据的重要性不亚于好模型。

从模型架构角度来看，SSCA在图像块级别插入交叉注意力是最优方案，比在视觉特征合并后或编码器输出后插入都要好；交叉注意力机制也比简单的残差加法效果更好，尤其在球面关系推理方面优势明显。从训练范围角度来看，全面微调（视觉编码器、接口层和语言模型三部分都更新）比任何部分微调方案都更好；仅微调语言模型虽然定位能力还行，但球面关系和参考系变换方面明显不足；仅微调接口层则几乎全面落后。

**八、效率也是实力——一步到位胜过走走停停**

除了准确率，研究团队还专门比较了PanoWorld和传统迭代式方法的效率差异。在H*Bench的任务上，传统的"转一步看一下再转"的方法平均需要6.27次模型调用，处理约3万个输入token；而PanoWorld只需要1次模型调用，处理约1.65万个输入token，相对计算成本是传统方法的1/1.81到1/1.13。一步到位不仅更准确，还更省资源。

这一效率优势的背后，是全景原生理解的本质优势：传统方法需要通过多次局部观察来"拼凑"出整个场景的空间认知，而PanoWorld从一开始就获取了完整的全局视野，无需迭代探索。

说到底，这项研究的核心贡献在于证明了一件事：AI对360度全景空间的理解，不能靠把全景图"骗成"普通图片来偷懒解决，而必须直面全景图本身独特的几何特性，从数据到模型都进行针对性的设计。研究团队构建的57万张全景图数据库、300万条全景训练问答、PanoSpace-Bench评估体系，以及带有球面空间交叉注意力的PanoWorld模型，共同组成了一套让AI真正"看懂"全景空间的系统性解决方案。

这套系统的实用价值非常直接：配备了全景相机的家用机器人、服务机器人、自动驾驶汽车、工厂巡检机器人，都可以因此获得更可靠的空间感知能力。人们在商场、地铁站、机场的视觉导航体验也可能因此变得更加流畅自然。而从更长远的角度看，这项研究开辟了一种思路：感知并不是只能模仿人眼的"管中窥豹"，通过合适的硬件和算法，AI完全可以拥有远超人类的"全局感知"能力，在这一维度上实现真正的"超感知"。

当然，这项研究也存在一些已经被作者坦诚指出的局限。数据生产流水线依赖自动检测和大模型标注，尽管有两级验证，错误仍然可能传递到最终数据中。PanoSpace-Bench作为诊断基准，聚焦于静态全景图的空间推理，尚未涵盖动态场景、长时序互动或多机器人协作等更复杂的情境。这些都是未来工作的自然延伸方向。

Q&A

Q1：PanoWorld是什么，和普通视觉语言模型有什么区别？

A：PanoWorld是一个专门为360度全景图设计的视觉语言模型，由浙江大学联合多所高校研发。普通视觉语言模型处理全景图时，通常把全景图切成多张普通视角小图再分析，而PanoWorld直接把整张360度全景图作为输入，通过一个叫做"球面空间交叉注意力"的特殊模块，让模型理解全景图中每个区域对应的真实球面方向，从而实现完整的360度空间感知，无需反复切图拼凑。

Q2：PanoSpace-Bench测的是什么，为什么需要专门建一个新基准？

A：PanoSpace-Bench是专门用于测试AI对全景图的空间理解能力的评估基准，包含2000道题，覆盖物体方向判断、球面定位、视角变换、深度比较、三维位置推理和全景图边界连续性理解等八类任务。之所以要专门建立，是因为现有的全景图评估基准大多只测VQA（问答）或字幕生成，缺乏对"空间感知"这一核心能力的系统性诊断，而现有通用模型在这些空间任务上的表现只略好于随机猜测，说明这是一个被现有评估体系忽视的重要能力缺口。

Q3：全景图训练数据是怎么生成的，为什么不直接用人工标注？

A：研究团队构建了一套自动化的数据生产流水线：先把全景图切成小视角图并用检测器识别物体，再把检测结果反投影回全景图坐标，经过几何一致性验证后，调用大语言模型生成语义描述，再通过语义重定位验证确保语言和视觉的对应准确，最后关联深度信息并构建结构化元数据图。全流程自动化是因为57万张全景图、300万条问答对靠人工标注完全不现实，而两级验证机制（几何验证加语义验证）保证了自动化数据的可靠性，消融实验也证实数据验证对最终效果的提升非常显著。