paperarXivTrust 82 · PrimaryPublished yesterdayLive · 19h ago

EAGLE-360: Embodied Active Global-to-Local Exploration in 360$^\circ$

While Multimodal Large Language Models (MLLMs) have demonstrated exceptional capabilities in standard visual understanding, adapting them for active visual search in 360$^\circ$ panoramic environments exposes fundamental limitations. Specifically, standard MLLMs struggle to effectively model inherent panoramic properties, such as severe polar distortion and continuous cylindrical topologies, which significantly degrades target detection accuracy. Consequently, existing panoramic search methods attempt to compensate by relying heavily on fragmented local viewpoints. Burdened by rigid initializa

Lineage graph

Paper → model → repo connections mined from source citations (Tier-1 exact match).

Why these links exist

Linked via arxiv authorJingtao Xu →
EAGLE-360: Embodied Active Global-to-Local Exploration in 360$^\circ$
Linked via arxiv authorZizhuo Lin →
EAGLE-360: Embodied Active Global-to-Local Exploration in 360$^\circ$
Linked via arxiv authorJianwen Sun →
EAGLE-360: Embodied Active Global-to-Local Exploration in 360$^\circ$
Linked via arxiv authorYi Yang →
EAGLE-360: Embodied Active Global-to-Local Exploration in 360$^\circ$
Linked via arxiv authorYawei Luo →
EAGLE-360: Embodied Active Global-to-Local Exploration in 360$^\circ$

Covers

newsEmbed the world: Multimodal AI for searchable aerial imagery at scale

Implements

repovlm-starter

Has model

modelVioletVision-3B

authored (incoming)

personJingtao Xu personZizhuo Lin personJianwen Sun personYi Yang personYawei Luo

Related across the graph

personJianwen Sun modelVioletVision-3B personYi Yang personJingtao Xu newsEmbed the world: Multimodal AI for searchable aerial imagery at scale personZizhuo Lin personYawei Luo repovlm-starter

Topics

cs.CV