تعزيز تحديد المواقع الجغرافية لصور الفيضانات المستندة إلى الحشود عبر الانتباه الموجه بواسطة LLM
Enhancing geo-localization for crowdsourced flood imagery via LLM-guided attention

المجلة: Computers Environment and Urban Systems، المجلد: 127
DOI: https://doi.org/10.1016/j.compenvurbsys.2026.102434
تاريخ النشر: 2026-04-11
المؤلف: Fujun Xu وآخرون
الموضوع الرئيسي: تطبيقات تعلم الآلة متعددة الوسائط

نظرة عامة

تقدم البحث VPR-AttLLM، وهو إطار عمل غير مرتبط بنموذج مصمم لتعزيز التعرف على الأماكن البصرية (VPR) في صور الشوارع المجمعة من الجمهور، خاصة خلال الأحداث الطارئة مثل الفيضانات الحضرية. تكافح نماذج VPR التقليدية مع التشوهات البصرية والتحولات في المجال الموجودة في مثل هذه الصور، وغالبًا ما تفتقر إلى بيانات جغرافية موثوقة للاستجابة الفعالة للطوارئ. يدمج VPR-AttLLM قدرات التفكير الدلالي لنماذج اللغة الكبيرة (LLMs) في خطوط أنابيب VPR الحالية، مستخدمًا تحسين الوصف الموجه بالانتباه لتحديد الميزات ذات الصلة بالموقع مع التخفيف من الضوضاء البصرية العابرة. يحسن هذا النهج بشكل كبير من أداء الاسترجاع دون الحاجة إلى إعادة تدريب النموذج أو بيانات إضافية.

تم تقييم VPR-AttLLM عبر المناظر الحضرية المتميزة في سان فرانسيسكو وهونغ كونغ، حيث أظهر تحسينات متسقة في الاسترجاع تتراوح بين 1-8% عبر هياكل VPR المختلفة، مع ملاحظة أكبر المكاسب في صور الفيضانات المتدهورة بشدة. قدرة الإطار على توليد خرائط انتباه مستندة إلى الدلالات تترجم إلى تقليل حرج المسافات المادية المطلقة، مما يعزز الفائدة التشغيلية للصور المحلية لمستجيبي الطوارئ. علاوة على ذلك، يضمن تصميم VPR-AttLLM القابل للتوصيل والتشغيل المتانة ضد التغيرات في صياغة المطالبات ويسهل النشر على البنية التحتية الآمنة، مما يعالج مخاوف الخصوصية. لا يساهم هذا البحث فقط في تعزيز القدرات التقنية لأنظمة VPR ولكن أيضًا في إنشاء إطار منهجي لدمج نظرية الإدراك الحضري في رؤية الكمبيوتر، مما يمهد الطريق للتطورات المستقبلية في تحديد المواقع الحساسة للسياق لصور الأزمات.

مقدمة

تسلط مقدمة هذه الورقة البحثية الضوء على الأهمية المتزايدة لصور الشوارع (SVI) للمراقبة والتحليل الحضري، خاصة في سياق الطوارئ حيث تفشل المنصات التقليدية مثل Google Street View (GSV) بسبب نقص التحديثات عالية التردد. توفر صور الشوارع المجمعة من الجمهور، التي تم جمعها من وسائل التواصل الاجتماعي وتقارير المواطنين، رؤى في الوقت المناسب حول الاضطرابات الحضرية ولكن تواجه تحديات في تحديد المواقع الجغرافية بدقة بسبب تجاهل المساهمين غالبًا لعلامات الجغرافيا الدقيقة. تعيق هذه القيود دمج مثل هذه الصور في أنظمة اتخاذ القرار المكاني الضرورية للاستجابة للطوارئ ومرونة المدن.

تقدم الورقة التعرف على الأماكن البصرية (VPR) كطريقة لاستنتاج المواقع الجغرافية من الصور، مع التأكيد على تقاطع رؤية الكمبيوتر ونظريات الإدراك الحضري. على الرغم من التقدم في تقنيات VPR، بما في ذلك النماذج المعتمدة على الاسترجاع والتصنيف، لا يزال تحديد المواقع الجغرافية بشكل موثوق صعبًا، خاصة في ظل الظروف الجوية القاسية التي تسبب تحولات في التوزيع. يقترح المؤلفون إطار عمل جديد، VPR-AttLLM، الذي يستخدم نماذج اللغة الكبيرة (LLMs) لتعزيز نماذج VPR الحالية من خلال توجيه الانتباه نحو الميزات البارزة في الصور، مما يحسن دقة الاسترجاع دون الحاجة إلى تدريب إضافي. تظهر النتائج التجريبية تحسينات كبيرة في الأداء عبر مجموعات بيانات مختلفة، مما يبرز إمكانات الإطار في الاستشعار الحضري المرن ومساهمته في مجال تحديد المواقع الجغرافية متعددة الوسائط.

الطرق

تقدم المنهجية الموضحة في هذه الورقة البحثية إطار عمل LLM-Att، المصمم لتعزيز التعرف على الأماكن البصرية (VPR) من خلال الاستفادة من نماذج اللغة الكبيرة (LLMs) لاستنتاج السياق الجغرافي من صور الشوارع (SVIs). يشير المؤلفون إلى أن ليس كل مناطق الصورة تساهم بالتساوي في تحديد المواقع؛ على سبيل المثال، توفر المباني معلومات تمييزية أكثر من الطرق أو السماء. غالبًا ما تكافح نماذج VPR التقليدية مع الوعي السياقي، خاصة عندما تواجه مدنًا غير مرئية أو ظروف بيئية معاكسة تعيق الوضوح البصري.

لمعالجة هذه القيود، يتكون إطار عمل LLM-Att من مكونين رئيسيين: (1) وحدة توليد الانتباه LLM التي تنتج خرائط انتباه مكانية تبرز المناطق البارزة في الصورة، و(2) وحدة دمج الانتباه LLM التي تدمج هذه الخرائط الانتباه في نماذج VPR المدربة مسبقًا. يسمح هذا الدمج لأنظمة VPR بتحديد أولويات ميزات الصورة بشكل تكيفي بناءً على أهميتها الدلالية، مما يحسن أداء الاسترجاع، خاصة في السيناريوهات الصعبة. يهدف النهج المقترح إلى تعزيز متانة نماذج VPR من خلال تمكينها من التركيز على الجوانب الأكثر معلوماتية من SVIs.

النتائج

تقيم قسم النتائج أداء إطار عمل VPR-AttLLM المقترح من خلال سلسلة من التقييمات الكمية. في البداية، يتم اختبار قدرات الاسترجاع للإطار تحت ظروف الفيضانات الحقيقية والصناعية الشديدة، كما هو موضح في القسم 4.3.1. بعد ذلك، يستعرض القسم 4.3.2 استقرار الأساس للإطار في السيناريوهات النموذجية غير المتضررة، مما يوفر معيارًا لأدائه تحت الظروف القياسية.

للمزيد من التحقق من متانة الإطار التشغيلية وقابلية إعادة الإنتاج، يجري القسم 4.3.3 تحليل حساسية المطالبات، مستكشفًا كيف تؤثر التغيرات في المطالبات المدخلة على النتائج. بالإضافة إلى ذلك، يقدم القسم 4.3.4 تقييمًا عبر النماذج، يقارن بين إطار VPR-AttLLM مع بدائل نماذج اللغة الكبيرة (LLM) مفتوحة المصدر المختلفة، مما يظهر تنوعه وفعاليته عبر هياكل النماذج المختلفة.

المناقشة

تسلط قسم المناقشة في الورقة البحثية الضوء على التقدم في نماذج التعرف على الأماكن البصرية (VPR)، مع التأكيد على الانتقال من الوصف المحلي المصنوع يدويًا إلى هياكل التعلم العميق التي تستخدم وظائف التجميع القابلة للتعلم. تشمل المساهمات الملحوظة تقديم NetVLAD، الذي يدمج طبقة VLAD القابلة للتفريق مع CNNs، وطريقة التجميع Generalized Mean (GeM) التي تعزز تمييز الوصف من خلال الأسس القابلة للتعلم. لقد استفادت الأطر الحديثة مثل CosPlace وEigenPlaces من هذه الابتكارات لتحسين المتانة ضد التغيرات البيئية. ومع ذلك، غالبًا ما تكافح الطرق الحالية تحت الظروف القاسية، مما يدفع لاستكشاف تقنيات المعالجة اللاحقة مثل توسيع الاستعلام (QE)، التي أظهرت تحسينات متسقة في الاسترجاع ولكن تفتقر إلى التقييم المنهجي في السيناريوهات الصعبة.

لمعالجة هذه القيود، يدمج إطار VPR-AttLLM المقترح الانتباه الموجه بواسطة نموذج اللغة (LLM) في VPR، مما يعزز تجميع الميزات من خلال دمج التفكير الدلالي. يهدف هذا النهج إلى تحسين دقة تحديد المواقع في البيئات المعقدة بصريًا، خاصة خلال الأحداث الجوية القاسية. يستخدم الإطار LLMs ليس فقط كمدربين ولكن كعوامل تضبط الانتباه عبر الميزات المكانية، مما يعزز متانة نماذج VPR. تم تصميم دمج خرائط الانتباه التي تم إنشاؤها بواسطة LLM في الهياكل الحالية لـ VPR لتحديد أولويات العناصر الحضرية المميزة، مما يحسن التعرف على الأماكن تحت الظروف المعاكسة. كما توضح الورقة الإعداد التجريبي، الذي يتضمن مجموعات بيانات SF-XL وHK-URBAN، لتقييم فعالية الإطار في السيناريوهات الواقعية، مما يظهر إمكاناته في سد الفجوات في منهجيات VPR الحالية.

Journal: Computers Environment and Urban Systems, Volume: 127
DOI: https://doi.org/10.1016/j.compenvurbsys.2026.102434
Publication Date: 2026-04-11
Author(s): Fujun Xu et al.
Primary Topic: Multimodal Machine Learning Applications

Overview

The research introduces VPR-AttLLM, a model-agnostic framework designed to enhance Visual Place Recognition (VPR) in crowdsourced street-view imagery, particularly during crisis events like urban flooding. Traditional VPR models struggle with the visual distortions and domain shifts present in such imagery, often lacking reliable geographic metadata for effective emergency response. VPR-AttLLM integrates the semantic reasoning capabilities of Large Language Models (LLMs) into existing VPR pipelines, employing attention-guided descriptor enhancement to identify location-relevant features while mitigating transient visual noise. This approach significantly improves retrieval performance without necessitating model retraining or additional data.

Evaluated across the distinct urban landscapes of San Francisco and Hong Kong, VPR-AttLLM demonstrated consistent recall improvements of 1-8% across various VPR architectures, with the most notable gains observed in severely degraded flood imagery. The framework’s ability to generate semantically informed attention maps translates into a critical reduction in absolute physical distance errors, enhancing the operational utility of localized images for emergency responders. Furthermore, VPR-AttLLM’s plug-and-play design ensures robustness against variations in prompt phrasing and facilitates deployment on secure infrastructure, addressing privacy concerns. This research not only advances the technical capabilities of VPR systems but also establishes a methodological framework for integrating urban perception theory into computer vision, paving the way for future developments in context-sensitive localization of crisis imagery.

Introduction

The introduction of this research paper highlights the growing importance of Street View Imagery (SVI) for urban observation and analysis, particularly in the context of emergencies where traditional platforms like Google Street View (GSV) fall short due to their lack of high-frequency updates. Crowdsourced SVI, gathered from social media and citizen reports, offers timely insights into urban disruptions but faces challenges in accurate geo-localization due to contributors often omitting precise geotags. This limitation hinders the integration of such imagery into spatial decision systems essential for emergency response and urban resilience.

The paper introduces Visual Place Recognition (VPR) as a method to infer geographic locations from images, emphasizing the intersection of computer vision and urban perception theories. Despite advancements in VPR techniques, including retrieval-based and classification-based models, robust geo-localization remains difficult, particularly under extreme weather conditions that cause distribution shifts. The authors propose a novel framework, VPR-AttLLM, which utilizes Large Language Models (LLMs) to enhance existing VPR models by guiding attention towards salient features in images, thereby improving retrieval accuracy without requiring additional training. Experimental results demonstrate significant performance improvements across various datasets, underscoring the framework’s potential for resilient urban sensing and its contribution to the field of multimodal geo-localization.

Methods

The methodology outlined in this research paper introduces the LLM-Att framework, designed to enhance visual place recognition (VPR) by leveraging large language models (LLMs) to infer geographic context from street view images (SVIs). The authors note that not all regions of an image contribute equally to localization; for instance, buildings provide more discriminative information than roads or skies. Conventional VPR models often struggle with contextual awareness, particularly when faced with unseen cities or adverse environmental conditions that obscure visual clarity.

To address these limitations, the LLM-Att framework comprises two main components: (1) an LLM attention generation module that produces spatial attention maps highlighting salient regions of an image, and (2) an LLM attention integration module that incorporates these attention maps into existing pretrained VPR models. This integration allows the VPR systems to adaptively prioritize image features based on their semantic relevance, thereby improving retrieval performance, especially in challenging scenarios. The proposed approach aims to enhance the robustness of VPR models by enabling them to focus on the most informative aspects of SVIs.

Results

The results section evaluates the performance of the proposed VPR-AttLLM framework through a series of quantitative assessments. Initially, the framework’s retrieval capabilities are tested under both severe real and synthetic flooding conditions, as detailed in Section 4.3.1. Following this, Section 4.3.2 examines the baseline stability of the framework in uncorrupted, typical scenarios, providing a benchmark for its performance under standard conditions.

To further validate the framework’s operational robustness and reproducibility, Section 4.3.3 conducts a prompt sensitivity analysis, exploring how variations in input prompts affect outcomes. Additionally, Section 4.3.4 presents a cross-model evaluation, comparing the VPR-AttLLM framework with various open-source large language model (LLM) alternatives, thereby demonstrating its versatility and effectiveness across different model architectures.

Discussion

The discussion section of the research paper highlights advancements in Visual Place Recognition (VPR) models, emphasizing the transition from handcrafted local descriptors to deep learning architectures that utilize learnable pooling functions. Notable contributions include the introduction of NetVLAD, which integrates a differentiable VLAD layer with CNNs, and the Generalized Mean (GeM) pooling method that enhances descriptor discrimination through learnable exponents. Recent frameworks like CosPlace and EigenPlaces have leveraged these innovations to improve robustness against environmental variations. However, existing methods often struggle under severe conditions, prompting the exploration of post-processing techniques such as Query Expansion (QE), which has shown consistent recall improvements but lacks systematic evaluation in challenging scenarios.

To address these limitations, the proposed VPR-AttLLM framework integrates language model (LLM) guided attention into VPR, enhancing feature aggregation by incorporating semantic reasoning. This approach aims to improve localization accuracy in visually complex environments, particularly during extreme weather events. The framework utilizes LLMs not merely as classifiers but as agents that modulate attention across spatial features, thereby enhancing the robustness of VPR models. The integration of LLM-generated attention maps into existing VPR architectures is designed to prioritize distinctive urban elements, improving place recognition under adverse conditions. The paper also outlines the experimental setup, which includes the SF-XL and HK-URBAN datasets, to evaluate the framework’s effectiveness in real-world scenarios, demonstrating its potential to bridge gaps in current VPR methodologies.