استرجاع الاستشعار عن بعد المعزز بالتوليد: ربط صور الاستشعار عن بعد والمعرفة الشاملة مع مجموعة بيانات متعددة الوسائط ونموذج توليد معزز بالاسترجاع
Remote Sensing Retrieval-Augmented Generation: Bridging remote sensing imagery and comprehensive knowledge with a multimodal dataset and retrieval-augmented generation model

المجلة: IEEE Geoscience and Remote Sensing Magazine، المجلد: 14، العدد: 2
DOI: https://doi.org/10.1109/mgrs.2025.3645852
تاريخ النشر: 2026-01-12
المؤلف: Congcong Wen وآخرون
الموضوع الرئيسي: تطبيقات تعلم الآلة متعددة الوسائط

نظرة عامة

تستعرض هذه القسم التقدمات الأخيرة في نماذج الرؤية-اللغة (VLMs) وتطبيقاتها في مهام الاستشعار عن بعد مثل وصف الصور، وفهم المشاهد، والإجابة على الأسئلة البصرية (VQA). بينما تركز نماذج VLMs الحالية للاستشعار عن بعد بشكل أساسي على فهم المشاهد المغلقة والوصف العام، فإنها غالبًا ما تفتقر إلى دمج المعرفة الخارجية، مما يحد من قدرتها على إجراء استدلالات دلالية على الاستفسارات المعقدة المعتمدة على السياق. لمعالجة هذه القيود، قدم المؤلفون مجموعة بيانات المعرفة العالمية للاستشعار عن بعد (RSWK)، التي تتضمن صورًا فضائية عالية الدقة ووصفًا نصيًا مفصلًا لـ 14,820 معلمًا عبر 16 فئة من 184 دولة، وبالتالي تجمع بين الاستشعار عن بعد ومعرفة العالم الأوسع.

استنادًا إلى مجموعة بيانات RSWK، اقترح المؤلفون إطار العمل المعزز للاسترجاع في الاستشعار عن بعد (RS-RAG)، الذي يتكون من مكونين رئيسيين: وحدة بناء قاعدة بيانات متجهات المعرفة متعددة الوسائط ووحدة استرجاع المعرفة وتوليد الاستجابة. يقوم الأول بترميز الصور والمعرفة النصية في فضاء متجه موحد، بينما يسترجع الثاني ويعيد ترتيب المعرفة ذات الصلة لتعزيز استجابات VLM. تم التحقق من فعالية RS-RAG من خلال معيار يغطي وصف الصور، وتصنيف الصور، ومهام VQA، حيث تفوق بشكل كبير على المعايير الحديثة. يعزز هذا الإطار قدرات الاستدلال السياقي لنماذج VLMs للاستشعار عن بعد، مما يمكنها من إنتاج مخرجات أكثر دقة ومرتبطة دلاليًا عبر تطبيقات متنوعة.

مقدمة

تسلط مقدمة هذه الورقة البحثية الضوء على الدور الحاسم لصور الاستشعار عن بعد في مجالات متنوعة مثل التخطيط الحضري، والزراعة، وحماية البيئة. مع تطور تكنولوجيا الاستشعار عن بعد، زادت التعقيد وحجم البيانات، مما جعل طرق التحليل التقليدية غير كافية. لقد حسنت تقنيات التعلم العميق من كفاءة ودقة المهام مثل التصنيف واكتشاف الكائنات؛ ومع ذلك، فإنها غالبًا ما تعتمد على معلومات بصرية أحادية، مما يحد من فهمها الدلالي وقابليتها للتكيف. ظهرت نماذج الرؤية-اللغة (VLMs) كحل واعد من خلال دمج الميزات البصرية مع معلومات اللغة، مما يعزز قابلية تفسير صور الاستشعار عن بعد ويمكّن من مهام معرفية أكثر تعقيدًا.

لمعالجة قيود نماذج VLMs الحالية، يقدم المؤلفون مجموعة بيانات المعرفة العالمية للاستشعار عن بعد (RSWK)، التي تتكون من صور عالية الدقة ووصف نصي طبيعي مفصل لأكثر من 14,000 موقع حول العالم. تتضمن هذه المجموعة خبرة في الاستشعار عن بعد ومعرفة عالمية أوسع، بما في ذلك السياقات التاريخية والثقافية، مما يثري الفهم الدلالي للصور. يستفيد نموذج الاسترجاع المعزز في الاستشعار عن بعد (RS-RAG) من هذه المجموعة لتعزيز قدرات VLM من خلال دمج المعرفة الخارجية عبر قاعدة بيانات متعددة الوسائط. تشمل بنية النموذج مكون استرجاع المعرفة الذي يسمح باستجابات غنية سياقيًا، مما يحسن بشكل كبير الأداء في مهام مثل وصف الصور، والتصنيف، والإجابة على الأسئلة البصرية (VQA). تظهر النتائج أن RS-RAG يتفوق على نماذج VLMs الحديثة، خاصة في السيناريوهات التي تتطلب معرفة سياقية واسعة، مما يعزز دمج الصور مع المعرفة الهيكلية في تطبيقات الاستشعار عن بعد.

طرق

يهدف إطار العمل المقترح RS-RAG (التوليد المعزز بالاسترجاع) إلى تعزيز الاستدلال في الرؤية-اللغة من خلال دمج صور الاستشعار عن بعد مع المعرفة الخارجية. يتكون من مكونين رئيسيين: وحدة بناء قاعدة بيانات متجهات المعرفة متعددة الوسائط، التي ترمز الصور والمعلومات النصية في فضاء تضمين موحد، ووحدة استرجاع المعرفة وتوليد الاستجابة، التي تسترجع المعرفة ذات الصلة لدعم مهام مختلفة. تسهل هذه الطريقة الفهم القائم على المعرفة، القابل للتطبيق على وصف الصور، وتصنيف المشاهد، والإجابة على الأسئلة البصرية.

في إعداد التجربة، يتم تغيير حجم الصور إلى 512×512 بكسل، وتعمل عدة نماذج حديثة للرؤية-اللغة كمعايير، بما في ذلك InternVL2.5-Instruct-8B، Janus-Pro-7B، وQwen-2.5-VL-7B. تم بناء نموذج RS-RAG على Qwen-2.5-VL-7B وتم ضبطه باستخدام مجموعة بيانات RSWK من خلال التكيف منخفض الرتبة (LoRA) على مدى ثلاث دورات مع معلمات تدريب محددة. يتم تقييم الأداء باستخدام مقاييس معيارية مصممة لكل مهمة، مثل درجات BLEU وMETEOR لوصف الصور والإجابة على الأسئلة البصرية، والدقة العامة لمهام التصنيف. من الجدير بالذكر أن RS-RAG يتفوق على نماذج الأساس في وصف الصور، حيث حقق درجة BLEU-4 قدرها 0.252 ودرجة CIDEr قدرها 0.145، مما يشير إلى تحسينات كبيرة في الطلاقة، والملاءمة، والمعلوماتية للنص الناتج.

نتائج

في تقييم مهمة وصف الصور، أظهر نموذج RS-RAG أداءً متفوقًا مقارنة بنماذج الرؤية-اللغة (VLMs) الأساسية على مجموعة بيانات RSWK-Mini. على وجه التحديد، حقق RS-RAG درجة BLEU-1 قدرها 0.490 ودرجة CIDEr قدرها 0.145، متجاوزًا أفضل معيار، Qwen2.5-VL، بمقدار 10.5 و12.7 نقطة، على التوالي. يبرز هذا التحسن فعالية النموذج في دمج المعرفة الخارجية الهيكلية، مما يمكّنه من توليد تسميات غنية سياقيًا ودقيقة دلاليًا، خاصة في مجال الاستشعار عن بعد. كما أظهرت المقارنات النوعية قدرة RS-RAG على دمج المعلومات الجغرافية، حيث حدد بدقة المعالم ودمج بيانات وصفية مفصلة، بينما واجهت نماذج الأساس صعوبة في الدقة الدلالية والتأسيس الواقعي.

في مهمة تصنيف الصور، تفوق RS-RAG مرة أخرى على جميع نماذج الأساس، محققًا دقة عامة قدرها 0.79، أعلى بكثير من 0.61 لـ Qwen2.5-VL. تألق RS-RAG في 13 من 16 فئة، مع دقة ملحوظة في المطار (0.98)، الملعب (0.99)، والقصور (0.92). يبرز هذا الأداء قوة النموذج في التعرف على المشاهد المعقدة في سياقات الاستشعار عن بعد. بالإضافة إلى ذلك، أظهرت التقييمات النوعية لأمثلة حضرية صعبة قدرة RS-RAG المتفوقة على مواءمة المحتوى البصري مع المعرفة الهيكلية، حيث صنف بدقة المشاهد الغامضة التي فشلت نماذج الأساس في تصنيفها. بشكل عام، تؤكد هذه النتائج فعالية التصميم المعزز بالاسترجاع في تعزيز قدرات VLM عبر مهام متعددة تتطلب معرفة مكثفة.

نقاش

تناقش هذه القسم تطوير وأهمية مجموعات البيانات والنماذج متعددة الوسائط في مجال الاستشعار عن بعد، مع التأكيد على الحاجة إلى فهم دلالي أغنى في علاقات الصورة-النص. قدمت مجموعات البيانات المبكرة مثل UCM Captions وRSICD أوصاف نصية أساسية لصور الاستشعار عن بعد، ولكن التقدمات الأخيرة، مثل مجموعة بيانات RSICap، قدمت تعليقات أكثر تفصيلًا. تُبرز مجموعة بيانات المعرفة العالمية للاستشعار عن بعد (RSWK) كمورد شامل يدمج صورًا عالية الدقة مع معرفة واسعة في المجال والعالم، مما يسهل التطبيقات المتقدمة في نماذج الرؤية-اللغة (VLMs). لا تعالج هذه المجموعة فقط قيود مجموعات البيانات الحالية من خلال تقديم معلومات سياقية أعمق، بل تدعم أيضًا مجموعة متنوعة من المهام، بما في ذلك وصف الصور والإجابة على الأسئلة البصرية.

تستعرض الورقة أيضًا نماذج الرؤية-اللغة المختلفة التي ظهرت استجابة لتوفر هذه المجموعات. أظهرت نماذج مثل RSCLIP وRSGPT تحسينات في مهام مثل تصنيف المشاهد ووصف الصور من خلال تقنيات مبتكرة مثل التعلم التبايني والتعديل على مجموعات بيانات متخصصة. علاوة على ذلك، تهدف طرق التوليد المعزز بالاسترجاع (RAG) إلى تعزيز دقة VLMs من خلال دمج المعرفة الخارجية أثناء الاستدلال، على الرغم من أن تطبيقها في الاستشعار عن بعد لا يزال في مراحله الأولى. بشكل عام، يعد التطوير المستمر لمجموعات البيانات والنماذج متعددة الوسائط أمرًا حيويًا لتعزيز قدرات تكنولوجيا الاستشعار عن بعد، مما يمكّن من فهم دلالي أكثر تعقيدًا واستدلالًا في هذا المجال.

Journal: IEEE Geoscience and Remote Sensing Magazine, Volume: 14, Issue: 2
DOI: https://doi.org/10.1109/mgrs.2025.3645852
Publication Date: 2026-01-12
Author(s): Congcong Wen et al.
Primary Topic: Multimodal Machine Learning Applications

Overview

The section outlines recent advancements in Vision-Language Models (VLMs) and their application in remote sensing tasks such as image captioning, scene understanding, and visual question answering (VQA). While existing remote sensing VLMs primarily focus on closed-set scene understanding and generic descriptions, they often lack the integration of external knowledge, which limits their ability to perform semantic reasoning on complex, context-dependent queries. To address these limitations, the authors introduced the Remote Sensing World Knowledge (RSWK) dataset, which includes high-resolution satellite imagery and detailed textual descriptions for 14,820 landmarks across 16 categories from 184 countries, thereby combining remote sensing and broader world knowledge.

Building on the RSWK dataset, the authors proposed the Remote Sensing Retrieval-Augmented Generation (RS-RAG) framework, which consists of two main components: the Multi-Modal Knowledge Vector Database Construction module and the Knowledge Retrieval and Response Generation module. The former encodes imagery and textual knowledge into a unified vector space, while the latter retrieves and re-ranks relevant knowledge to enhance the VLM’s responses. The effectiveness of RS-RAG was validated through a benchmark covering image captioning, image classification, and VQA tasks, where it significantly outperformed state-of-the-art baselines. This framework enhances the contextual reasoning capabilities of remote sensing VLMs, enabling them to produce more accurate and semantically grounded outputs across various applications.

Introduction

The introduction of this research paper highlights the critical role of remote sensing imagery in various fields such as urban planning, agriculture, and environmental protection. As remote sensing technology evolves, the complexity and volume of data have increased, rendering traditional analysis methods inadequate. Deep learning techniques have improved the efficiency and accuracy of tasks like classification and object detection; however, they often rely on single-modal visual information, limiting their semantic understanding and adaptability. Vision-Language Models (VLMs) have emerged as a promising solution by integrating visual features with language information, enhancing the interpretability of remote sensing imagery and enabling more complex cognitive tasks.

To address the limitations of existing VLMs, the authors introduce the Remote Sensing World Knowledge (RSWK) dataset, which comprises high-resolution imagery and detailed natural language descriptions for over 14,000 locations worldwide. This dataset incorporates both remote sensing expertise and broader world knowledge, including historical and cultural contexts, thereby enriching the semantic understanding of the imagery. The proposed Remote Sensing Retrieval-Augmented Generation (RS-RAG) model leverages this dataset to enhance VLM capabilities by integrating external knowledge through a multimodal knowledge base. The model’s architecture includes a knowledge retrieval component that allows for contextually enriched responses, significantly improving performance on tasks such as image captioning, classification, and visual question answering (VQA). The results demonstrate that RS-RAG outperforms state-of-the-art VLMs, particularly in scenarios requiring extensive contextual knowledge, thus advancing the integration of imagery with structured knowledge in remote sensing applications.

Methods

The proposed RS-RAG (Retrieval-Augmented Generation) framework aims to enhance vision-language reasoning by integrating remote sensing imagery with external knowledge. It comprises two key components: the Multi-Modal Knowledge Vector Database Construction module, which encodes imagery and textual information into a unified embedding space, and the Knowledge Retrieval and Response Generation module, which retrieves relevant knowledge to support various downstream tasks. This approach facilitates knowledge-grounded understanding, applicable to image captioning, scene classification, and visual question answering.

In the experimental setup, images are resized to 512×512 pixels, and several state-of-the-art vision-language models serve as baselines, including InternVL2.5-Instruct-8B, Janus-Pro-7B, and Qwen-2.5-VL-7B. The RS-RAG model is built on Qwen-2.5-VL-7B and is fine-tuned using the RSWK dataset through Low-Rank Adaptation (LoRA) over three epochs with specific training parameters. Performance is evaluated using standard metrics tailored to each task, such as BLEU scores and METEOR for image captioning and visual question answering, and overall accuracy for classification tasks. Notably, RS-RAG outperforms baseline models in image captioning, achieving a BLEU-4 score of 0.252 and a CIDEr score of 0.145, indicating significant improvements in fluency, relevance, and informativeness of generated text.

Results

In the evaluation of the image captioning task, the RS-RAG model demonstrated superior performance compared to baseline vision-language models (VLMs) on the RSWK-Mini dataset. Specifically, RS-RAG achieved a BLEU-1 score of 0.490 and a CIDEr score of 0.145, surpassing the best baseline, Qwen2.5-VL, by 10.5 and 12.7 points, respectively. This improvement underscores the model’s effectiveness in integrating structured external knowledge, enabling it to generate contextually rich and semantically accurate captions, particularly in the remote sensing domain. Qualitative comparisons further illustrated RS-RAG’s capability to synthesize geographic information, as it accurately identified landmarks and incorporated detailed metadata, while baseline models struggled with semantic accuracy and factual grounding.

In the image classification task, RS-RAG again outperformed all baseline models, achieving an overall accuracy of 0.79, significantly higher than Qwen2.5-VL’s 0.61. RS-RAG excelled in 13 out of 16 categories, with notable accuracies in Airport (0.98), Stadium (0.99), and Mansion (0.92). This performance highlights the model’s robustness in recognizing complex scenes in remote sensing contexts. Additionally, qualitative assessments of challenging urban examples demonstrated RS-RAG’s superior ability to align visual content with structured knowledge, accurately classifying ambiguous scenes where baseline models failed. Overall, these results affirm the effectiveness of the retrieval-augmented design in enhancing VLM capabilities across various knowledge-intensive tasks.

Discussion

The section discusses the development and significance of multimodal datasets and models in the remote sensing domain, emphasizing the need for richer semantic understanding in image-text relationships. Early datasets like UCM Captions and RSICD provided basic textual descriptions for remote sensing images, but recent advancements, such as the RSICap dataset, have introduced more detailed annotations. The Remote Sensing World Knowledge (RSWK) dataset is highlighted as a comprehensive resource that integrates high-resolution imagery with extensive domain and world knowledge, facilitating advanced applications in vision-language models (VLMs). This dataset not only addresses the limitations of existing datasets by offering deeper contextual information but also supports a variety of tasks, including image captioning and visual question answering.

The paper also reviews various vision-language models that have emerged in response to the availability of these datasets. Models like RSCLIP and RSGPT have demonstrated improvements in tasks such as scene classification and image captioning through innovative techniques like contrastive learning and fine-tuning on specialized datasets. Furthermore, the introduction of Retrieval-Augmented Generation (RAG) methods aims to enhance the accuracy of VLMs by incorporating external knowledge during inference, although its application in remote sensing remains nascent. Overall, the ongoing development of multimodal datasets and models is crucial for advancing the capabilities of remote sensing technologies, enabling more sophisticated semantic understanding and reasoning in this field.