الأبحاث ضمن الموضوع : تطبيقات تعلم الآلة متعددة الوسائط
-
تعزيز تحديد المواقع الجغرافية لصور الفيضانات المستندة إلى الحشود عبر الانتباه الموجه بواسطة LLM
2026 | المؤلف: Fujun Xu وآخرون | المجلة: Computers Environment and Urban Systems | المجال: الرؤية الحاسوبية والتعرف على الأنماط (Computer Vision and Pattern Recognition)تقدم البحث VPR-AttLLM، وهو إطار عمل غير مرتبط بنموذج مصمم لتعزيز التعرف على الأماكن البصرية (VPR) في صور الشوارع المجمعة من الجمهور، خاصة خلال الأحداث الطارئة مثل الفيضانات الحضرية. تكافح نماذج VPR التقليدية مع التشوهات البصرية والتحولات في المجال الموجودة في مثل هذه الصور، وغالبًا ما تفتقر إلى بيانات جغرافية موثوقة للاستجابة الفعالة للطوارئ. يدمج…
-
SurgRAW: سير العمل متعدد الوكلاء مع التفكير المتسلسل لتحليل الفيديو الجراحي الروبوتي
2026 | المؤلف: Chang Han Low وآخرون | المجلة: IEEE Robotics and Automation Letters | المجال: الرؤية الحاسوبية والتعرف على الأنماط (Computer Vision and Pattern Recognition)يقدم هذا القسم نظرة عامة على التقدم في جراحة الروبوت المدعومة (RAS) من خلال تقديم SurgCoTBench وSurgRAW. غالبًا ما تعتمد طرق الذكاء الاصطناعي الجراحية الحالية على نماذج معزولة، مما يؤدي إلى أساليب مجزأة ذات قابلية تفسير محدودة. لمعالجة هذه التحديات، تم تقديم SurgCoTBench كأول معيار يركز على التفكير في RAS، ويتكون من 14,256 زوج من…
-
استرجاع الاستشعار عن بعد المعزز بالتوليد: ربط صور الاستشعار عن بعد والمعرفة الشاملة مع مجموعة بيانات متعددة الوسائط ونموذج توليد معزز بالاسترجاع
2026 | المؤلف: Congcong Wen وآخرون | المجلة: IEEE Geoscience and Remote Sensing Magazine | المجال: الرؤية الحاسوبية والتعرف على الأنماط (Computer Vision and Pattern Recognition)تستعرض هذه القسم التقدمات الأخيرة في نماذج الرؤية-اللغة (VLMs) وتطبيقاتها في مهام الاستشعار عن بعد مثل وصف الصور، وفهم المشاهد، والإجابة على الأسئلة البصرية (VQA). بينما تركز نماذج VLMs الحالية للاستشعار عن بعد بشكل أساسي على فهم المشاهد المغلقة والوصف العام، فإنها غالبًا ما تفتقر إلى دمج المعرفة الخارجية، مما يحد من قدرتها على إجراء…
-
من اللغة إلى الفعل: مراجعة لنماذج اللغة الكبيرة كعملاء مستقلين ومستخدمي أدوات
2026 | المؤلف: Sadia Sultana Chowa وآخرون | المجلة: Artificial Intelligence Review | المجال: الرؤية الحاسوبية والتعرف على الأنماط (Computer Vision and Pattern Recognition)تقدم هذه القسم نظرة شاملة على التقدم في نماذج اللغة الكبيرة (LLMs) كعملاء مستقلين، مع التركيز على قدراتهم في اتخاذ القرار والتكيف. تركز المراجعة على الأدبيات المنشورة بين عامي 2023 و2025، وتتناول سبعة أسئلة بحثية رئيسية تتعلق بتصميم هيكلية عملاء LLM، والتي يتم تصنيفها إلى أنظمة عميل واحد وأنظمة متعددة العملاء. تستكشف الآليات المعرفية لـ…
