خوارزمية تعتمد على ميزات دلالية خفيفة الوزن لاكتشاف عناصر الجداريات القديمة An algorithm based on lightweight semantic features for ancient mural element object detection

المجلة: npj Heritage Science، المجلد: 13، العدد: 1
DOI: https://doi.org/10.1038/s40494-025-01565-6
تاريخ النشر: 2025-03-11

خوارزمية تعتمد على ميزات دلالية خفيفة الوزن لاكتشاف عناصر الجداريات القديمة

جياكوان شين ⟶ , نينغتشونغ ليو , هان سون , دقوانغ لي , يونغشين زانغ & لولو هان

الملخص

تعتبر الجداريات القديمة التي تم اكتشافها في الصين تراثًا ثقافيًا عالميًا ثمينًا، حيث تسجل المعلومات التاريخية لعصور مختلفة وتعمل كمواد تصويرية قيمة لدراسة المجتمع الصيني القديم. تشمل عناصر الجداريات الشخصيات والعربات والزهور والطيور والسحب الميمونة. يمكن أن تساعد الأبحاث الرقمية حول هذه العناصر في فهم التاريخ والثقافة بشكل أفضل. في هذه الورقة، أنشأنا مجموعة بيانات كبيرة لاكتشاف عناصر الجداريات المستخرجة من الصين القديمة، تتميز بتنوع غني من فئات العينات المعلّمة التي تمتد عبر فترات تاريخية ومناطق مختلفة، مما يوفر قيمة كبيرة لدراسة التاريخ الصيني القديم. في الوقت نفسه، لمعالجة العيوب الموجودة في الجداريات، قمنا بتطوير خوارزمية تعزيز عشوائية قابلة للتكيف، والتي تجبر النموذج على تعلم معلومات ميزات أكثر شمولاً، مما يمكنه من التكيف مع السيناريوهات المعيبة للجداريات. علاوة على ذلك، أنشأنا نموذج استخراج ميزات دلالية للأهداف لعناصر الجداريات الصينية القديمة، والذي يستخدم المعلومات السياقية وآلية الانتباه المتبقية لالتقاط المعلومات الدلالية، مما يعزز دقة اكتشاف عناصر الأهداف. أخيرًا، أجرينا تحليلًا مقارنًا لنتائج الاكتشاف لطريقتنا المقترحة مع عدة خوارزميات حديثة أخرى لاكتشاف الأهداف على مجموعة بيانات الجداريات التي تم إنشاؤها، وأكدت نتائج التصور تفوق طريقتنا المقترحة.

تشير الجداريات بشكل خاص إلى اللوحات على الجدران أو الأرضيات، وقد تم العثور عليها في كل من المواقع الأثرية والمقابر. تعتبر الجداريات القديمة التي تم اكتشافها في الصين تراثًا ثقافيًا عالميًا ثمينًا. تغطي الجداريات القديمة التي تم اكتشافها في الصين مجموعة غنية ومتنوعة من المحتوى، حيث تصور بشكل حي قصصًا عن حياة النبلاء الملكيين والعامة، بالإضافة إلى حكايات عن الآلهة السماوية والأساطير الحضرية. كما تتميز بالمناظر الطبيعية مثل الجبال والأنهار والشمس والقمر والنجوم، إلى جانب الحيوانات والنباتات مثل الطيور والزهور والحشرات والأسماك. تتمتع الجداريات بتاريخ طويل في الصين، مع محتوى غني ومتعدد، مما يجعلها مواد بصرية قيمة للغاية لدراسة المجتمع القديم. تسجل معلومات حول جوانب مختلفة مثل العادات والظروف الاجتماعية والمعتقدات الدينية من عصور مختلفة على مر تطور وتطور التاريخ المستمر. بالإضافة إلى ذلك، توفر مواد بصرية وفيرة للبحث في مجالات مثل الدين والتاريخ والجغرافيا والفن والعادات والملابس، وتحمل قيمة بحثية كبيرة يمكن أن تساعد علماء الآثار والباحثين الثقافيين في دراسة التاريخ والعلوم الإنسانية بشكل أفضل. .
تشمل العناصر المهمة في الجداريات بشكل رئيسي الشخصيات والمركبات والزهور والطيور والسحب الميمونة. يمكن أن تعزز استخدام طرق رؤية الكمبيوتر لاكتشاف
عناصر هذه الجداريات من فهم ودراسة هذه الأعمال الفنية، مما يساعد في حماية والحفاظ على هذا التراث الثقافي الثمين. . تعكس العناصر الموجودة في الجداريات القديمة غالبًا الحياة الاجتماعية والمعتقدات الدينية والأساليب الفنية في ذلك الوقت. من خلال اكتشاف هذه العناصر المستهدفة، يمكننا تحديد وتفسير المحتوى الممثل في الجداريات بدقة أكبر، مما يمنحنا فهمًا أعمق للقيمة التاريخية والثقافية والفنية وراءها. . من خلال اكتشاف وتحليل عناصر الأهداف في الجداريات، يمكن توفير مواد مادية قيمة للبحث التاريخي والفني، مما يعزز تطوير المجالات الأكاديمية ذات الصلة. . في الوقت نفسه، يمكن أيضًا استخدام نتائج الاكتشاف هذه للعرض التعليمي، مما يعزز الوعي العام وفهم الحفاظ على التراث الثقافي. علاوة على ذلك، نظرًا لأن الجداريات القديمة غالبًا ما تواجه تهديدات طبيعية مثل التآكل والتآكل، فإن اكتشاف عناصر الأهداف في الجداريات يوفر أساسًا علميًا لدراسة آليات تدهور الجداريات ولجهود الحماية والترميم، مما يضمن الحفاظ على هذه العناصر الثقافية الثمينة.
يمكن لخوارزميات اكتشاف الأهداف المعتمدة على رؤية الكمبيوتر أن تتعلم تلقائيًا وتستخرج معلومات الميزات للأهداف في الصور، بسرعة
تحديد وتحديد مواقع العناصر في الجداريات، مثل الشخصيات والحيوانات والأنماط، وما إلى ذلك، والتعرف بدقة على التفاصيل الدقيقة والعناصر المعقدة داخل الجداريات. . لا تتطلب هذه الطرق اتصالًا مباشرًا مع الجداريات، بل تحصل على صور الجداريات من خلال أجهزة التقاط الصور (مثل الكاميرات، الماسحات الضوئية، إلخ)، مما يتجنب الأضرار المادية للجداريات، مما يجعلها مناسبة بشكل خاص للقطع الأثرية الجدارية الثمينة والهشة. . علاوة على ذلك، من خلال التعلم والتدريب المستمر، يمكن للنماذج التكيف مع خصائص الجداريات ذات الأنماط والعصور المختلفة، مما يعزز مرونة وكفاءة الاكتشاف. . بالإضافة إلى ذلك، من خلال استخدام طرق اكتشاف الأهداف المعتمدة على رؤية الكمبيوتر، يمكن تحديد الأقسام التالفة أو مناطق الخطر المحتملة في الجداريات على الفور، مما يوفر دعم بيانات قوي ومرجع لجهود حماية وترميم الآثار الثقافية. .
ومع ذلك، لا تزال اكتشاف عناصر الجداريات المعتمدة على رؤية الكمبيوتر تواجه سلسلة من القضايا والتحديات. هناك صعوبات كبيرة في الحصول على مجموعات بيانات اكتشاف عناصر الجداريات وتوضيحها. . فيما يتعلق بالحصول على مجموعة البيانات، غالبًا ما تخضع الجداريات، كتراث ثقافي، لتدابير حماية صارمة، مما يجعل من الصعب الحصول على بيانات صور جداريات عالية الجودة. . تقع العديد من الجداريات في مناطق نائية أو مواقع مقيدة، مما يزيد من تعقيد جمع البيانات. تعتبر بيانات الصور عالية الدقة والواضحة ضرورية لاكتشاف عناصر الجداريات لضمان الدقة. . ومع ذلك، بسبب عوامل مثل الشيخوخة وظروف الحفظ السيئة، قد تتعرض بعض الجداريات للتلاشي أو الضبابية أو التلف، مما يؤدي إلى تدهور جودة الصورة التي لا تلبي متطلبات الاكتشاف.
فيما يتعلق بتوضيح عناصر الجداريات، فإن تعقيد وتنوع عناصر الجداريات، بما في ذلك الشخصيات والحيوانات والأنماط، وما إلى ذلك، حيث قد تتداخل أو تحجب بعضها البعض. يتطلب ذلك من المعلقين امتلاك معرفة فنية وتاريخية احترافية لتحديد حدود وفئات كل عنصر بدقة. . بالإضافة إلى ذلك، فإن الحفاظ على اتساق التوضيح عبر مجموعات بيانات كبيرة يمثل تحديًا، حيث قد يكون لدى المعلقين المختلفين اختلافات ذاتية في تعريف وتصنيف عناصر الجداريات، مما يؤدي إلى نتائج توضيح غير متسقة. . علاوة على ذلك، حتى ضمن نفس الفئة، يمكن أن تظهر عناصر الجداريات اختلافات شكلية كبيرة بسبب عوامل مثل أساليب الرسم والعصور وظروف الحفظ. . يتطلب ذلك من النماذج تعلم والتعرف على ميزات أكثر تنوعًا، مما يزيد من تعقيد استخراج الميزات. لالتقاط هذه الميزات المتنوعة، قد تتطلب نماذج التعلم العميق هياكل شبكية أعمق ومزيد من المعلمات لاستخراج وتمييز الفروق الدقيقة في الميزات، مما يزيد من معلمات النموذج وتعقيد الحساب. .
بالنسبة للجداريات الصينية القديمة، يمكن أن يساعد استخراج الميزات الدلالية والمعلومات السياقية أثناء اكتشاف عناصر الأهداف النماذج العميقة على فهم وتحديد العناصر المستهدفة بشكل أفضل. ومع ذلك، بسبب الاختلافات الكبيرة في أساليب الرسم والعصور والألوان بين الجداريات، هناك تحديات كبيرة في استخراج الميزات الدلالية والمعلومات السياقية لاكتشاف عناصر الجداريات. . يتطلب تنوع أساليب الرسم الجداري عبر فترات تاريخية ومناطق مختلفة أن تتكيف طرق استخراج الميزات مع هذه التغيرات وتلتقط بدقة الميزات الدلالية الفريدة لكل نمط. . إن ظروف الحفظ المتغيرة بسبب الشيخوخة تشكل أيضًا تحديًا، حيث قد تصبح بعض الجداريات غير واضحة بسبب التعرض المطول للعوامل الجوية والتلاشي، مما يجعل من الصعب تحديد الميزات الدلالية الأصلية والمعلومات السياقية الواضحة. .
في هذه الورقة، أنشأنا مجموعة بيانات كبيرة للكشف عن الأهداف للجداريات القديمة المستخرجة في الصين. تعود الجداريات إلى سلالتي تشين وهان (221 قبل الميلاد – 220 ميلادي) إلى سلالتي مينغ وتشينغ (1368-1912 ميلادي)، مما يغطي أكثر من 2200 عام. لقد استخرجنا أكثر من 500 قبر وموقع يحتوي على جداريات، موزعة بشكل رئيسي عبر أكثر من 20 مقاطعة ومدينة بما في ذلك خنان وشانشي وشانشي وشاندونغ، وجمعنا ما مجموعه 2358 صورة جداريات. في هذه المجموعة، قمنا بتصنيف ست فئات: ذكر، أنثى، وحش، زهرة، طائر، وسحاب، مع إجمالي 11790 عينة مصنفة. توفر هذه المجموعة قيمة أكاديمية وتطبيقية كبيرة للبحوث اللاحقة. علاوة على ذلك، قمنا بتطوير خوارزمية تعزيز بيانات المسح العشوائي التكيفية المصممة خصيصًا لخصائص مجموعة بيانات الجداريات الصينية القديمة، والتي يمكن أن تستخرج ميزات الهدف حتى مع فقدان معلومات جزئية. هذا مفيد لتحسين
التعامل مع حالات فقدان المعلومات الجزئية في الجداريات بسبب العمر وظروف الحفظ وعوامل أخرى. بالإضافة إلى ذلك، أنشأنا شبكة هيكلية خفيفة الوزن لاستخراج الميزات متعددة المقاييس التي تقلل بشكل كبير من عدد المعلمات والعبء الحسابي مع ضمان دقة استخراج ميزات العناصر. علاوة على ذلك، لتعزيز قدرة النموذج على استخراج ميزات عناصر الجداريات، قمنا بتطوير نموذج تعزيز الميزات الدلالية لعناصر الجداريات الذي يحسن من فهم النموذج ودقة الكشف من خلال الانتباه المتبقي والمعلومات السياقية.
المساهمات الرئيسية لهذه الورقة هي كما يلي:
  1. مساهمة مجموعة بيانات فريدة: لقد قمنا بتجميع مجموعة بيانات كبيرة غير مسبوقة مخصصة للكشف عن الأهداف في الجداريات القديمة المستخرجة في الصين. على عكس الأعمال السابقة، تتميز هذه المجموعة بمدى زمني واسع، وتوزيع جغرافي، وتنوع أسلوبي، مما يشمل مجموعة واسعة من العينات المصنفة بدقة. تعتبر هذه المورد الشامل حجر الزاوية لتقدم البحث في الجداريات الصينية القديمة، حيث تقدم رؤى ومرجعًا لا تقدر بثمن لم تكن متاحة سابقًا.
  2. تقنية مبتكرة لتعزيز البيانات: لمواجهة التحديات المحددة التي تطرحها العيوب في مجموعة بيانات الجداريات القديمة المستخرجة، نقدم خوارزمية تعزيز بيانات المسح العشوائي التكيفية. تعزز هذه الطريقة الجديدة من قدرة النموذج على التعلم والتعرف على ميزات الكائنات المعيبة في الجداريات من خلال تعزيز مجموعة العينات المصنفة، مما يملأ فجوة حاسمة في المنهجيات الحالية.
  3. استخراج ميزات متعددة المقاييس بكفاءة: نقترح شبكة هيكلية خفيفة الوزن لاستخراج الميزات متعددة المقاييس مصممة لعناصر الجداريات. لا تلتقط هذه الشبكة ميزات الأهداف ذات الأحجام المختلفة بفعالية فحسب، بل تقلل أيضًا بشكل كبير من التعقيد الحسابي وعدد المعلمات مقارنة بالأساليب التقليدية. تجعل هذه الكفاءة مناسبة تمامًا للتطبيقات في العالم الحقيقي والبيئات ذات الموارد المحدودة.
  4. نموذج متقدم لاستخراج الميزات الدلالية: علاوة على ذلك، نطور نموذجًا لاستخراج الميزات الدلالية يستفيد من المعلومات السياقية والانتباه المتبقي لاشتقاق رؤى دلالية من عناصر الجداريات. يمثل هذا النموذج قفزة كبيرة إلى الأمام في دقة الكشف عن أهداف عناصر الجداريات، حيث يتضمن آليات متطورة لتحسين وتعزيز الفهم الدلالي للعناصر، مما يميز عملنا عن الجهود السابقة في هذا المجال.

مجموعة بيانات الجداريات وخوارزمية تعزيز بيانات الصور

تعتبر الجداريات القديمة تراثًا ثقافيًا ثمينًا للبشرية، ومع ذلك، بسبب الأسباب التاريخية والطبيعية، تختلف ظروف حفظ هذه الجداريات بشكل كبير، حيث تعرض بعضها لأضرار شديدة وتصبح الصور غير واضحة. لذلك، هناك حاجة ملحة للمتخصصين في هذا المجال لحماية هذه الجداريات القديمة. يمكن أن تعرض تقنيات المحاكاة الافتراضية والتكنولوجيا الرقمية لاستعادة الجداريات الافتراضية وإعادة بنائها مظهرها الأصلي بشكل واقعي، مما يتجنب الأضرار المادية للجداريات. هذه الطريقة مناسبة بشكل خاص لاستعادة القطع الفنية الجدارية الثمينة والهشة. في السنوات الأخيرة، أجرى العلماء أبحاثًا واسعة في هذا المجال، محققين سلسلة من النتائج في مجالات مثل إنشاء مجموعات بيانات الجداريات القديمة، واستعادة الجداريات الافتراضية، واكتشاف العيوب في الجداريات، والكشف عن أهداف عناصر الجداريات.
في خوارزمية MuralDiff أنشأ المؤلفون مجموعة بيانات لاكتشاف عيوب الجداريات القديمة، والتي توفر تعليقات توضيحية على مستوى البكسل لفئات العيوب مثل الشقوق، والتقشير، والبقع، وغيرها الموجودة في الجداريات، مما يوفر أساسًا موثوقًا لاستعادة الجداريات لاحقًا. اختار وانغ وآخرون 2780 صورة غير تالفة من مجموعة بيانات جداريات ثانغكا واستعادوا الجداريات الافتراضية باستخدام طريقة توليد قناع قائم على الضرب. في خوارزمية DunHuangStitch , قام المؤلفون بإنشاء مجموعتين من البيانات لخياطة الجداريات الرقمية لدونهوانغ، مستفيدين من شبكة محاذاة الصور التقدمية وشبكة خياطة إعادة بناء فرق الميزات لتحقيق ذلك. في RPTK1 , أنشأ المؤلفون مجموعة بيانات RPTK1 (نسخة ثانغكا للصور الدينية 1) لـ
الكشف عن فئات مثل الأغطية، والملابس، والأدوات الدينية. ومع ذلك، فإن مجموعات بيانات الجداريات القديمة المذكورة أعلاه تُستخدم بشكل أساسي لاكتشاف عيوب الجداريات، والخياطة الافتراضية، والكشف عن أهداف فئات العناصر في سيناريوهات محددة. وهي محدودة من حيث عدد المجموعات وتوزيع الأعمار، وتفتقر أيضًا إلى الكشف والتحليل الدلالي للعناصر المهمة في الجداريات القديمة. في هذه الورقة، نقوم بإنشاء مجموعة بيانات كبيرة للكشف عن الأهداف لعناصر الجداريات الصينية القديمة، والتي تتميز بتغطية واسعة من المناطق الجغرافية والفترات التاريخية، وعدد غني من العينات المصنفة. توفر هذه المجموعة مواد بحثية مهمة للدراسات والجهود المتعلقة بالحفاظ على الجداريات الصينية القديمة.
يلعب تعزيز البيانات دورًا حاسمًا في تعزيز قوة النماذج في الرؤية الحاسوبية وقدراتها على التعميم. في السنوات الأخيرة، أجرى العلماء المعنيون أبحاثًا واسعة في هذا المجال وحققوا سلسلة من النتائج. في SPGC ، اقترح المؤلفون خوارزمية تعزيز بيانات تعتمد على أولويات الشكل، والتي تضفي طابعًا على البيانات من خلال توليد معلومات الشكل. حسنت هذه الخوارزمية أداء الكشف للنماذج على مجموعات بيانات الكائنات في الاستشعار عن بعد. في المرجع 27، استخدم المؤلفون نموذج سياقي لإنشاء خوارزمية تعزيز بيانات خلط الكائنات المعتمدة على المعرفة السابقة، والتي تستخدم الشبكات العصبية التلافيفية للتنبؤ بما إذا كانت مناطق الصور مناسبة لتعزيز خلط البيانات، وقادرة على تحقيق تحسينات في الأداء في مهام مثل الكشف عن الكائنات وتقسيم الكائنات. في خوارزمية AutoPedestrian ، أجرى المؤلفون كشف المشاة من خلال البحث تلقائيًا عن استراتيجيات تعزيز البيانات المثلى ودوال الخسارة، والتي عرفت استراتيجيات التعزيز ودوال الخسارة كمشكلات توزيع احتمالية مع معلمات فرعية مختلفة واستخدمت مخططًا دوريًا لأخذ عينات الأهمية للتحسين. ، اقترح المؤلفون طريقة تعزيز بيانات الخلفية المختلطة لتعزيز قدرة النموذج على التعميم واعتمدوا شبكة مختلطة جزئيًا لتحسين دقة الكشف عن الكائنات في مقاطع الفيديو المراقبة.

شبكة هيكلية خفيفة لاستخراج الميزات

تقلل الشبكات الخفيفة الوزن بشكل كبير من الحمل الحسابي للنماذج من خلال تحسين هيكل الشبكة واستخدام الالتفافات الفعالة، مما يحقق أداءً جيدًا حتى مع الموارد الحاسوبية المحدودة. في نماذج كشف الكائنات، يسمح إدخال نماذج استخراج الميزات متعددة المقاييس بدمج الأهداف ذات الأحجام المختلفة، مما يمكّن من إجراء توقعات دقيقة للأهداف بمقاييس متنوعة. في السنوات الأخيرة، قام الباحثون بدمج الشبكات الخلفية الخفيفة الوزن مع نماذج استخراج الميزات متعددة المقاييس لمهام كشف الكائنات في سيناريوهات متنوعة، مما يقلل بشكل كبير من الحمل الحسابي مع الحفاظ على دقة توقع عالية. في الخوارزمية SAMNet يقترح المؤلفون نموذج انتباه متعدد المقاييس ثلاثي الأبعاد لدمج الميزات من مقاييس مختلفة بشكل تكيفي، حيث يتم اعتماد نموذج خفيف الوزن في شبكة استخراج الميزات، مما يقلل بشكل كبير من التعقيد الحسابي وعدد المعلمات في النموذج مع الحفاظ على دقة اكتشاف الكائنات. في المرجع 31، يقترح المؤلفون نموذج استخراج ميزات معلومات السياق الدلالي متعدد المقاييس خفيف الوزن لتجزئة الكائنات، والذي يلتقط معلومات دلالية متعددة المقاييس من خلال وحدة هرم الميزات الخفيفة ويستخدم وحدة دمج الحدود لنقل ميزات البكسل، مما يظهر مزايا كبيرة على مجموعات بيانات التجزئة الدلالية. في المرجع 32، يقترح المؤلفون نموذج كشف تشققات الطرق يعتمد على تبادل التجزئة من خلال الالتفاف، والذي يقسم خرائط الميزات إلى دقة مختلفة لتصفية المعلومات الزائدة ويستخدم نموذج تبادل الميزات متعدد المقاييس لتعزيز دمج الميزات عبر المراحل، مما يؤدي إلى بناء خوارزمية كشف عيوب التشققات خفيفة الوزن وعالية الدقة.
في المرجع 33، صمم المؤلفون نموذج استرجاع صور الاستشعار عن بُعد متعدد المقاييس وعالي الكفاءة، والذي يحصل على ميزات النص من خلال الالتفاف الجماعي الخفيف ويستخرج المعلومات متعددة المقاييس لصور الاستشعار عن بُعد أثناء الترميز. في Lite-FENet يقترح المؤلفون شبكة خفيفة الوزن لتعزيز الميزات متعددة المقاييس لتجزئة الكائنات على مجموعات بيانات العينات الصغيرة، والتي تعزز التفاعل
دمج الميزات متعددة المقاييس مع الحفاظ على تمييز الميزات مع تقليل الحمل الحسابي. في SwinWave-SR يقترح المؤلفون نموذج تحسين دقة الصور تحت الماء خفيف الوزن ومتعدد المقاييس يعتمد على محول Swin، والذي يستخدم وحدة تحويل المويجات لتجنب فقدان المعلومات أثناء تقليل العينة ويستخدم التعلم الذاتي الانتباه للاحتفاظ بالمعلومات الأساسية مع تقليل التكاليف الحاسوبية. في ADMNet يقترح المؤلفون نموذج كشف كائنات بارزة خفيف الوزن متعدد المقاييس موجه بالانتباه، والذي يستخدم وحدة إدراك متعددة المقاييس للحصول على ميزات سياقية مختلفة ويستخدم وحدة انتباه مزدوجة لتصفية المعلومات المشتتة، مما يمكّن الميزات العميقة من التركيز أكثر على المناطق البارزة. في PolypSeg يقترح المؤلفون شبكة خفيفة الوزن تعتمد على السياق لاكتشاف أهداف الزوائد القولونية، والتي تستخدم وحدة سياق تكيفية خفيفة الوزن لإزالة ضوضاء الخلفية وأداء دمج الميزات.

نموذج تعزيز الميزات الدلالية

يلعب نموذج تعزيز الميزات الدلالية دورًا مهمًا في خوارزميات اكتشاف الكائنات من خلال تحسين قدرة تمثيل الميزات، وتعزيز قدرة التعرف على الكائنات، وتقليل تداخل ضوضاء الخلفية، وتحسين عملية دمج الميزات، وزيادة دقة وكفاءة الاكتشاف. في المرجع 38، يقترح المؤلفون نموذج اكتشاف كائنات خفي يعتمد على تعزيز الميزات الدلالية تحت إشراف ضعيف. يتعلم هذا النموذج المعلومات الدلالية لكائنات بأحجام مختلفة من خلال بناء شبكة تحسين ميزات تحت إشراف ضعيف متعددة المقاييس، مما يعزز قدرة تمثيل الميزات الدلالية للكائنات مع قمع ضوضاء الخلفية. في SFSANet يقدم المؤلفون خوارزمية كشف الأجسام في الاستشعار عن بُعد تستفيد من دمج المعلومات الدلالية والتكيف في القياس، حيث يتم إثراء المعلومات الدلالية من خلال وحدة دمج دلالية وكبح الضوضاء الخلفية باستخدام وحدة انتباه مكاني، مما يثبت فعاليتها على مجموعات بيانات الاستشعار عن بُعد المتاحة للجمهور. في ContrastZSD يقترح المؤلفون خوارزمية للكشف عن الأجسام بدون تدريب مسبق تعتمد على شبكة تباينية موجهة دلاليًا، حيث تستخدم هذه الخوارزمية التسميات الحقيقية ومعلومات تشابه الفئات لتعلم المعلومات الدلالية، مما يوضح فعالية خوارزمية الكشف عن الأجسام بدون تدريب مسبق المقترحة على مجموعات البيانات العامة. في المرجع 41، يقدم المؤلفون خوارزمية للكشف عن عيوب سطح شفرات محركات الطائرات تعتمد على شبكة توجيه دلالي عبر الطبقات، والتي تستفيد من المعلومات الدلالية العميقة لتوجيه طبقات الميزات السطحية لتحديد أهداف العيوب الدقيقة.
في SCFNet يقترح المؤلفون شبكة تصحيح دلالي وتركيز لاكتشاف كائنات الصور عن بُعد عالية الدقة، حيث يستخدم هذا الخوارزمية وحدة تصحيح محلية لاكتساب ميزات التشابه العالمية ويستفيد من وحدة تركيز لتعزيز المعلومات الدلالية للأهداف، وتم التحقق من فعالية الخوارزمية المقترحة على مجموعات بيانات كائنات الاستشعار عن بُعد المتاحة للجمهور. ، يقوم المؤلفون بالتحقيق في التكيف غير المراقب بدون بيانات المصدر لاكتشاف كائنات الفيديو ويقترحون طريقة تحسين متناوبة زمانية ومكانية تعتمد على المعلم المتوسط، والتي تعزز دقة اكتشاف الكائنات في السيناريوهات الصعبة. في DSCA يقدم المؤلفون خوارزمية كشف كائنات متكيفة مع المجال تعتمد على نموذج محاذاة دلالية مزدوجة، حيث تستخدم هذه الخوارزمية المعلومات السياقية لمحاذاة المعلومات الدلالية المستهدفة بين مجالات المصدر والهدف، مما يحقق كشفًا دقيقًا للكائنات في ظروف الطقس الصعبة لسيناريوهات القيادة الذاتية.

طريقة

تحقق هذه الورقة الكشف الفعال والدقيق لعناصر الجداريات القديمة المستخرجة من الصين في سيناريوهات معقدة وصعبة. أولاً، لمعالجة القضايا مثل التلاشي، والتقشير، والأضرار الموجودة في مجموعة بيانات الجداريات، نقوم بإنشاء خوارزمية تعزيز بيانات عشوائية قابلة للتكيف. تعزز هذه الخوارزمية قدرة نموذج الكشف على تعلم والتعرف على ميزات الأهداف الجدارية المعيبة من خلال مسح بعض المناطق بشكل عشوائي. بالإضافة إلى ذلك، نقوم ببناء شبكة هيكلية خفيفة الوزن لاستخراج الميزات متعددة المقاييس لعناصر الجداريات، والتي تتفوق في استخراج الميزات بفعالية من الأهداف ذات الفروق الكبيرة في الحجم، حيث يقلل تصميمها الخفيف الوزن بشكل كبير من العبء الحسابي وعدد
معلمات في النموذج. علاوة على ذلك، نقوم أيضًا بتطوير نموذج لاستخراج الميزات الدلالية المستهدفة لعناصر الجداريات الصينية القديمة. يستخدم هذا النموذج الانتباه المتبقي والمعلومات السياقية لالتقاط الميزات الدلالية لعناصر الجداريات، مما يحسن بشكل فعال دقة اكتشاف أهداف عناصر الجداريات.

مجموعة بيانات من جدارية قديمة تم اكتشافها في الصين

تشير الجداريات بشكل خاص إلى الأعمال الفنية المرسومة على الجدران أو الأرضيات، وقد تم اكتشاف مثل هذه اللوحات في كل من الأطلال والمقابر. منذ سلالتي تشين وهان وما بعدهما، أصبح الاكتشاف الوفير للجداريات الصينية القديمة جزءًا مهمًا من البحث الأثري. منذ عشرينيات القرن الماضي، ومع التعمق المستمر في العمل الأثري، تم العثور على العديد من الجداريات المهمة، معظمها تم التنقيب عنها من المقابر، بينما تم العثور على القليل منها في أطلال القصور والمعابد. الجداريات القديمة التي تم اكتشافها في الصين غنية بالمحتوى وحيوية في الصور، وتعمل ليس فقط كشهود على التاريخ ولكن أيضًا كمواد لا تقدر بثمن لدراسة الحياة الاجتماعية القديمة. سواء كانت مشاهد حياة الملوك والعامة، أو قصص الأساطير السماوية والأساطير الحضرية، أو المناظر الطبيعية مثل الجبال والأنهار والشمس والقمر والنجوم، أو الأشكال الحيوية للطيور والوحوش والزهور والأسماك والحشرات، فقد تم الحفاظ عليها جميعًا من خلال المهارات الرائعة للفنانين القدماء، مقدمة نفسها لنا عبر العصور. يساعد البحث في العناصر الموجودة في هذه الجداريات ليس فقط في فهم أعمق لمظهر المجتمع القديم ولكن أيضًا في كشف المفاهيم الجمالية للناس القدماء، وعاداتهم المعيشية، والتغيرات في البيئة الطبيعية، وبالتالي تمتلك قيمة أكاديمية مهمة للغاية.
في هذه الورقة، قمنا بإنشاء مجموعة بيانات للكشف عن عناصر الجداريات القديمة المستخرجة من الصين. تشمل هذه المجموعة جداريات من 577 قبرًا وموقعًا أثريًا، والتي تتوزع على نطاق واسع عبر 23 مقاطعة وبلدية، بما في ذلك خنان وشيانشي وشنشي وشاندونغ. تم جمع ما مجموعه 2358 صورة جداريات، وقد غطت مجموعة البيانات منطقة واسعة، غنية بالموارد وتمثل بشكل كبير.
تأتي مجموعة البيانات الخاصة بنا من المجموعات القيمة للعديد من المواقع الأثرية والمتاحف، وتشمل الجداريات المستخرجة مباشرة من الاكتشافات الأثرية، والجداريات المعروضة في المتاحف، وصور الجداريات المستمدة من الوثائق التاريخية. لضمان تنوع وتمثيل البيانات، اخترنا بشكل خاص جداريات تمتد عبر فترات تاريخية ومناطق جغرافية مختلفة، تغطي سلالات متنوعة من سلالتي تشين وهان إلى سلالتي مينغ وتشينغ.
علاوة على ذلك، تعاوننا مع العديد من المؤسسات البحثية الأثرية، مثل متحف الجداريات القديمة في خنان، للحصول على مواد الاكتشاف الأثري وصور الجداريات من المصدر الأول. تم فحص الصور في مجموعة البيانات بدقة ومعالجتها مسبقًا لضمان جودتها وتمثيلها. استخدمنا تقنية الحصول على الصور عالية الدقة للحفاظ على أكبر قدر ممكن من التفاصيل والميزات المميزة للجداريات. بالإضافة إلى ذلك، قمنا بإجراء معالجة الصور مثل تقليل الضوضاء وتعزيز التباين لتحسين وضوح وقراءة الصور. من حيث التمثيل، تأكدنا من أن مجموعة البيانات تحتوي على أنواع مختلفة من عناصر الجداريات، مثل الشخصيات والحيوانات والنباتات والهندسة المعمارية، لتعكس بشكل شامل المحتوى الغني للجداريات الصينية القديمة. عند إنشاء مجموعة البيانات، أخذنا في الاعتبار تمامًا تنوع وتعقيد البيانات لتعزيز قدرة النموذج على التعميم. من خلال دمج صور الجداريات من فترات تاريخية ومناطق جغرافية مختلفة، يمكننا تدريب نموذج أكثر قوة وتعميمًا يمكنه التعرف على ومعالجة أنواع وأنماط مختلفة من عناصر الجداريات. علاوة على ذلك، قمنا بزيادة تنوع البيانات من خلال تقنيات زيادة البيانات (مثل التدوير، والتكبير، والانعكاس، وما إلى ذلك) لتحسين أداء التعميم للنموذج.
خلال عملية البناء، قمنا بتعليق الصور في مجموعة البيانات بدقة، مع وضع علامات على ست فئات: ذكر، أنثى، وحش، زهرة، طائر، وسحاب. بلغ العدد الإجمالي للعينات المعلّمة 11790، وتعكس هذه الفئات المعلّمة الغالبية العظمى من أنواع العناصر الموجودة في الجداريات، مما يوفر كمية كافية من تعليقات العينات. تم نشر مجموعة بيانات عناصر الجداريات القديمة التي تم إنشاؤها في هذه الورقة على GitHub، ورابط التنزيل مذكور في (https://github. com/jiaquanshen/Murals-Elements-Target-Detection). تظهر الشكل 1 أمثلة على فئات العناصر المختلفة التي تم إنشاؤها في مجموعة البيانات.
تظهر عينات فئات العناصر الموضحة في الشكل 1 مشاهد بسيطة نسبيًا مع جداريات محفوظة جيدًا. ومع ذلك، فإن الغالبية العظمى من الجداريات القديمة، التي تحملت آلاف السنين، غالبًا ما تظهر تلاشيًا وتقشرًا وتلفًا، مما يؤدي إلى ميزات غير واضحة للعناصر المستهدفة في الصور التي يصعب تحديدها بدقة. علاوة على ذلك، فإن الجداريات الصينية القديمة غنية ومتنوعة في المحتوى، حيث تشمل عناصر مثل البشر والحيوانات والنباتات والمناظر الطبيعية، مع تجسيد كل عنصر لنفسه بأشكال مختلفة عبر فترات ومناطق مختلفة. بالإضافة إلى ذلك، غالبًا ما تحتوي الجداريات الصينية القديمة على أهداف صغيرة ومخفية ضمن مشاهد كبيرة ومعقدة، مما يشكل جميعها صعوبات وتحديات كبيرة في الكشف عن أهداف عناصر الجداريات. الشكل 2
الشكل 1 | جداريات محفوظة جيدًا. عينة من فئات عناصر الجداريات (أ) ذكر (ب) أنثى (ج) وحش (د) زهرة (هـ) طائر (و) سحاب.
الشكل 2 | جداريات معيبة. سيناريوهات صعبة في الجداريات القديمة (أ) تلاشي (ب) تقشر (ج) تلف (د) جزء مفقود (هـ) مشاهد معقدة (و) أشياء صغيرة.
توضح السيناريوهات الصعبة التي تم مواجهتها في الكشف عن أهداف عناصر الجداريات القديمة.

نموذج زيادة الصور عن طريق مسح المناطق العشوائية التكيفية

في هذه الورقة، نقترح نموذج زيادة صور الجداريات عن طريق مسح المناطق العشوائية التكيفية الذي يحاكي السيناريوهات مثل التداخل والتلف التي قد تواجهها صور الجداريات في التطبيقات الواقعية. يعزز هذا النموذج فهم النموذج العميق وقدرات التعرف على صور الجداريات. خلال عملية التدريب، يختار النموذج بشكل تكيفي وعشوائي مناطق في الصورة لتعيين قيم بكسلها إلى لون صلب، مما يجبر النموذج على تعلم تمثيلات ميزات أكثر شمولاً بدلاً من الاعتماد فقط على مناطق الميزات داخل الصورة. على عكس الطرق السابقة التي تستخرج بشكل سلبي ميزات الأهداف المعيبة، فإن النهج المقترح في هذه الورقة ينشئ بنشاط وعشوائي مناطق معيبة، مما يجبر النموذج على تعلم ميزات أهداف العناصر غير المكتملة وبالتالي تحسين دقة الكشف عن أهداف العناصر.
في مهمة الكشف عن الأهداف في عنصر الجداريات، تركز النماذج العميقة بشكل أساسي على المعلومات داخل صناديق الحدود أثناء التدريب والكشف. لذلك، في نموذج تعزيز الصور المقترح الذي يعتمد على المسح العشوائي التكيفي، تكون المناطق الرئيسية التي يتم التركيز عليها هي صناديق الحدود المستهدفة والمناطق المحيطة بها في بيانات التدريب. لتحقيق ذلك، يتضمن نموذج تعزيز الصور الجداري القائم على المسح العشوائي التكيفي المبادئ الثلاثة التالية في التصميم. 1) تضمين المناطق المحيطة بالهدف المعلم وداخل الهدف. يهدف هذا المبدأ إلى تعزيز وعي النموذج بالسياق من خلال مسح المناطق حول صندوق الحدود المستهدف. في كشف الأجسام، تعتبر المعلومات السياقية المحيطة بالهدف حاسمة لتحديد الهدف بدقة وتحديد موقعه. من خلال مسح هذه المناطق عشوائيًا، يُجبر النموذج على تعلم استنتاج وجود الهدف وموقعه من المعلومات المتبقية، والتي قد تكون غير مكتملة، مما يحسن من قدرته على التعميم والصلابة. 2) تجنب مسح المناطق المهمة من الهدف. يهدف هذا المبدأ إلى منع الاضطراب المفرط في الميزات الأساسية للهدف، مما يضمن أن النموذج لا يزال قادرًا على تعلم ميزات الهدف الكافية من المعلومات المتبقية. إذا تم مسح مناطق كبيرة من الهدف، ستفقد الميزات الرئيسية الموجودة في تلك المناطق، مما قد يجعل من الصعب على النموذج التعرف على الهدف. 3) يجب أن يكون نسبة عرض صندوق المنطقة الممسوحة قريبًا من تلك الخاصة بالهدف المعلم الأصلي. يهدف هذا المبدأ إلى الحفاظ على التناسق في الشكل بين المنطقة الممسوحة وصندوق الحدود المستهدف، مما يقلل من الاضطراب في الهيكل العام وتخطيط الصورة. عندما يكون شكل المنطقة الممسوحة مشابهًا لشكل الهدف، يكون النموذج أفضل في استنتاج المحتوى وموقع المنطقة الممسوحة من المعلومات المتبقية في الصورة.
الشكل 3 | نموذج مسح المنطقة العشوائية التكيفية.
خلال عملية التدريب، كما هو موضح في الشكل 3، يقوم نموذج مسح المنطقة العشوائية التكيفية باختيار نقطة عشوائية على صندوق الحدود للهدف. ثم، النقطة تمتد عشوائيًا لمسافة إلى اليسار وعلى مسافة من إلى اليمين. وبالمثل، الـ النقطة تمتد عشوائيًا لمسافة إلى الأعلى وبمسافة إلى الأسفل.
لذا، النقطة بالإضافة إلى المسافات الأربع ، و تشكل منطقة محذوفة عشوائيًا. في هذه اللحظة، يتم تعريف مساحة المنطقة المستطيلة المولدة عشوائيًا على أنها ، ويتم تعريف مساحة صندوق الحدود للهدف على أنها نسبة الارتفاع إلى العرض للمنطقة المستطيلة المولدة عشوائيًا هي Rrand ونسبة ارتفاع وعرض صندوق الحدود هي مربوط . نحن نحدد معلمة تُسمى كما هو موضح في المعادلة (1).
يمثل نسبة مساحة التقاطع بين منطقة المسح المولدة عشوائيًا ومساحة صندوق الحدود إلى مساحة منطقة المسح المولدة، والتي تقع ضمن نطاق حيث تكون قيمة a في نطاق [0.3، 0.7]. الغرض هو تلبية المبدأ الأول لخوارزمية مسح المنطقة العشوائية التكيفية، الذي ينص على أن المنطقة الممسوحة التي تم إنشاؤها عشوائيًا يجب أن تكون موجودة حول صندوق الحدود، مع وجود حوالي نصف المنطقة المولدة داخل صندوق الحدود. هذا يضمن أن المنطقة المولدة تحتوي على معلومات سياقية كافية، مما يجبر النموذج على تعلم السياق ومعلومات الخلفية المحيطة بالعنصر.
الشكل 4 | الرسم البياني للإطار العام للخوارزمية المقترحة.

الملخص

على الرغم من يمكن أن يحافظ على نسبة المنطقة الممسوحة المولدة عشوائيًا إلى إجمالي المنطقة الممسوحة ضمن نطاق معقول، إذا كانت المنطقة المولدة تغطي جزءًا كبيرًا من المنطقة المعلَمة للهدف، فقد يؤدي ذلك إلى فقدان معلومات أساسية حول الميزات البارزة للهدف، مما يجعل من الصعب تعلم الخصائص الرئيسية للهدف بشكل فعال. لمعالجة ذلك، نقدم معلمة أخرى، لتحديد نسبة المنطقة الممسوحة المولدة إلى مساحة صندوق الحدود للهدف. كما هو موضح في المعادلة (2)، يمثل نسبة مساحة التقاطع بين المنطقة الممسوحة التي تم إنشاؤها عشوائيًا ومساحة صندوق الحدود إلى مساحة صندوق الحدود، حيث تقع هذه النسبة ضمن نطاق ، حيث قيمة في نطاق . الغرض هو الالتزام بالمبدأ الثاني لخوارزمية المسح العشوائي التكيفية المقترحة، والذي ينص على أن المنطقة الممسوحة الناتجة يجب ألا تتجاوز من منطقة صندوق الإحاطة بالكامل. يهدف هذا إلى منع الأضرار المفرطة للميزات البارزة الأساسية للهدف، مما يضمن أن النموذج لا يزال قادرًا على تعلم ميزات الهدف الكافية من المعلومات المتبقية.

بالإضافة إلى ذلك، يجب أن يحافظ المستطيل العشوائي المحذوف التكيفي تقريبًا على اتساق الشكل مع المنطقة المستهدفة المعلّمة. عندما يكون شكل المنطقة المحذوفة مشابهًا لشكل الهدف، يمكن للنموذج أن يدرك بسهولة المنطقة المحذوفة كحجب أو تشوه للهدف أثناء عملية الاستدلال، مما يعزز من قوته في مواجهة الحجب والتشوهات. كما هو موضح في المعادلة (3)، يمثل نسبة الارتفاع والعرض للمستطيل الممسوح الذي تم إنشاؤه، يمثل نسبة الارتفاع والعرض لصندوق الحدود المستهدف. هو معلمة فرعية بقيمة تتراوح بين ، و هو معلمة فرعية أخرى مع نطاق قيمة من الغرض من هذين المعاملين الفائقين هو ضمان أن شكل المنطقة الممسوحة المولدة يبقى متسقًا تقريبًا مع شكل الكائن المسمى الأصلي.

عندما تكون شكل المنطقة المحذوفة مشابهًا لشكل صندوق الحدود المستهدف، يكون النموذج أكثر احتمالًا أن يدرك المنطقة المحذوفة كتغير طبيعي أو حجب للهدف أثناء معالجة هذه الصور المعززة، بدلاً من أن تكون تشتيتًا غير ذي صلة تمامًا. تساعد هذه الاتساق في الشكل النموذج على تعلم كيفية التكيف مع التغيرات في شكل الهدف، مما يعزز من قوته في مواجهة تغييرات الشكل. إذا كان شكل المنطقة المحذوفة يختلف بشكل كبير عن شكل الهدف، فقد يؤدي ذلك إلى إدخال تشوهات شكل غير ضرورية، مما قد يضلل النموذج في تعلم ميزات الهدف. من خلال الحفاظ على اتساق المنطقة المحذوفة مع شكل الهدف، يمكن تقليل هذه التشوهات غير الضرورية، مما يسمح للنموذج بالتركيز أكثر على تعلم الخصائص الأساسية للهدف. من خلال الالتزام بالمبادئ الثلاثة المذكورة أعلاه، يمكن الحفاظ على المناطق المحذوفة المولدة عشوائيًا ضمن فترة ونطاق معقولين، ويجب أن يلبي الخوارزمية جميع الشروط الثلاثة أثناء التنفيذ. إذا لم يكن الأمر كذلك، فسوف تستمر في توليد نقطة عشوائية على صندوق الحدود المسمى حتى تنتج منطقة محذوفة مقبولة.

\section*{شبكة العمود الفقري متعددة المقاييس خفيفة الوزن}

توضح الشكل 4 الإطار العام لخوارزمية الكشف عن الأجسام المقترحة لعناصر الجداريات المستخرجة من الصين القديمة. في هذه الخوارزمية، يتم أولاً تعزيز مجموعة بيانات الجداريات من خلال نموذج تعزيز الصور العشوائي التكيفي المقترح لتوسيع مجموعة بيانات التدريب. بعد ذلك، يتم إدخال مجموعة بيانات صور الجداريات المعززة في شبكة استخراج الميزات متعددة المقاييس الخفيفة المقترحة لاستخراج ميزات الهدف. ثم يتم تغذية الميزات المستخرجة في نموذج استخراج الميزات الدلالية للحصول على معلومات عالية المستوى عن أهداف عناصر الجداريات. أخيرًا، يتم التنبؤ بمواقع وفئات أهداف عناصر الجداريات بواسطة شبكة تلافيفية كاملة.

يتكون الشبكة الخفيفة متعددة المقاييس من جزئين: كتلة الساق وكتلة المرحلة. الوظيفة الأساسية لكتلة الساق هي إجراء تقليل مكاني لحجم الصور المدخلة من خلال عمليات الالتفاف والتجميع. تقلل هذه العملية من حجم الصور مع زيادة عدد قنوات الميزات لتعزيز عمق وعرض تمثيل الميزات. كما أنها تقلل من الحمل الحسابي للنموذج من خلال الحفاظ على عدد ثابت من القنوات الداخلية المتداولة. تقلل هذه الوحدة بشكل كبير من العبء الحسابي دون التأثير الملحوظ على القدرة التعبيرية للميزات. تقوم كتلة المرحلة بمزيد من تحسين الميزات المدخلة من وحدة استخراج الميزات لكتلة الساق. تزيد تدريجياً من عدد قنوات الميزات باستخدام نهج تكديس القنوات وتستخدم تقنية دمج الميزات متعددة المقاييس التي تجمع بين ميزات التفاصيل منخفضة المستوى مع المعلومات الدلالية عالية المستوى. وهذا يسمح للنموذج بالحصول على فهم أكثر شمولاً لمحتوى الصورة.

توضح الشكل 5 هيكل كتلة الساق في الشبكة المقترحة لاستخراج الميزات متعددة المقاييس الخفيفة. تنقسم كتلة الساق إلى وحدتين أصغر، وهما كتلة الساق-1 وكتلة الساق-2. في كتلة الساق-1، يكون حجم الصورة المدخلة هو . بعد إجراء عملية الالتفاف بحجم نواة قدره ، وخطوة قدرها 2، و32 قناة، يتم الحصول على خريطة ميزات بحجم . تخضع خريطة الميزات الناتجة لاستخراج الميزات المزدوجة والتداول: يتضمن أحد المسارات عملية الالتفاف بحجم نواة قدره ، وخطوة قدرها 1، و32 قناة، بينما يتضمن المسار الآخر أولاً إجراء عملية الالتفاف بحجم نواة قدره ، وخطوة قدرها 1، و32 قناة، تليها عملية الالتفاف بحجم نواة قدره ، وخطوة قدرها 1، و32 قناة. بعد عمليات الالتفاف، يتم دمج خرائط الميزات من كلا المسارين باستخدام عملية دمج الميزات عنصرًا بعنصر، تليها عملية الالتفاف .

في كتلة الساق-2، تخضع خريطة الميزات المستخرجة من كتلة الساق-1 أولاً لعملية الالتفاف بحجم نواة قدره ، وخطوة قدرها 1، و32 قناة. ثم تخضع خريطة الميزات لاستخراج الميزات المزدوجة

الشكل 5 | مخطط الهيكل الداخلي لكتلة الساق.
الشكل 6 | مخطط الإطار لكتلة المرحلة.
وتداول مرة أخرى. يقوم أحد المسارات بإجراء عملية تجميع قصوى بحجم نواة قدره ، وخطوة قدرها 2، و32 قناة، بينما يتكون المسار الآخر من عملية الالتفاف بحجم نواة قدره ، وخطوة قدرها 1، و32 قناة، تليها عملية الالتفاف أخرى بحجم نواة قدره ، وخطوة قدرها 2، و32 قناة. أخيرًا، يتم دمج الميزات من كلا المسارين من خلال التراص، تليها عملية الالتفاف ، مما يؤدي إلى خريطة الميزات النهائية لكتلة الساق.
في كتلة الساق، تخضع خرائط الميزات لنهج مزدوج المسار لاستخراج الميزات، حيث يستخدم كل مسار عمليات الالتفاف بأحجام نواة مختلفة. تم تنفيذ هذا التصميم المزدوج المسار بشكل استراتيجي لالتقاط التفاصيل المحلية والنسيجية داخل الصور بشكل فعال. في الوقت نفسه، يقلل من الأبعاد المكانية لخرائط الميزات ويزيد من عدد القنوات، مما يساعد في ترميز معلومات أكثر تفصيلاً وتمييزًا. تسهل إضافة نوى الالتفاف الأصغر في أحد المسارات تقليل التعقيد الحسابي مع الاحتفاظ بمعلومات الميزات الحيوية، مما يعزز الكفاءة. يساهم تصميم هذين المسارين المتوازيين داخل كتلة الساق بشكل كبير في تقليل كل من الحمل الحسابي وعدد المعلمات للنموذج الكلي. والنتيجة هي نموذج أكثر انسيابية وكفاءة يحافظ على أداء عالٍ. تقوم كتلة الساق-1 بشكل خاص بإجراء دمج ميزات عنصرًا بعنصر متعدد المقاييس. تتيح هذه التقنية المبتكرة إجراء حسابات وتفاعلات مباشرة بين خرائط الميزات من طبقات أو مصادر مختلفة في المواقع المقابلة. تستخدم كتلة الساق-2 التراص لدمج الميزات متعددة المقاييس. تتضمن هذه الطريقة خياطة خرائط الميزات من طبقات مختلفة على طول بُعد القناة، مما يجمع بين تمثيلات الميزات المتنوعة في واحدة. توفر خريطة الميزات المجمعة هذه تمثيلًا أغنى وأكثر دقة للبيانات المدخلة، مما يعزز قدرة النموذج على اكتشاف وتحليل الأنماط والهياكل المعقدة.
توضح الشكل 6 إطارًا أكثر تفصيلاً لتداول ميزات كتلة المرحلة. كما هو موضح في الشكل 6، داخل كتلة المرحلة، نستخدم نهج تكديس القنوات لتعزيز عدد القنوات في خرائط الميزات تدريجياً. يتيح هذا النهج الحصول التدريجي على ميزات مستهدفة أكثر دقة مع تقليل الحمل الحسابي للنموذج بشكل كبير وتحسين كفاءة الكشف. في الهياكل السابقة لاستخراج ميزات الشبكات العصبية الالتفافية، كان زيادة عدد قنوات الميزات أثناء الاستخراج والتداول يتبع عادة نمط نمو ثابت نسبيًا، غالبًا في قوى اثنين. على سبيل المثال، قد يزيد عدد قنوات الميزات من 64 إلى 128، ثم إلى 256، وهكذا إلى 512. يمكن أن يؤدي هذا النمط الأسي في عدد قنوات الميزات إلى فقدان المعلومات المتعلقة بالميزات المستهدفة الصغيرة. بالإضافة إلى ذلك، تؤدي هذه الطريقة إلى عدد كبير من معلمات النموذج، مما يقلل من كفاءة التدريب والاستدلال. في هذه الورقة، نقترح شبكة خفيفة لاستخراج الميزات تعتمد على تكديس القنوات، والتي تحصل على ميزات مستهدفة أكثر تفصيلاً من خلال زيادة عدد قنوات الميزات تدريجياً. على عكس الطرق السابقة لاستخراج الميزات وتداول القنوات، في هذه الورقة، نستخدم شبكة تكديس ميزات خفيفة للحصول على ميزات أكثر دقة تدريجياً. يضمن هذا النهج ليس فقط القدرة على استخراج ميزات أهداف العناصر الجدارية القديمة ولكن أيضًا تقليل الحمل الحسابي للنموذج. يقلل هذا النهج من عدد معلمات النموذج مع تعزيز دقة الكشف. كما هو موضح في الشكل 6، داخل الكتل الثلاث الصغيرة الأولى من كتلة المرحلة، يزيد عدد قنوات الميزات في كل عملية التواء بمقدار 16، بينما في الكتل الأخيرة، يزيد بمقدار 32 مع كل عملية التواء.
توضح الشكل 7 هيكل الشبكة لاستخراج الميزات وتداولها داخل كتلة المرحلة 1-1. في كتلة المرحلة 1-1، يتم استخدام الميزات المستخرجة من كتلة الساق 2 كخريطة الميزات المدخلة، والتي تخضع لثلاثة
الشكل 7 | مخطط الإطار لكتلة المرحلة 1-1.
الشكل 8 | نموذج دمج الميزات الدلالية السياقية.
فروع لاستخراج الميزات وتداولها. تقوم الفرع الأول بمعالجة خريطة الميزات من خلال الالتفاف تليها عملية الالتفاف للتقليل. تطبق الفرع الثاني عملية تجميع قصوى للتقليل. يتكون الفرع الثالث من عملية التواء، وعميلة الالتفاف للتقليل، وعملية التواء أخرى. تستخرج هذه الفروع الثلاث ميزات وتداولها من مقاييس مختلفة، مما يضمن أن النموذج العميق يمكنه تحقيق مجال استقبال أكبر مع مراعاة معلومات الميزات للأهداف الصغيرة بشكل كافٍ. يساعد هذا النهج النموذج في الانتباه في الوقت نفسه إلى المعلومات من مقاييس مختلفة عند التعامل مع مشاهد معقدة. بالإضافة إلى ذلك، فإن الحفاظ على نفس عدد القنوات للمدخلات والمخرجات أثناء عمليات الالتفاف يقلل من استهلاك الذاكرة. لذلك، نضمن أن تحتوي القنوات الداخلية للميزات على عدد ثابت أثناء استخراج الميزات. علاوة على ذلك، داخل كتلة الساق، نستفيد بشكل كامل من نوى الالتفاف لتسهيل تفاعل المعلومات عبر القنوات. لا تعزز عملية الالتفاف بشكل فعال التعبيرية الخطية للنموذج وقدرته على استخراج ميزات الأهداف الصغيرة فحسب، بل تقلل أيضًا بشكل كبير من الحمل الحسابي للنموذج.

نموذج تعزيز الميزات الدلالية

في مهام كشف الكائنات، يمكن أن تساعد معلومات الميزات الدلالية النماذج العميقة في فهم الصور وتفسيرها بشكل أفضل، مما يمكّن الخوارزميات من تحديد الأهداف بدقة في سيناريوهات الكشف المعقدة. في هذه الورقة، نقوم بإنشاء نموذج لاستخراج الميزات الدلالية للأهداف لعناصر الجداريات الصينية القديمة، والذي يتضمن دمج معلومات السياق
وحدة و وحدة انتباه متبقية، مما يمكّن خرائط الميزات المدخلة من الخضوع لاستخراج الميزات والدمج من خلال هذه الوحدات، وبالتالي تعزيز ميزات المعلومات الدلالية. يتضمن نموذج استخراج الميزات الدلالية المقترح في هذه الورقة وحدة دمج معلومات السياق ووحدة انتباه متبقية. تلتقط هاتان الوحدتان لاستخراج الميزات المعلومات الدلالية بين أهداف عناصر الجداريات القديمة عبر أبعاد مختلفة، وفي النهاية تحصل على معلومات ميزات دلالية عالية المستوى لأهداف العناصر من خلال دمج الميزات.
تتمتع وحدة دمج معلومات السياق بالقدرة على دمج الميزات من مستويات أو مقاييس مختلفة، مما يساعد على التقاط المعلومات متعددة المقاييس في الصورة. وهذا يمكّن النموذج من الحصول على فهم أكثر شمولاً لمحتوى الصورة، مما يحسن دقة الكشف عن الكائنات المستهدفة. توضح الشكل 8 وحدة دمج معلومات السياق المقترحة، حيث نقوم بمزيد من استخراج ودمج الميزات المستخرجة من كل كتلة مرحلة. على وجه التحديد، في الكتل الثلاث الأولى، نطبق عملية تجميع قصوى بحجم ، وخطوة 2، مما يضمن اتساق أبعاد خرائط الميزات. بعد ذلك، يتم تطبيق عملية تلافيف بحجم نواة ، وخطوة 1، و512 قناة لزيادة أبعاد خرائط الميزات. في الكتل المرحلية الأخيرة، نطبق أولاً عملية تلافيف بحجم ، وخطوة 1، ونفس عدد القنوات، تليها عملية تلافيف أخرى بحجم ، مع خطوة 1 و512 قناة مخرجة. بعد هذه العمليات، تنتج كل كتلة مرحلة خريطة ميزات بحجم
الشكل 9 | نموذج استخراج الميزات مع الانتباه المتبقي.
. نقوم بدمج خرائط الميزات النهائية بهذا الحجم من كل كتلة مرحلة ونقوم بإجراء عملية تلافيف بأبعاد للحصول على تمثيل ميزات معلومات السياق النهائي. في سياق كشف عناصر الجداريات، غالبًا ما تكون العناصر المستهدفة موجودة ضمن معلومات خلفية معقدة. تساعد وحدة دمج معلومات السياق المقترحة النموذج على معالجة معلومات الخلفية بشكل أفضل وتمييز بين المقدمة والخلفية، مما يقلل من كل من الإيجابيات الكاذبة والكشف المفقود.
يجمع نموذج استخراج الميزات مع الانتباه المتبقي مزايا كل من الشبكات المتبقية وآليات الانتباه. تعالج الشبكات المتبقية صعوبات تدريب الشبكات العميقة من خلال إدخال اتصالات متبقية، مما يمكّن الشبكة من التعمق وبالتالي تعلم تمثيلات ميزات أكثر تجريدًا وتعقيدًا. تركز آلية الانتباه تلقائيًا على الأجزاء المهمة من الميزات المدخلة، متجاهلة المعلومات غير ذات الصلة، مما يعزز بشكل أكبر دقة وكفاءة استخراج الميزات. في مهمة كشف أهداف عناصر الجداريات الصينية القديمة، تمكّن هذه القدرة الفعالة على استخراج الميزات النموذج من تعلم معلومات الصورة والملمس المعقدة داخل الجداريات، وإظهار حساسية قوية لتغيرات الألوان داخل الجداريات.
يوضح الشكل 9 إطار عمل الشبكة لنموذج استخراج الميزات مع الانتباه المتبقي المقترح. كما هو موضح في الشكل 9، المدخلات إلى هذه الوحدة هي خريطة الميزات المستخرجة بواسطة وحدة استخراج الميزات الخفيفة السابقة. تمر خريطة الميزات التي تم الحصول عليها سابقًا أولاً بعملية استخراج ميزات متبقية، تليها عملية تلافيف بحجم نواة وخطوة 2. هذا يقلل من حجم خريطة الميزات إلى نصف أبعادها الأصلية، والتي يتم إدخالها بعد ذلك في كتلة متبقية لمزيد من المعالجة. بعد ذلك، يتم تطبيق عملية تجميع قصوى بحجم نواة وخطوة 2، وتخضع خريطة الميزات الناتجة لحساب متبقي. في مرحلة دمج الميزات لنموذج استخراج الميزات مع الانتباه المتبقي المقترح، نستخدم تكبير الاستيفاء الثنائي لزيادة خريطة الميزات المكتسبة ونقوم بدمج الميزات. من خلال استخدام الاستيفاء الثنائي للتكبير، يمكن تكبير خريطة الميزات عالية المستوى إلى نفس دقة خريطة الميزات منخفضة المستوى، مما يمكّن من دمج الميزات بشكل فعال. تدمج هذه الطريقة الميزات من مستويات مختلفة، مما لا يستعيد فقط دقة خرائط الميزات ولكن أيضًا يكمل معلومات السياق للأهداف. يمكن لنموذج استخراج الميزات مع الانتباه المتبقي المقترح، بفضل قدراته القوية في استخراج الميزات، استخراج معلومات ميزات مفيدة من هذه الصور التالفة للجداريات، مما يعزز من قوة النموذج. بالإضافة إلى ذلك، تمكّن آلية الانتباه النموذج من التركيز أكثر على الميزات الرئيسية لعناصر الجداريات، مما يسرع من سرعة الكشف مع ضمان دقة الكشف.

النتائج

في هذا القسم، سنقوم بالتحقق من فعالية نموذج كشف أهداف العناصر المقترح على مجموعة بيانات كشف أهداف عناصر الجداريات الصينية القديمة التي تم إنشاؤها. على وجه التحديد، سنقوم بإجراء سلسلة من التجارب الشاملة للتحقق من مساهمات نموذج تعزيز صورة الجداريات من خلال المسح العشوائي، وشبكة استخراج الميزات متعددة المقاييس الخفيفة، ونموذج تعزيز الميزات الدلالية في دقة الكشف وسرعته ضمن النموذج الكلي.
الجدول 1 | تأثيرات المكونات المختلفة على الأداء
المكونات نتائج الكشف
النموذج الأصلي
نموذج المسح العشوائي التكيفي
شبكة العمود الفقري الخفيفة
ميزة السياق الدلالية
ميزة دلالية متبقية
mAP (متوسط الدقة) 76.7% 82.6% 84.9% 86.2% 87.5%
FLOPs (تكلفة حسابية) 478 م 478 م 265 م 268 م
الإطارات في الثانية (FPS) 21 21 45 39 35
علاوة على ذلك، سنقوم بمقارنة وتحليل نتائج الكشف لنموذج كشف أهداف عناصر الجداريات المقترح مع العديد من نماذج كشف الكائنات الحديثة الأخرى على مجموعة بيانات الجداريات. البيئة البرمجية والعتادية المستخدمة في تجارب هذه الورقة هي كما يلي: إطار التعلم العميق هو Pytorch، ونظام التشغيل هو Ubuntu 16.04 (Canonical، لندن، المملكة المتحدة)، ونموذج المعالج هو i9-11900k (3.5 جيجاهرتز)، ونموذج وحدة معالجة الرسوميات هو NVIDIA RTX4090 (24 جيجابايت ذاكرة)، والذاكرة هي 64 جيجابايت (DDR5 4800 ميجاهرتز).
في هذه الورقة، قمنا بتحسين دقة وسرعة كشف عناصر الجداريات الصينية القديمة في مشاهد معقدة من خلال طرق مثل نموذج تعزيز صورة المسح العشوائي التكيفي، وشبكة استخراج الميزات متعددة المقاييس الخفيفة، ونموذج تعزيز الميزات الدلالية. للتحقق من تأثير الوحدات المقترحة على نتائج الكشف، قمنا بإجراء العديد من التجارب لإظهار دقة وتكلفة حسابية لكشف عناصر الجداريات القديمة تحت مجموعات مختلفة من الوحدات. كما هو موضح في الجدول 1، يمكن أن يحاكي نموذج تعزيز صورة المسح العشوائي التكيفي المقترح العيوب التي تواجهها الجداريات في سيناريوهات الكشف الحقيقية. تنتج هذه الطريقة كمية كبيرة من بيانات العينة التي تلبي متطلبات التدريب، مما يعزز من فهم نموذج كشف الكائنات العميق لصور الجداريات. لقد حسّن إدخال هذه الوحدة دقة الكشف بنسبة . تعزز شبكة استخراج الميزات متعددة المقاييس الخفيفة المقترحة قدرة النموذج على استخراج ميزات أهداف عناصر الجداريات في مشاهد معقدة من خلال طرق مثل تكديس القنوات، ونقل الميزات الداخلية الموحدة، واستخراج الميزات متعددة المقاييس. يضمن ذلك أن النموذج يلتقط ميزات دقيقة للأهداف على مقاييس مختلفة مع تقليل كل من الحمل الحسابي وعدد المعلمات للنموذج. لقد حسّن إدخال هذه الوحدة دقة الكشف بنسبة وخفض الحمل الحسابي بنسبة تأخذ وحدة دمج معلومات السياق في الاعتبار بشكل شامل البيئة العامة والتفاصيل المحلية للجداريات، مما يعزز من قوة التعرف على الأهداف في البيئات المعقدة. إن إدخال هذه الوحدة يزيد من دقة الكشف مع إضافة عبء حسابي ضئيل. بالإضافة إلى ذلك، فإن إدخال وحدة آلية الانتباه المتبقية قد حسّن أيضًا بشكل فعال من دقة الكشف في النموذج. على الرغم من أن نموذج الميزات الدلالية يتسبب في زيادة العبء الحسابي، إلا أنه حقق توازنًا أكثر ملاءمة بين دقة الحساب وتكلفة الحساب. في النهاية، يحقق نموذج الكشف عن عناصر الجداريات الصينية القديمة المقترح دقة كشف تبلغ 87.5% على مجموعة البيانات التي تم إنشاؤها، مع FLOPs تبلغ فقط 268 مليون.
لتعزيز فعالية خوارزمية الكشف عن عناصر الجداريات المقترحة، قمنا بإجراء تحليل مقارن لنتائج الكشف الخاصة بها مقابل العديد من خوارزميات الكشف عن الأجسام الحديثة الأخرى على مجموعة البيانات التي تم إنشاؤها. تقدم الجدول 2 دقة الكشف، ووقت الكشف، ومقاييس أخرى لمختلف خوارزميات الكشف عن الأجسام المعتمدة على الميزات الخفيفة أو الدلالية على مجموعة بيانات الجداريات. كما هو موضح في الجدول 2، فإن خوارزمية الكشف عن عناصر الجداريات المقترحة في هذه الورقة، والتي تعتمد على شبكة هيكلية لاستخراج الميزات متعددة المقاييس ونموذج تعزيز الميزات الدلالية، تظهر مزايا كبيرة في كل من دقة الكشف وسرعة الكشف. تلبي هذه الخوارزمية احتياجات الكشف عن عناصر الجداريات في المشاهد المعقدة.
الجدول 2 | نتائج الكشف عن الخوارزميات المختلفة على مجموعة بيانات الجداريات التي تم إنشاؤها
طريقة معدل الاسترجاع معدل الدقة درجة F1 معدل الدقة المتوسطة وقت الكشف (ثواني)
سام نت 86.7% 87.9٪ 0.873 85.6٪ 0.109
SEConv-MSFE 83.5% 84.1٪ 0.838 ٨٣.٢٪ 0.097
ADMNet 85.7٪ 87.6% 0.866 86.4% 0.083
SFSANet 85.8% ٨٨.٣٪ 0.870 86.7% 0.186
شبكة SCF ٨٣.٦٪ 85.2% 0.857 84.6٪ 0.235
SLMS-SSD ٨٣.٢٪ ٨٤.٧٪ 0.839 ٨٤.٢٪ 0.267
طريقتنا 87.6% 89.3٪ 0.884 87.5% 0.022
الجدول 3 | نتائج الكشف عن فئات عناصر الجداريات المختلفة.
فئة عدد العينات معدل الاسترجاع معدل الدقة معدل الدقة المتوسطة وقت الكشف (مللي ثانية)
ذكر 8109 91.3% 93.6% 91.8٪ 1.98
أنثى 5008 90.2% 91.5% 89.7% 2.13
وحش ٣٣٣٩ 86.2% 85.7٪ 85.3% ٢.٤٧
زهرة 2862 76.8٪ 79.3% 78.9% ٢.٢٦
طائر 2623 73.8٪ 76.9% 75.2% 2.35
سحابة 1901 71.4٪ 74.9% 73.6% 2.42
توفير دعم فني قوي للدراسة والحفاظ اللاحق على عناصر الجداريات. على وجه التحديد، في مجموعة بيانات عناصر الجداريات الصينية القديمة التي تم إنشاؤها، حقق خوارزمية الكشف المستهدفة المقترحة معدل استرجاع قدره معدل دقة ، ودرجة F1 تبلغ 0.884، ومتوسط الدقة (mAP) لـ بمتوسط زمن اكتشاف يبلغ 0.022 ثانية فقط لكل صورة.
في هذه المهمة الخاصة بالكشف، توجد اختلافات كبيرة في عدد العينات المعلّمة بين فئات العناصر الجدارية المختلفة، كما أن هناك أيضًا تباين كبير في تقديم الميزات داخل الفئة الواحدة. ونتيجة لذلك، تظهر الفئات الستة من العناصر التي تم إنشاؤها في مجموعة البيانات اختلافات ملحوظة في دقة الكشف وسرعته. تقدم الجدول 3 مقاييس مثل دقة الكشف ووقت الكشف لفئات العناصر المختلفة على نموذج الكشف المقترح. كما هو موضح في الجدول 3، هناك تفاوتات كبيرة في عدد العينات ونتائج الكشف بين فئات العناصر الجدارية. على وجه الخصوص، تتمتع فئات الذكور والإناث بعدد أكبر من العينات مع تباينات داخل الفئة نسبياً صغيرة، مما يؤدي إلى دقة وسرعة كشف أعلى بكثير مقارنة بالفئات الأخرى. في المقابل، تحتوي فئات الزهور والطيور والسحب على عدد أقل نسبيًا من العينات المعلّمة، مصحوبة باختلافات كبيرة في الميزات داخل الفئة، مما يؤدي إلى دقة كشف أقل.
توضح الجدول 4 تأثير نموذج تعزيز المسح العشوائي التكيفي المقترح، ونموذج الشبكة الخلفية الخفيفة، ونموذج تعزيز الميزات الدلالية على دقة الكشف وسرعته لأنواع مختلفة من عناصر الجداريات. كما هو موضح في الجدول 4، يمكن لنموذج تعزيز المسح العشوائي التكيفي تحسين دقة الكشف عن العناصر المستهدفة بشكل فعال. يظهر نموذج الشبكة الخلفية الخفيفة مزايا كبيرة في تعزيز سرعة الكشف. على الرغم من أن نموذج تعزيز الميزات الدلالية يضحي ببعض سرعة الكشف، إلا أنه يحقق نتائج جيدة من حيث تحسين قدرة استخراج الميزات المستهدفة ودقة الكشف.
تقدم الشكل 10 نتائج الكشف المرئية لفئات عناصر الجداريات المختلفة. كما هو موضح في الشكل 10، فإن نموذج كشف عناصر الجداريات المقترح قادر على الكشف بفعالية عن فئات مثل الذكر، الأنثى، الوحش، الطائر، الزهرة، والسحاب على الجداريات. لكل نتيجة كشف، يوفر النموذج درجة ثقة تشير إلى مدى تأكده من التنبؤ.
الجدول 4 | تأثير النماذج على دقة الكشف وسرعته لفئات مختلفة من العناصر
فئة المسح العشوائي التكيفي شبكة العمود الفقري خفيفة الوزن نموذج الميزات الدلالية معدل الدقة المتوسطة وقت الكشف
ذكر × × ٨٨.٦٪ 2.67 مللي ثانية
× 89.4% 1.72 مللي ثانية
× ٨٨.٧٪ 2.28 مللي ثانية
أنثى × × 85.2% 3.52 مللي ثانية
× 87.2% 1.86 مللي ثانية
× 86.2% 2.78 مللي ثانية
وحش × × 82.6% 3.96 مللي ثانية
× ٨٣.٨٪ 2.08 مللي ثانية
× 81.9% 1.89 مللي ثانية
زهرة × × 73.2% 4.13 مللي ثانية
× 72.8% 1.64 مللي ثانية
× 75.2% 2.13 مللي ثانية
طائر × × 69.5% 5.36 مللي ثانية
× 70.3% 2.06 مللي ثانية
× 73.2% 2.28 مللي ثانية
سحابة × × 65.3% 4.98 مللي ثانية
× 66.7% 2.14 مللي ثانية
× 70.6% 2.36 مللي ثانية
تشير درجة الثقة الأعلى إلى أن النموذج أكثر ثقة في أن التنبؤ صحيح. تعتبر نتائج الكشف المرئية هذه ذات أهمية كبيرة لأبحاث الجداريات، والحماية، والترميم، والتقدير الفني. يمكن أن تساعد الباحثين في تحليل العناصر المكونة، والأساليب الفنية، والخلفيات التاريخية، ومعلومات أخرى عن الجداريات بدقة أكبر، مما يوفر دعماً قوياً لأبحاث الجداريات وحمايتها بشكل متعمق. في الوقت نفسه، بالنسبة لعشاق الفن والنقاد، فإن هذه العروض المرئية تعزز بلا شك فهمهم وتقديرهم لفن الجداريات.
تظهر الشكل 11 نتائج الكشف عن أهداف عناصر الجداريات في مشاهد معقدة وصعبة. كما هو موضح في الشكل 11، تحتوي هذه المشاهد على أهداف كثيفة، مع عدد كبير من الأهداف وميزات تمييز محدودة لكل هدف فردي. بالإضافة إلى ذلك، تظهر الجداريات عيوبًا مثل التلف والتقشير، مما يزيد بشكل كبير من صعوبة الكشف عن أهداف العناصر. في هذه الورقة، نقوم بتحسين قدرة الكشف عن أهداف عناصر الجداريات التالفة من خلال خوارزمية تعزيز التمويه العشوائي التكيفية لتوسيع حجم العينة، ونحسن دقة وسرعة الكشف باستخدام شبكة هيكلية خفيفة ونموذج لاستخراج الميزات الدلالية. كما هو موضح في الشكل 11، على الرغم من أن تعقيد المشاهد يؤدي إلى انخفاض الثقة في الكشف عن الأهداف، فإن الخوارزمية المقترحة تحقق بنجاح كشفًا فعالًا عن أهداف عناصر الجداريات في هذه البيئات المعقدة والصعبة. علاوة على ذلك، من خلال تحليل نتائج الكشف عن أهداف عناصر الجداريات، نحصل على رؤى أعمق حول العناصر التركيبية، والميزات الأسلوبية، والتغيرات التاريخية للجداريات، مما يوفر معلومات ودعم بيانات أغنى للبحث الأكاديمي والحفاظ على الجداريات.
على الرغم من أن نموذج كشف عناصر الجداريات المقترح في هذه الورقة يظهر أداءً جيدًا في الكشف على مجموعة البيانات التي تم إنشاؤها، إلا أن فعاليته على مجموعات بيانات الجداريات ذات الخلفيات الثقافية والأساليب المختلفة لم يتم التحقق منها. في عملنا المستقبلي، لتعزيز قابلية تعميم الخوارزمية المقترحة، يمكننا أولاً توسيع مجموعة بيانات الجداريات لتشمل جداريات بأنماط وأنواع متنوعة، مثل دمج الجداريات البوذية القديمة من دونهوانغ، الصين، والجداريات الفنية الأوروبية القديمة. بالإضافة إلى ذلك، سنقوم بإجراء تصنيف أكثر دقة لأنواع العناصر داخل الجداريات، على سبيل المثال، من خلال توفير تعليقات توضيحية أكثر تفصيلاً لأنواع مختلفة من الشخصيات، مما يمكّن النموذج من استخراج وتعلم الميزات الأساسية لفئات مختلفة. علاوة على ذلك،
الشكل 10 | نتائج الكشف المرئية لفئات عناصر الجداريات المختلفة.
الشكل 11 | نتائج الكشف عن التصور في سيناريوهات معقدة وصعبة.
سنحاول استخدام نماذج الانتشار لاكتشاف عناصر الجداريات، مما يسمح للنموذج بالتعرف على أنواع الكائنات غير المعلّمة وبالتالي تحسين قابلية التطبيق وموثوقية نموذج الاكتشاف.

الخاتمة والمناقشة

في هذه الورقة، نقترح نموذجًا للتعرف على وفهم العناصر في الجداريات القديمة التي تم اكتشافها في الصين، مما يحقق اكتشافًا فعالًا لعناصر الجداريات في بيئات معقدة مختلفة وسيناريوهات اكتشاف صعبة. في عملنا، أنشأنا أولاً مجموعة بيانات كبيرة الحجم لاكتشاف الأهداف للجداريات القديمة، والتي تتميز بفترة زمنية واسعة.
عدد هائل من العينات، وتنوع غني من الفئات المعلّمة. لتعزيز عدد عينات الصور الجدارية، قمنا بإنشاء نموذج تكبير عشوائي للتآكل للصور الجدارية، قادر على توليد مناطق تآكل عشوائية لمحاكاة الأضرار التي قد توجد في الجداريات، مما يجبر النموذج على تعلم القدرة على التعرف على الأهداف العنصرية وفهمها من خلال معلومات الصورة غير المكتملة. بالإضافة إلى ذلك، قمنا بتطوير شبكة هيكلية خفيفة متعددة المقاييس لاستخراج ميزات العناصر الجدارية. يقلل هذا النموذج بشكل كبير من الحمل الحاسوبي مع الحفاظ على دقة الكشف من خلال شبكة عصبية تلافيفية خفيفة ودمج ميزات متعددة المقاييس.
طرق. علاوة على ذلك، لتعزيز الفهم الدلالي لعناصر الجداريات، قدمنا نموذج تحسين الميزات الدلالية لعناصر الجداريات، الذي يحسن الفهم الدلالي ويزيد من دقة الكشف من خلال المعلومات السياقية وآلية الانتباه المتبقية. يحقق خوارزمية كشف عناصر الجداريات القديمة المقترحة في هذه الورقة معدل استرجاع قدره معدل دقة متوسط دقة المقياس (mAP) من ، ومتوسط زمن الكشف 0.022 ثانية لكل صورة على مجموعة البيانات التي تم إنشاؤها. تظهر هذه النتائج أن الطريقة المقترحة تتفوق على العديد من خوارزميات كشف الكائنات الحديثة الأخرى من حيث دقة الكشف والسرعة.
ومع ذلك، لا تزال الأبحاث المقدمة في هذه الورقة تعاني من بعض النواقص والقيود. بينما الطريقة المقترحة قادرة على الكشف بدقة عن العناصر المستهدفة على اللوحات الجدارية، إلا أنها لا تستطيع تحديد المعلومات التاريخية والسلالية المرتبطة بتلك العناصر بدقة. على سبيل المثال، لا يمكن للطريقة تحديد عصر الشخصيات بناءً على أغطية الرأس والملابس الخاصة بهم. علاوة على ذلك، فإن جانبًا حاسمًا من البحث الرقمي حول اللوحات الجدارية الصينية القديمة هو الترميم الافتراضي، وعلى الرغم من أن الطريقة المقترحة في هذه الورقة توفر بعض المعلومات القيمة لترميم اللوحات الجدارية الافتراضية، إلا أنه لا يمكن تطبيقها مباشرة لهذا الغرض. في الأبحاث المستقبلية، سنستكشف بعمق المعلومات المتعلقة بالميزات الدلالية لعناصر اللوحات الجدارية، مثل السلالات والأساليب الفنية والخلفيات الثقافية التي تتعلق بها. في الوقت نفسه، استنادًا إلى مجموعة البيانات التي تم إنشاؤها من اللوحات الجدارية الصينية القديمة المستخرجة من المواقع الأثرية، سنركز على الترميم الافتراضي وإعادة البناء. سنستخدم تقنيات رؤية الكمبيوتر لاستخراج ميزات الشكل والملمس من صور اللوحات الجدارية ودمجها بسلاسة مع المناطق المحيطة لتحسين القوام الناتجة. بالإضافة إلى ذلك، من خلال تطبيق مبادئ الترميم الفني التقليدي بالتزامن مع مخرجات رؤية الكمبيوتر، سنقوم بإعادة بناء الألوان والأشكال والتفاصيل بشكل معقول.

توفر البيانات

لم يتم إنشاء أو تحليل أي مجموعات بيانات خلال الدراسة الحالية.
تاريخ الاستلام: 5 نوفمبر 2024؛ تاريخ القبول: 4 يناير 2025؛
نُشر على الإنترنت: 11 مارس 2025

References

  1. Jia, Y. et al. Multi-analytical investigations on a tomb mural painting of the Yuan dynasty in Chongqing, China. Vib. Spectrosc. 124, 103457 (2023).
  2. Dong, S. et al. Multi-Method Analysis of Painting Materials in Murals of the North Mosque (Linqing, China). Coatings 13, 1298 (2023).
  3. Guo, R. et al. Rare colour in medieval China: Case study of yellow pigments on tomb mural paintings at Xi’an, the capital of the Chinese Tang dynasty. Archaeometry 64, 759-778 (2022).
  4. Cao, J., Cui, H., Zhang, Z. & Zhao, A. Mural classification model based on high- and low-level vision fusion. Herit. Sci. 8, 121 (2020).
  5. Cao, J., Cui, H., Zhang, Q. & Zhang, Z. Ancient Mural Classification Method Based on Improved AlexNet Network. Stud. Conserv 65, 411-423 (2020).
  6. Chen Z., Rajamanickam L., Tian X. & Cao J. Application of Optimized Convolution Neural Network Model in Mural Segmentation. Appl Comput Intell Soft Comput. 2022, 5485117 (2022).
  7. Liu, W., Li, X. & Wu, F. Research on Restoration Algorithm of Tomb Murals Based on Sequential Similarity Detection. Sci Program. 2021, 6842353, (2021).
  8. Cheng, G. et al. Towards Large-Scale Small Object Detection: Survey and Benchmarks. IEEE Trans. Pattern Anal. Mach. Intell. 45, 13467-13488 (2023).
  9. Wu, L., Zhang, L., Shi, J., Zhang, Y. & Wan, J. Damage detection of grotto murals based on lightweight neural network. Comput Electr. Eng. 102, 108237 (2022).
  10. Sun, D., Zhang, J., Pan, G. & Zhan, R. Mural2Sketch: A Combined Line Drawing Generation Method for Ancient Mural Painting. 2018 IEEE International Conference on Multimedia and Expo (2018).
  11. Ni, X., Yu, Y., Zhao, H. & Li, Y. Mural Disease Detection Based on ConvUNeXt with Improved Up-Sampling and Feature Fusion. 2024 5th International Seminar on Artificial Intelligence, Networking and Information Technology (2024).
  12. . et al. A comprehensive dataset for digital restoration of Dunhuang murals. Sci. Data 11, 955 (2024).
  13. Cao, J., Yan, M., Jia, Y., Tian, X. & Zhang, Z. Application of a modified Inception-v3 model in the dynasty-based classification of ancient murals. EURASIP J. Adv. Signal Process 2021, 1-25 (2021).
  14. Cao, J., Jia, Y., Chen, H., Yan, M. & Chen, Z. Ancient mural classification methods based on a multichannel separable network. Herit. Sci. 9, 88 (2021).
  15. Huang, R., Feng, W., Fan, M., Guo, Q. & Sun, J. Learning multi-path CNN for mural deterioration detection. J. Ambient Intell. Hum. Comput 11, 3101-3108 (2017).
  16. Pan G., Sun D., Zhan R. & Zhang J. Mural Sketch Generation via Styleaware Convolutional Neural Network. CGI 2018: Proceedings of Computer Graphics International (2018).
  17. Yu, Z. et al. AGD-GAN: Adaptive Gradient-Guided and Depthsupervised generative adversarial networks for ancient mural sketch extraction. Expert Syst. Appl. 255, 124639 (2024).
  18. Wu, Z. et al. Enhanced Spatial Feature Learning for Weakly Supervised Object Detection. IEEE Trans. Neural Netw. Learn Syst. 35, 961-972 (2022).
  19. Wang, X., Song, N., Zhang, L. & Jiang, Y. Understanding subjects contained in Dunhuang mural images for deep semantic annotation. J. Doc. 74, 333-353 (2018).
  20. Zeng, Z., Sun, S., Sun, J., Yin, J. & Shen, Y. Constructing a mobile visual search framework for Dunhuang murals based on fine-tuned CNN and ontology semantic distance. Electron Libr. 40, 121-139 (2022).
  21. Wang, N., Wang, W., Hu, W., Fenster, A. & Li, S. Damage Sensitive and Original Restoration Driven Thanka Mural Inpainting. Pattern Recognition and Computer Vision. 142-154 (2020).
  22. Xu, Z. et al. MuralDiff: Diffusion for Ancient Murals Restoration on Large-Scale Pre-Training. IEEE Trans. Emerg. Top. Comput Intell. 8, 2169-2181 (2024).
  23. Wang, N., Wang, W., Hu, W., Fenster, A. & Li, S. Thanka Mural Inpainting Based on Multi-Scale Adaptive Partial Convolution and Stroke-Like Mask. IEEE Trans. Image Process 30, 3720-3733 (2021).
  24. Mei Y., Yang L., Wang M., Yu T. & Wu K. DunHuangStitch: Unsupervised Deep Image Stitching of Dunhuang Murals. IEEE Trans. Vis. Comput. Graph. Early Access (2024).
  25. Chen, Y., Fan, Z. & Liu, X. RPTK1: A New Thangka Data Set for Object Detection of Thangka Images. IEEE Access 9, 131696-131707 (2021).
  26. Dai, Y., Ma, F., Hu, W. & Zhang, F. SPGC: Shape-Prior-Based Generated Content Data Augmentation for Remote Sensing Object Detection. IEEE Trans. Geosci. Remote Sens. 62, 4504111 (2024).
  27. Dvornik, N., Mairal, J. & Schmid, C. On the Importance of Visual Context for Data Augmentation in Scene Understanding. IEEE Trans. Pattern Anal. Mach. Intell. 43, 2014-2028 (2021).
  28. Tang, Y. et al. AutoPedestrian: An Automatic Data Augmentation and Loss Function Search Scheme for Pedestrian Detection. IEEE Trans. Image Process. 30, 8483-8496 (2021).
  29. Chen, P. Y., Hsieh, J. W., Gochoo, M. & Chen, Y. S. Mixed Stage Partial Network and Background Data Augmentation for Surveillance Object Detection. IEEE Trans. Image Process 23, 23533-23547 (2022).
  30. Liu, Y., Zhang, X. Y., Bian, J. W., Zhang, L. & Cheng, M. M. SAMNet: Stereoscopically Attentive Multi-Scale Network for Lightweight Salient Object Detection. IEEE Trans. Image Process 30, 3804-3814 (2021).
  31. Zhou, Q. et al. Boundary-Guided Lightweight Semantic Segmentation With Multi-Scale Semantic Context. IEEE Trans. Multimed. 26, 7887-7900 (2024).
  32. Zhou, Q., Qu, Z. & Ju, F. A Lightweight Network for Crack Detection With Split Exchange Convolution and Multi-Scale Features Fusion. IEEE Trans. Intell. Veh. 8, 2296-2306 (2023).
  33. Yuan, Z. et al. A Lightweight Multi-Scale Crossmodal Text-Image Retrieval Method in Remote Sensing. IEEE Trans. Geosci. Remote Sens 60, 5612819 (2022).
  34. Li, Q., Sun, B. & Bhanu, B. Lite-FENet: Lightweight multi-scale feature enrichment network for few-shot segmentation. Knowl. Based Syst. 278, 110887 (2023).
  35. Dharejo, F. A. et al. SwinWave-SR: Multi-scale lightweight underwater image super-resolution. Inf. Fusion 103, 102127 (2024).
  36. Zhou, X., Shen, K. & Liu, Z. ADMNet: Attention-guided Densely Multiscale Network for Lightweight Salient Object Detection. IEEE Trans. Multimed. 26, 10828-10841 (2024).
  37. Wu, H. et al. PolypSeg+: A Lightweight Context-Aware Network for Real-Time Polyp Segmentation. IEEE Trans. Cybern. 53, 2610-2621 (2023).
  38. Gou, S. et al. Weakly-Supervised Semantic Feature Refinement Network for MMW Concealed Object Detection. IEEE Trans. Circuits Syst. Video Technol. 33, 1363-1373 (2023).
  39. Zhang, Y., Liu, T., Yu, P., Wang, S. & Tao, R. SFSANet: Multiscale Object Detection in Remote Sensing Image Based on Semantic Fusion and Scale Adaptability. IEEE Trans. Geosci. Remote Sens. 62, 4406410 (2024).
  40. Yan, C. et al. Semantics-Guided Contrastive Network for Zero-Shot Object Detection. IEEE Trans. Pattern Anal. Mach. Intell. 46, 1530-1544 (2024).
  41. Song, K., Sun, X., Ma, S. & Yan, Y. Surface Defect Detection of Aeroengine Blades Based on Cross-Layer Semantic Guidance. IEEE Trans. Instrum. Meas. 72, 2514411 (2023).
  42. Yue, C. et al. SCFNet: Semantic correction and focus network for remote sensing image object detection. Expert Syst. Appl. 224, 119980 (2023).
  43. Zhang X. & Chou C. H. Source-free Domain Adaptation for Video Object Detection Under Adverse Image Conditions. IEEE/CVF Conference on ComputerVision and Pattern Recognition Workshops. 5010-5019 (2024).
  44. Guo, Y. et al. DSCA: A Dual Semantic Correlation Alignment Method for domain adaptation object detection. Pattern Recognit. 150, 110329 (2024).

شكر وتقدير

تم دعم هذا البحث من قبل مشروع البحث العلمي الرئيسي للتعليم العالي في مقاطعة خنان (رقم 24A520025)، ومشروع صندوق العلوم الطبيعية لشباب مؤسسة خنان (رقم 232300420425)، وعلوم وتكنولوجيا مقاطعة خنان.
مشروع البحث (رقم 222102210138، رقم 232102220073، ورقم 242102210138)، وفريق الابتكار في العلوم والتكنولوجيا بجامعة هنان (رقم 22IRTSTHN016)، والمشروع الخاص لخطة البحث والتطوير الرئيسية في مقاطعة هنان تحت المنحة (رقم 221111111700).

مساهمات المؤلفين

قام جياكوان شين بتصميم الفكرة وقيادة كتابة الورقة، بينما قام نينغتشونغ ليو وهان سون بإجراء التجربة وجمع البيانات ومراجعة الورقة. قام دقوانغ لي بإجراء التحليل والإشراف على العملية بأكملها. ناقش يونغشين زانغ ولولو هان المنهجية العامة ونهج الورقة. قرأ جميع المؤلفين ووافقوا على النسخة النهائية.

المصالح المتنافسة

يعلن المؤلفون عدم وجود مصالح متنافسة.

معلومات إضافية

يجب توجيه المراسلات والطلبات للحصول على المواد إلى جياكوان شين.
معلومات إعادة الطباعة والتصاريح متاحة على
http://www.nature.com/reprints
ملاحظة الناشر: تظل شركة سبرينجر ناتشر محايدة فيما يتعلق بالمطالبات القضائية في الخرائط المنشورة والانتماءات المؤسسية.
الوصول المفتوح هذه المقالة مرخصة بموجب رخصة المشاع الإبداعي النسبية-غير التجارية-بدون اشتقاقات 4.0 الدولية، التي تسمح بأي استخدام غير تجاري، ومشاركة، وتوزيع، وإعادة إنتاج في أي وسيلة أو صيغة، طالما أنك تعطي الائتمان المناسب للمؤلفين الأصليين والمصدر، وتوفر رابطًا لرخصة المشاع الإبداعي، وتوضح إذا قمت بتعديل المادة المرخصة. ليس لديك إذن بموجب هذه الرخصة لمشاركة المواد المعدلة المشتقة من هذه المقالة أو أجزاء منها. الصور أو المواد الأخرى من طرف ثالث في هذه المقالة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة، ما لم يُشار إلى خلاف ذلك في سطر الائتمان للمادة. إذا لم تكن المادة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة وكان استخدامك المقصود غير مسموح به بموجب اللوائح القانونية أو يتجاوز الاستخدام المسموح به، فستحتاج إلى الحصول على إذن مباشرة من صاحب حقوق الطبع والنشر. لعرض نسخة من هذه الرخصة، قم بزيارةhttp://creativecommons.org/licenses/by-nc-nd/4.0/.
© المؤلف(ون) 2025

  1. كلية تكنولوجيا المعلومات، جامعة لويوانغ العادية، لويوانغ، الصين. كلية علوم الحاسوب والتكنولوجيا، جامعة نانجينغ للطيران والفضاء، نانجينغ، الصين. □ البريد الإلكتروني: shenjiaquan_cv@163.com

Journal: npj Heritage Science, Volume: 13, Issue: 1
DOI: https://doi.org/10.1038/s40494-025-01565-6
Publication Date: 2025-03-11

An algorithm based on lightweight semantic features for ancient mural element object detection

Jiaquan Shen ⟶ , Ningzhong Liu , Han Sun , Deguang Li , Yongxin Zhang & Lulu Han

Abstract

The ancient mural paintings unearthed in China are precious world cultural heritages, which record the historical information of various eras and serve as valuable image materials for studying ancient Chinese society. The elements of the murals include figures, carriages, flowers, birds, and auspicious clouds. The digital research on these elements can better help us understand history and culture. In this paper, we have established a large-scale target detection dataset for mural elements excavated from ancient China, featuring a rich variety of labeled sample categories that span across different historical periods and regions, which provides significant value for the study of ancient Chinese history. Meanwhile, to address the defects present in the mural paintings, we have developed an adaptive random erasing augmentation algorithm, which forces the model to learn more comprehensive feature information, enabling it to adapt to the defective scenarios of the mural paintings. Moreover, we have created a target semantic feature extraction model for elements of ancient Chinese murals, which utilizes contextual information and residual attention mechanism to capture the semantic information, thereby enhancing the accuracy of element target detection. Finally, we have conducted a comparative analysis of the detection results of our proposed method with several other state-of-the-art target detection algorithms on the created mural dataset, and the visualization results validated the superiority of our proposed method.

Murals specifically refer to paintings on walls or floors, and they have been found in both archaeological sites and tombs. The ancient murals unearthed in China are precious world cultural heritage . The ancient murals unearthed in China cover a rich and diverse range of content, vividly depicting stories about the lives of royal nobility and common people, as well as tales of heavenly deities and urban legends. They also feature natural landscapes such as mountains, rivers, the sun, moon, and stars, along with animals and plants like birds, flowers, insects, and fish . Murals have a long history in China, with rich and diverse content, making them extremely valuable visual materials for studying ancient society. They record information about various aspects such as customs, social conditions, and religious beliefs from different eras throughout history’s continuous evolution and development. Additionally, they provide abundant visual materials for research in fields such as religion, history, geography, art, customs, and clothing, holding significant research value that can assist archaeologists and cultural researchers in better studying history and humanities .
Important elements on murals mainly include figures, vehicles, flowers, birds, and auspicious clouds. Utilizing computer vision methods for target
detection of these elements on murals can enhance the understanding and study of these artworks, thereby aiding in the protection and preservation of this precious cultural heritage . The elements on ancient murals often reflect the social life, religious beliefs, and artistic styles of the time. By detecting these target elements, we can more accurately identify and interpret the content represented in the murals, thereby gaining a deeper understanding of the historical, cultural, and artistic value behind them . Through the detection and analysis of object elements on murals, valuable physical materials can be provided for historical and artistic research, promoting the development of related academic fields . At the same time, these detection results can also be used for educational displays, enhancing public awareness and understanding of cultural heritage preservation. Moreover, since ancient murals often face natural threats such as weathering and erosion, detecting the object elements on the murals provides a scientific basis for studying the mechanisms of mural deterioration and for protection and restoration efforts, ensuring that these precious cultural heritage items are preserved.
The object detection algorithms based on computer vision can automatically learn and extract feature information of targets in images, rapidly
identify and locate elements in murals, such as figures, animals, patterns, etc., and accurately recognize minute details and complex elements within the murals . These methods do not require direct contact with the murals, and instead, acquire mural images through image acquisition devices (such as cameras, scanners, etc.), thus avoiding physical damage to the murals, making them particularly suitable for precious and fragile mural relics . Furthermore, through continuous learning and training, the models can adapt to the characteristics of murals of different styles and eras, enhancing the flexibility and versatility of detection . Additionally, by employing object detection methods based on computer vision, damaged sections or potential risk areas in murals can be promptly identified, providing robust data support and reference for cultural relics protection and restoration work .
However, computer vision-based mural element object detection still confronts a series of issues and challenges. There are considerable difficulties in acquiring and annotating mural element object detection datasets . Regarding dataset acquisition, murals, as cultural heritage, are often subject to stringent protection measures, making it difficult to obtain high-quality mural image data . Many murals are located in remote areas or restricted sites, further complicating data collection. High-resolution, clear image data is essential for mural element object detection to ensure accuracy . However, due to factors such as aging and poor preservation conditions, some murals may experience fading, blurring, or damage, leading to degraded image quality that does not meet detection requirements.
In terms of mural element annotation, the complexity and diversity of mural elements, including figures, animals, patterns, etc., as they may overlap or occlude each other. This necessitates annotators possessing professional art and historical knowledge to accurately delineate the boundaries and categories of each element . Additionally, maintaining annotation consistency across large datasets is challenging, as different annotators may have subjective differences in defining and categorizing mural elements, resulting in inconsistent annotation results . Moreover, even within the same category, mural elements can exhibit significant morphological differences due to factors such as drawing styles, eras, and preservation conditions . This requires models to learn and recognize more diverse features, increasing the complexity of feature extraction. To capture these diverse features, deep learning models may require deeper network structures and more parameters to extract and distinguish subtle feature differences, which increases model parameters and computational complexity .
For Ancient Chinese murals, extracting semantic features and contextual information during element object detection can help deep models better understand and identify target elements. However, due to significant differences in drawing styles, eras, and colors among murals, there are considerable challenges in extracting semantic features and contextual information for mural element detection . The diversity of mural drawing styles across different historical periods and regions requires feature extraction methods to adapt to these variations and accurately capture the unique semantic features of each style . The varying preservation conditions due to aging also pose a challenge, as some murals may become blurred due to prolonged weathering and fading, making it difficult to identify original clear semantic features and contextual information .
In this paper, we have established a large-scale target detection dataset for ancient murals excavated in China. The murals date from the Qin and Han dynasties ( 221 BC – 220 AD) to the Ming and Qing dynasties (13681912 AD), spanning over 2,200 years. We have excavated more than 500 tombs and sites featuring murals, primarily distributed across more than 20 provinces and cities including Henan, Shaanxi, Shanxi, and Shandong, collecting a total of 2,358 mural images. In this dataset, we labeled six categories: male, female, beast, flower, bird, and cloud, with a total of 11,790 labeled samples. This dataset provides significant academic and application value for subsequent research. Furthermore, we have developed an adaptive random erasure data augmentation algorithm tailored to the characteristics of the ancient Chinese mural dataset, which can extract element target features even with partial information missing. This is beneficial for better
handling cases of partial information loss in murals due to age, preservation conditions, and other factors. Additionally, we have established a lightweight multi-scale feature extraction backbone network that significantly reduces the number of parameters and computational load while ensuring the accuracy of feature element extraction. Moreover, to enhance the model’s ability to extract mural element features, we have developed a semantic feature enhancement model for mural elements that improves the model’s understanding and detection accuracy through residual attention and contextual information.
The main contributions of this paper are as follows:
  1. Unique Dataset Contribution: We have curated an unprecedented large-scale dataset dedicated to object detection in ancient murals excavated in China. Unlike previous works, this dataset boasts a broad temporal span, geographical distribution, and stylistic diversity, encompassing a vast array of meticulously labeled samples. This comprehensive resource serves as a cornerstone for advancing research on ancient Chinese murals, offering invaluable insights and references that were previously unavailable.
  2. Innovative Data Augmentation Technique: Addressing the specific challenges posed by defects in the dataset of ancient excavated murals, we introduce an adaptive random erasing data augmentation algorithm. This novel approach enhances the model’s ability to learn and recognize defective mural object features by augmenting the labeled sample pool, thereby filling a critical gap in existing methodologies.
  3. Efficient Multi-Scale Feature Extraction: We propose a lightweight multi-scale feature extraction backbone network tailored for mural elements. This network not only effectively captures features of targets of varying sizes but also significantly reduces computational complexity and parameter count compared to traditional approaches. This efficiency makes it well-suited for real-world applications and resource-constrained environments.
  4. Advanced Semantic Feature Extraction Model: Furthermore, we develop a semantic feature extraction model that leverages contextual information and residual attention to derive semantic insights from mural elements. This model represents a significant leap forward in detection accuracy for mural element targets, as it incorporates sophisticated mechanisms to refine and enrich the semantic understanding of the elements, distinguishing our work from previous efforts in this domain.

Mural Dataset and Image Data Augmentation Algorithm

Ancient murals are a precious cultural heritage of humanity, however, due to historical and natural reasons, the preservation conditions of these murals vary significantly, with some being severely damaged and the images blurred. Therefore, there is an urgent need for professionals in this field to protect these ancient murals. Utilizing virtual simulation and digital technology for the virtual restoration and reconstruction of murals can realistically showcase their original appearance, avoiding physical damage to the murals. This approach is particularly suitable for the virtual restoration of precious and fragile mural artifacts. In recent years, scholars have conducted extensive research in this area, achieving a series of results in fields such as the establishment of ancient mural datasets, virtual restoration of murals, defect detection in murals, and target detection of mural elements.
In the MuralDiff algorithm, the authors created an ancient mural defect detection dataset, which provides pixel-level annotations for defect categories such as cracks, peelings, stains, and others present in the murals, thereby offering a reliable basis for subsequent mural restoration. Wang et al. selected 2,780 undamaged images from the Thangka mural dataset and virtually restored the Thangka murals using a stroke-based mask generation method. In the DunHuangStitch algorithm , the authors constructed two datasets for the digital stitching of Dunhuang murals, leveraging a progressive regression image alignment network and a feature difference reconstruction stitching network to achieve this. In RPTK1 , the authors established the RPTK1 (Religious Portrait Thangka Version 1) dataset for
detecting categories such as headwear, clothing, and religious tools. However, the aforementioned ancient mural datasets are primarily used for mural defect detection, virtual stitching, and target detection of element categories in specific scenarios. They are limited in terms of the number of datasets and the distribution of ages, and they also lack detection and semantic analysis of important elements in ancient murals. In this paper, we establish a large-scale target detection dataset for elements in ancient Chinese murals, which boasts a wide coverage of geographical regions and historical periods, and a rich number of labeled samples. This dataset provides important research materials for subsequent studies and conservation efforts related to ancient Chinese murals.
Data augmentation plays a crucial role in enhancing the robustness and generalization capabilities of computer vision models. In recent years, relevant scholars have conducted extensive research in this area and achieved a series of results. In SPGC , the authors proposed a data augmentation algorithm based on shape priors, which stylizes data by generating shape information. This algorithm improved the detection performance of models on remote sensing object datasets. In ref. 27, the authors utilized a context model to establish a prior knowledge-based instance segmentation object mixing data augmentation algorithm, which employs convolutional neural networks to predict whether image regions are suitable for data mixing enhancement, and it is capable of achieving performance improvements in tasks such as object detection and instance segmentation. In the AutoPedestrian algorithm , the authors conducted pedestrian detection by automatically searching for optimal data augmentation strategies and loss functions, which defined the augmentation strategies and loss functions as probabilistic distribution problems with different hyper-parameters and utilized a cyclic scheme of importance sampling for optimization. , the authors proposed a mixed background data augmentation method to enhance the generalization ability of the model and adopted a partially mixed-stage network to improve the accuracy of object detection in surveillance videos.

Lightweight feature extraction backbone network

Lightweight networks significantly reduce the computational load of models by optimizing the network structure and employing efficient convolutions, achieving good performance even with limited computational resources. In object detection models, the introduction of multi-scale feature extraction models allows for the integration of targets of different sizes, enabling precise predictions for targets of various scales. In recent years, researchers have combined lightweight backbone networks with multi-scale feature extraction models for object detection tasks in various scenarios, significantly lowering the computational load while maintaining high prediction accuracy. In the algorithm SAMNet , the authors propose a stereo multi-scale attention model to adaptively fuse features of various scales, a lightweight model is adopted in the feature extraction backbone network, which significantly reduces the computational complexity and the number of parameters of the model while maintaining the accuracy of object detection. In ref. 31, the authors propose a lightweight multi-scale contextual semantic information feature extraction model for object segmentation, which captures multi-scale semantic information through a lightweight feature pyramid module and uses a boundary fusion module to propagate pixel features, demonstrating significant advantages on semantic segmentation datasets. In ref. 32, the authors propose a road crack detection model based on segmentation exchange convolution, which divides feature maps into different resolutions to filter out redundant information and employs a multi-scale feature exchange model to promote the fusion of cross-stage features, thereby constructing a lightweight and high-precision crack defect detection algorithm.
In ref. 33, the authors design a lightweight multi-scale cross-modal remote sensing image retrieval model, which obtains text features through lightweight group convolution and captures multi-scale information of remote sensing images during encoding. In Lite-FENet , the authors propose a lightweight multi-scale feature enhancement network for object segmentation on small sample datasets, which enhances the interactive
fusion of multi-scale features while maintaining feature discriminability with a lower computational load. In SwinWave-SR , the authors propose a multi-scale lightweight underwater image super-resolution enhancement model based on the Swin transformer, which utilizes a wavelet transformation module to avoid information loss during downsampling and employs self-attention learning to retain key information while reducing computational costs. In ADMNet , the authors propose an attentionguided multi-scale lightweight salient object detection model, which utilizes a multi-scale perception module to obtain different contextual features and employs a dual attention module to filter out interference information, thereby enabling deep features to focus more on salient regions. In PolypSeg , the authors propose a lightweight context-aware network for detecting colorectal polyp targets, which utilizes a lightweight attention adaptive context module to eliminate background noise and perform feature fusion.

Semantic feature enhancement model

The semantic feature enhancement model plays an important role in object detection algorithms by improving feature representation capability, enhancing object recognition ability, reducing background noise interference, optimizing the feature fusion process, and increasing detection accuracy and efficiency. In ref. 38, the authors propose a covert object detection model based on weakly supervised semantic feature enhancement. This model learns the semantic information of objects of different sizes by constructing a multi-scale weakly supervised feature optimization network, which strengthens the representation capability of object semantic features while suppressing background noise. In SFSANet , the authors present a remote sensing object detection algorithm that leverages semantic information fusion and adaptive scaling, enriching semantic information through a semantic fusion module and suppressing background noise with a spatial attention module, thereby proving its effectiveness on publicly available remote sensing datasets. In the ContrastZSD , the authors propose a zero-shot object detection algorithm based on a semantic-guided contrastive network, this algorithm utilizes real labels and category similarity information to learn semantic information, demonstrating the effectiveness of the proposed zero-shot object detection algorithm on public datasets. In ref. 41 , the authors introduce an aero-engine blade surface defect detection algorithm grounded in a cross-layer semantic guidance network, which harnesses deep semantic information to steer shallow feature layers for the identification of minute defect targets.
In SCFNet , the authors propose a Semantic Correction and Focus Network for high-resolution remote sensing image object detection, this algorithm employs a local correction module to acquire global similarity features and utilizes a focus module to enhance the semantic information of targets, the effectiveness of the proposed algorithm is validated on publicly available remote sensing object datasets. In , the authors investigate unsupervised adaptation without source data for video object detection and propose a Mean Teacher-based Spatio-Temporal Alternating Refinement method, which enhances the accuracy of object detection in adverse scenarios. In DSCA , the authors introduce a domain adaptive object detection algorithm based on a dual semantic alignment model, this algorithm utilizes contextual information to align the target semantic information between the source and target domains, achieving precise object detection in challenging weather conditions for autonomous driving scenarios.

Method

This paper achieves efficient and accurate detection of ancient mural elements excavated from China in complex and challenging scenarios. Firstly, to address issues such as fading, peeling, and damage present in the mural dataset, we establish an adaptive random erasing data augmentation algorithm. This algorithm enhances the detection model’s ability to learn and recognize features of defective mural targets by randomly erasing certain regions. Additionally, we construct a lightweight multi-scale feature extraction backbone network for mural elements, which excels at effectively extracting features from targets with significant size differences, its lightweight design greatly reduces the computational burden and the number of
parameters in the model. Moreover, we also develop a target semantic feature extraction model for ancient Chinese mural elements. This model utilizes residual attention and contextual information to capture the semantic features of mural elements, thereby effectively improving the detection accuracy of mural element targets.

Dataset of ancient mural unearthed in China

Murals specifically refer to artworks painted on walls or floors, and such paintings have been discovered in both ruins and tombs. Since the Qin and Han dynasties and beyond, the abundant discovery of ancient Chinese murals has become an important part of archaeological research. Since the 1920s, with the continuous deepening of archaeological work, many important murals have been found, most of which are excavated from tombs, while a few are found in palace and temple ruins. The ancient murals unearthed in China are rich in content and vivid in imagery, serving not only as witnesses to history but also as invaluable materials for studying ancient social life. Whether it is the life scenes of royalty and commoners, the stories of celestial myths and urban legends, the natural landscapes such as mountains, rivers, the sun, the moon, and stars, or the lively forms of birds, beasts, flowers, birds, fish, and insects, they have all been preserved through the exquisite skills of ancient painters, presenting themselves to us across the ages. Research on the elements in these murals not only helps us gain a deeper understanding of the ancient society’s appearance but also reveals the ancient people’s aesthetic concepts, living customs, and changes in the natural environment, thus possessing extremely important academic value.
In this paper, we have constructed a target detection dataset of ancient mural elements excavated from China. This dataset has included murals from 577 tombs and archaeological sites, which are widely distributed across 23 provinces and municipalities, including Henan, Shaanxi, Shanxi, and Shandong. A total of 2358 mural images have been collected, and the dataset has covered a broad area, which are rich in resources and highly representative.
Our dataset originates from the valuable collections of numerous archaeological sites and museums, encompassing murals directly excavated from archaeological discoveries, murals displayed in museums, and mural images sourced from historical documents. To ensure the diversity and representativeness of the data, we specifically selected murals spanning different historical periods and geographical regions, covering various dynasties from the Qin and Han dynasties to the Ming and Qing dynasties.
Furthermore, we collaborated with multiple archaeological research institutions, such as the Henan Ancient Mural Museum, to obtain first-hand archaeological excavation materials and mural images. The images in the dataset have been meticulously screened and preprocessed to guarantee their quality and representativeness. We employed high-resolution image acquisition technology to preserve as much detail and characteristic features of the murals as possible. Additionally, we performed image processing such as noise reduction and contrast enhancement to improve the clarity and readability of the images. In terms of representativeness, we ensured that the dataset contains various types of mural elements, such as figures, animals, plants, and architectures, to comprehensively reflect the rich content of ancient Chinese murals. When constructing the dataset, we fully considered the diversity and complexity of the data to enhance the generalization capability of the model. By incorporating mural images from different historical periods and geographical regions, we can train a more robust and generalized model that can recognize and process various types and styles of mural elements. Furthermore, we further increased the diversity of the data through data augmentation techniques (such as rotation, scaling, flipping, etc.) to improve the generalization performance of the model.
During the construction process, we have meticulously annotated the images in the dataset, specifically marking six categories: male, female, beast, flower, bird, and cloud. The total number of annotated samples has reached 11790, and these labeled categories reflect the majority of element types found in the murals, providing a sufficient quantity of sample annotations. The dataset of ancient mural elements created in this paper has been made public on GitHub, and the download link is referenced in (https://github. com/jiaquanshen/Murals-Elements-Target-Detection). Figure 1 has shown examples of different element categories established in the dataset.
The element category samples shown in Fig. 1 depict relatively simple scenes with well-preserved murals. However, the majority of ancient murals, having endured thousands of years, often exhibit fading, peeling, and damage, resulting in blurred features of target elements in the images that are difficult to accurately identify. Furthermore, ancient Chinese murals are rich and diverse in content, encompassing elements such as humans, animals, plants, and natural scenery, with each element manifesting itself in various forms across different periods and regions. Additionally, ancient Chinese murals frequently feature small and occluded targets within large and complex scenes, all of which pose significant difficulties and challenges to the detection of mural element targets. Figure 2
Fig. 1 | Well-preserved murals. Sample of mural element categories (a) Male (b) Female (c) Beast (d) Flower (e) Bird (f) Cloud.
Fig. 2 | Defective murals. Challenging Scenarios in Ancient Mural (a) Fading (b) Peeling (c) Damage (d) Missing part (e) Complex Scenes (f) Small Objects.
illustrates challenging scenarios encountered in the detection of ancient mural element targets.

Adaptive random region erasing augmentation model

In this paper, we propose an adaptive random region erasing mural image augmentation model that simulates scenarios such as occlusion and damage that mural images may encounter in real-world applications. This model enhances the deep model’s understanding and recognition capabilities for mural images. During the training process, the model adaptively and randomly selects regions in the image to set their pixel values to a solid color, thereby forcing the model to learn more comprehensive feature representations instead of relying solely on feature regions within the image. Unlike previous methods that passively extract features of defective targets, the approach proposed in this paper actively and randomly generates defective regions, thereby forcing the model to learn the features of incomplete element targets and subsequently improving the accuracy of element target detection.
In the mural element target detection task, deep models primarily focus on the information within the bounding boxes during training and detection. Therefore, in the proposed adaptive random region erasing image augmentation model, the key areas of focus are the target bounding boxes and their surrounding regions in the training data. To this end, the proposed adaptive random erasing mural image augmentation model includes the following three design principles. 1) Include areas surrounding the labeled target and within the target. This principle aims to enhance the model’s contextual awareness by erasing regions around the target bounding box. In object detection, the contextual information surrounding the target is crucial for accurately identifying and localizing the target. By randomly erasing these regions, the model is forced to learn to infer the presence and location of the target from the remaining, potentially incomplete information, thereby improving its generalization ability and robustness. 2) Avoid erasing significant regions of the target. This principle aims to prevent excessive disruption to the core features of the target, ensuring that the model can still learn sufficient target features from the remaining information. If significant regions of the target are erased, the key features contained in those areas will be lost, which may make it difficult for the model to recognize the target. 3) The aspect ratio of the erased area’s bounding box should be close to that of the original labeled target. This principle aims to maintain the consistency in shape between the erased area and the target bounding box, reducing disruption to the overall structure and layout of the image. When the shape of the erased area is similar to that of the target, the model is better able to infer the content and location of the erased area from the remaining image information.
Fig. 3 | Adaptive random region erasing model.
During the training process, as shown in Fig. 3, the adaptive random region erasing model randomly selects a point on the target’s bounding box. Then, the point extends randomly a distance of to the left and a distance of to the right. Similarly, the point extends randomly a distance of upward and a distance of downward.
Thus, the point along with the four distances , and form a randomly erased area. At this moment, the area of the randomly generated rectangular region is defined as , and the area of the bounding box of the target is defined as . The ratio of the height and width of the randomly generated rectangular region is Rrand , and the ratio of the height and width of the bounding box is bound . We define a parameter named , as described in Eq. (1).
represents the ratio of the intersection area between the randomly generated erasing region and the bounding box area to the area of the generated erasing region, which falls within the range of , where the value of a is in the range of [0.3, 0.7]. The purpose is to satisfy the first principle of the adaptive random region erasing algorithm, which states that the randomly generated erased area should be located around the bounding box, with approximately half of the generated area inside the bounding box. This ensures that the generated area contains sufficient contextual information, thereby forcing the model to learn the context and background information surrounding the object.
Fig. 4 | Overall framework diagram of the proposed algorithm.

Abstract

Although can keep the ratio of the randomly generated erased area to the entire erased area within a reasonable range, if the generated area covers a significant portion of the target’s labeled region, it may lead to the loss of essential information about the target’s salient features, making it difficult to effectively learn the key characteristics of the target. To address this, we introduce another parameter, , to limit the ratio of the generated erased area to the area of the target’s bounding box. As shown in Eq. (2), represents the ratio of the area of the intersection between the randomly generated erased area and the bounding box area to the area of the bounding box, with this ratio falling within the range of , where the value of is in the range of . The purpose is to adhere to the second principle of the proposed adaptive random erasing algorithm, which states that the generated erased area should not exceed of the entire bounding box area. This aims to prevent excessive damage to the core salient features of the target, ensuring that the model can still learn sufficient target features from the remaining information.

Additionally, the adaptive random erased rectangle should roughly maintain consistency in shape with the target labeled area. When the shape of the erased region is similar to that of the target, the model can more easily perceive the erased area as an occlusion or deformation of the target during the inference process, thereby enhancing its robustness to occlusions and deformations. As shown in Eq. (3), represents the ratio of the height and width of the generated erased rectangle, represents the ratio of the height and width of the target bounding box. is a hyperparameter with a value range of , and is another hyperparameter with a value range of . The purpose of these two hyperparameters is to ensure that the shape of the generated erased region remains roughly consistent with that of the original labeled object.

When the shape of the erased region is similar to the shape of the target bounding box, the model is more likely to perceive the erased area as a natural variation or occlusion of the target while processing these augmented images, rather than as an entirely unrelated distraction. This consistency in shape helps the model learn how to adapt to variations in the target’s shape, thereby enhancing its robustness to shape changes. If the shape of the erased region differs significantly from the target shape, it could introduce unnecessary shape distortions, which may mislead the model in learning the target features. By maintaining the consistency of the erased region with the target’s shape, such unnecessary distortions can be reduced, allowing the model to focus more on learning the essential characteristics of the target. By adhering to the three principles mentioned above, the randomly generated erased regions can be kept within a reasonable interval and range, and the algorithm must satisfy all three conditions during execution. If not, it will continue to randomly generate a point on the labeled bounding box until it produces an acceptable erased region.

section*{Lightweight multi-scale backbone network}

Figure 4 illustrates the overall framework of the proposed object detection algorithm for mural elements excavated from ancient China. In this algorithm, the mural dataset is first augmented through the proposed adaptive random erasing image augmentation model to expand the training dataset. Subsequently, the augmented mural image dataset is input into the proposed lightweight multi-scale feature extraction backbone network for target feature extraction. The extracted features are then fed into the semantic feature extraction model to obtain highlevel information of the mural element targets. Finally, the positions and categories of the mural element targets are predicted by a fully convolutional network.

The lightweight multi-scale backbone network consists of two parts: the Stem block and the Stage block. The primary function of the Stem block is to perform spatial downsampling on the input images through convolution and pooling operations. This downsampling operation reduces the size of the images while increasing the number of feature channels to enhance the depth and breadth of feature representation. It also reduces the computational load of the model by maintaining a consistent number of internal propagating channels. This module significantly decreases the computational burden without noticeably compromising the expressive capability of the features. The Stage block further refines the features input from the Stem block feature extraction module. It progressively increases the number of feature channels using a channel-stacking approach and employs a multi-scale feature fusion technique that combines low-level detail features with high-level semantic information. This allows the model to gain a more comprehensive understanding of the image content.

Figure 5 illustrates the structure of the Stem block in the proposed lightweight multi-scale feature extraction backbone network. The Stem block is divided into two smaller modules, namely Stem block-1 and Stem block-2. In Stem block-1, the input image size is . After performing a convolution operation with a kernel size of , a stride of 2 , and 32 channels, a feature map of size is obtained. The resulting feature map undergoes dual feature extraction and propagation: one path involves a convolution operation with a kernel size of , a stride of 1 , and 32 channels, while the other path first performs a convolution operation with a kernel size of , a stride of 1 , and 32 channels, followed by a convolution operation with a kernel size of , a stride of 1 , and 32 channels. After the convolutions, the feature maps from both paths are combined using an element-wise feature fusion operation, followed by a convolution operation.

In Stem block-2, the feature map extracted from Stem block-1 is first subjected to a convolution operation with a kernel size of , a stride of 1 , and 32 channels. The feature map then undergoes dual feature extraction

Fig. 5 | Internal Structure Diagram of Stem Block.
Fig. 6 | Framework Diagram of Stage Block.
and propagation again. One path performs a Max Pooling operation with a kernel size of , a stride of 2 , and 32 channels, while the other path consists of a convolution operation with a kernel size of , a stride of 1 , and 32 channels, followed by another convolution operation with a kernel size of , a stride of 2 , and 32 channels. Finally, the features from both paths are fused through concatenation, followed by a convolution operation, resulting in the final feature map of the Stem block.
In the Stem block, the feature maps undergo a dual-path approach for feature extraction, where each path employs convolution operations with different kernel sizes. This dual-path design is strategically implemented to effectively capture both local and texture details within the images. Simultaneously, it reduces the spatial dimensions of the feature maps and increases the number of channels, which helps in encoding more detailed and discriminant information. The incorporation of smaller convolution kernels in one of the paths facilitates a reduction in computational complexity while still retaining critical feature information, thereby enhancing efficiency. The design of these two parallel paths within the Stem block significantly contributes to decreasing both the computational load and the parameter count of the overall model. The result is a more streamlined and efficient model that maintains high performance. Stem block-1 specifically performs multi-scale element-wise feature fusion. This innovative technique allows for direct computations and interactions between feature maps from different layers or sources at corresponding positions. Stem block-2 employs concatenation for multi-scale feature fusion. This method involves stitching together feature maps from different layers along the channel dimension, thereby combining diverse feature representations into a single. This concatenated feature map provides a richer and more nuanced representation of the input data, further enhancing the model’s ability to detect and analyze intricate patterns and structures.
Figure 6 illustrates a more detailed framework of the Stage block feature propagation. As shown in Fig. 6, within the Stage block, we employ a channel stacking approach to progressively enhance the number of channels in the feature maps. This approach enables the gradual acquisition of more refined target features while significantly reducing the model’s computational load and improving detection efficiency. In previous mainstream convolutional neural network backbone feature extraction architectures, the increase in the number of feature channels during extraction and propagation typically followed a relatively fixed growth pattern, often in powers of two. For example, the feature channel count might increase from 64 to 128, then to 256 , and so on to 512 . This exponential growth pattern in the number of feature channels can result in the loss of information regarding small target features. Additionally, this method leads to a substantial number of model parameters, thereby decreasing training and inference efficiency. In this paper, we propose a lightweight feature extraction network based on channel stacking, which acquires more detailed target features by incrementally increasing the number of feature channels. Unlike previous methods of feature extraction and channel propagation, in this paper, we utilize a lightweight feature stacking network to progressively acquire more refined features of the target. This approach not only ensures the ability to extract features of ancient mural element targets but also reduces the computational load of the model. This approach reduces the model’s parameter count while enhancing detection accuracy. As depicted in Fig. 6, within the first three small blocks of the Stage block, the number of feature channels in each convolution operation increases by 16 , while in the last two blocks, it increases by 32 with each convolution operation.
Figure 7 illustrates the network architecture for feature extraction and propagation within Stage block 1-1. In Stage block 1-1, the features obtained from Stem block 2 are used as the input feature map, which undergoes three
Fig. 7 | Framework Diagram of Stage Block 1-1.
Fig. 8 | Contextual Semantic Feature Fusion Model.
branches for feature extraction and propagation. The first branch processes the feature map through a convolution followed by a downsampling convolution. The second branch applies a Max Pooling downsampling operation. The third branch consists of a convolution, a downsampling convolution, and another convolution. These three branches extract and propagate features from different scales, ensuring that the deep model can achieve a larger receptive field while adequately considering the feature information of small targets. This approach aids the model in simultaneously attending to information from different scales when dealing with complex scenes. Additionally, maintaining the same number of channels for inputs and outputs during convolution operations minimizes memory consumption. Therefore, we ensure that the internal feature channels have a consistent count during feature extraction. Furthermore, within the Stem block, we make full use of the convolution kernels to facilitate cross-channel information interaction. The convolution not only effectively enhances the model’s linear expressiveness and its ability to extract features of small targets, but it also significantly reduces the computational load of the model.

Semantic Feature Enhancement Model

In object detection tasks, semantic feature information can assist deep models in better understanding and interpreting images, enabling algorithms to accurately identify targets in complex detection scenarios. In this paper, we establish a target semantic feature extraction model for elements of ancient Chinese murals, which comprises a context information fusion
module and a residual attention module, enabling the input feature maps to undergo feature extraction and fusion through these modules, thereby enhancing the semantic information features. The semantic feature extraction model proposed in this paper includes a context information fusion module and a residual attention module. These two feature extraction modules capture semantic information between ancient mural element targets across different dimensions, and ultimately obtain high-level semantic feature information of the element targets through Concat feature fusion.
The context information fusion module is capable of fusing features from different levels or scales, which helps capture multi-scale information in the image. This enables the model to gain a more comprehensive understanding of the image content, thereby improving the detection accuracy of target objects. Figure 8 demonstrates the proposed context information fusion module, where we further extract and fuse features obtained from each stage block. Specifically, in the first three stage blocks, we apply a Max pooling operation with a size of , a stride of 2 , ensuring consistency in feature map dimensions. Subsequently, a convolutional operation with a kernel size of , a stride of 1 , and 512 channels is applied to increase the dimensionality of the feature maps. In the last two stage blocks, we first apply a convolution operation with a size of , a stride of 1 , and the same number of channels, followed by another convolution operation of size , with a stride of 1 and 512 output channels. After these operations, each stage block produces a feature map of size
Fig. 9 | Residual attention feature extraction model.
. We concatenate the final feature maps of this size from each stage block and perform a convolution operation with dimensions to obtain the final context information feature representation. In the context of murals element detection, the target elements are often situated within complex background information. The proposed context information fusion module helps the model better process background information and distinguish between foreground and background, thereby reducing both false positives and missed detections.
The residual attention feature extraction model combines the advantages of both residual networks and attention mechanisms. Residual networks address the training difficulties of deep networks by introducing residual connections, enabling the network to go deeper and thus learn more abstract and complex feature representations. The attention mechanism automatically focuses on the significant parts of the input features, ignoring irrelevant information, thereby further enhancing the accuracy and efficiency of feature extraction. In the task of target detection of ancient Chinese mural elements, this efficient feature extraction capability enables the model to learn complex image and texture information within the murals, and exhibit a strong sensitivity to color variations within the murals.
Figure 9 illustrates the network framework of the proposed residual attention feature extraction model. As shown in Fig. 9, the input to this module is the feature map extracted by the previous lightweight feature extraction module. The feature map obtained previously first undergoes a residual feature extraction process, followed by a convolutional operation with a kernel size of and a stride of 2 . This reduces the size of the feature map to half of its original dimensions, which is then input into a residual block for further processing. Subsequently, a Max pooling operation with a kernel size of and a stride of 2 is applied, and the resulting feature map undergoes residual calculation. In the feature fusion stage of the proposed residual attention feature extraction model, we use bilinear interpolation upsampling to upsample the acquired feature map and perform feature fusion. By using bilinear interpolation for upsampling, the high-level feature map can be enlarged to the same resolution as that of the low-level feature map, enabling effective feature fusion. This fusion method integrates features from different levels, not only restoring the resolution of the feature maps but also supplementing the contextual information of the targets. The proposed residual attention feature extraction model, with its robust feature extraction capabilities, can extract useful feature information from these damaged mural images, thereby enhancing the robustness of the model. Additionally, the attention mechanism enables the model to focus more on the key features of mural elements, accelerating the detection speed while ensuring detection accuracy.

Results

In this section, we will validate the effectiveness of the proposed element target detection model on the created ancient Chinese mural element target detection dataset. Specifically, we will conduct a series of extensive ablation experiments to verify the contributions of the proposed adaptive random region erasure mural image augmentation model, lightweight multi-scale feature extraction backbone network, and semantic feature enhancement model to the detection accuracy and speed within the overall model.
Table 1 | Effects various components on performance
Components Detection Results
Original Model
Adaptive Random Erasing Model
Lightweight Backbone Network
Context Semantic Feature
Residual Semantic Feature
mAP (Mean Average Precision) 76.7% 82.6% 84.9% 86.2% 87.5%
FLOPs (Computational Cost) 478 M 478 M 265 M 268 M
Frames Per Second (FPS) 21 21 45 39 35
Furthermore, we will compare and analyze the detection results of the proposed mural element target detection model with several other state-of-the-art object detection models on the mural dataset. The software and hardware environment used in the experiments of this paper are as follows: the deep learning framework is Pytorch, the operating system is Ubuntu 16.04 (Canonical, London, UK), the CPU model is i9-11900k ( 3.5 GHz ), the GPU model is NVIDIA RTX4090 ( 24 GB memory), and the memory is 64GB (DDR5 4800 MHz ).
In this paper, we have improved the accuracy and speed of detecting ancient Chinese mural elements in complex scenes through methods such as the adaptive random erasure image augmentation model, lightweight multi-scale feature extraction backbone network, and semantic feature enhancement model. To validate the impact of the proposed modules on the detection results, we have conducted numerous experiments to demonstrate the accuracy and computational cost of detecting ancient mural elements under different module combinations. As shown in Table 1, the proposed adaptive random region erasure image augmentation model can simulate deficiencies faced by murals in real detection scenarios. This method generates a large amount of sample data that meets training requirements, enhancing the deep object detection model’s understanding of mural images. The introduction of this module has improved the detection accuracy by . The proposed lightweight multi-scale feature extraction network enhances the model’s ability to extract features of mural element targets in complex scenes through methods such as channel stacking, unified internal feature propagation, and multi-scale feature extraction. This ensures that the model captures fine features of targets at different scales while reducing both the computational load and parameter count of the model. The introduction of this module has improved detection accuracy by and reduced the computational load by . The context information fusion module comprehensively considers the overall environment and local details of the murals, enhancing target recognition robustness in complex environments. The introduction of this module increases detection accuracy while adding minimal computational load. Additionally, the introduction of the residual attention mechanism module has also effectively improved the model’s detection accuracy. Although the semantic feature model incurs an increase in computational load, it has achieved a more suitable balance between computational accuracy and computational cost. Ultimately, the proposed ancient Chinese mural element target detection model achieves a detection accuracy of 87.5% on the created dataset, with FLOPs of only 268 M .
To further validate the effectiveness of the proposed mural element target detection algorithm, we have conducted a comparative analysis of its detection results against several other state-of-the-art object detection algorithms on the created dataset. Table 2 presents the detection accuracy, detection time, and other metrics of various lightweight or semantic featurebased object detection algorithms on the mural dataset. As shown in Table 2, the mural element target detection algorithm proposed in this paper, which is based on a lightweight multi-scale feature extraction backbone network and a semantic feature enhancement model, demonstrates significant advantages in both detection accuracy and detection speed. This algorithm meets the needs for mural element target detection in complex scenes,
Table 2 | The detection results of different algorithms on the created mural dataset
Method Recall Rate Precision Rate F1-Score mAP Detection Time(s)
SAMNet 86.7% 87.9% 0.873 85.6% 0.109
SEConv-MSFE 83.5% 84.1% 0.838 83.2% 0.097
ADMNet 85.7% 87.6% 0.866 86.4% 0.083
SFSANet 85.8% 88.3% 0.870 86.7% 0.186
SCFNet 83.6% 85.2% 0.857 84.6% 0.235
SLMS-SSD 83.2% 84.7% 0.839 84.2% 0.267
Our method 87.6% 89.3% 0.884 87.5% 0.022
Table 3 | Detection results of different mural element categories.
Category Number of samples Recall Rate Precision Rate mAP Detection Time (ms)
Male 8109 91.3% 93.6% 91.8% 1.98
Female 5008 90.2% 91.5% 89.7% 2.13
Beast 3339 86.2% 85.7% 85.3% 2.47
Flower 2862 76.8% 79.3% 78.9% 2.26
Bird 2623 73.8% 76.9% 75.2% 2.35
Cloud 1901 71.4% 74.9% 73.6% 2.42
providing robust technical support for the study and subsequent conservation of mural elements. Specifically, on the created ancient Chinese mural element dataset, the proposed target detection algorithm achieved a recall rate of , a precision rate of , an F1-score of 0.884 , and a mean Average Precision (mAP) of , with an average detection time of only 0.022 seconds per image.
In this detection task, there are significant differences in the number of labeled samples among the different mural element categories, and there is also substantial variation in the intraclass feature presentation within the same category. As a result, the six element categories created in the dataset show noticeable differences in detection accuracy and speed. Table 3 presents metrics such as detection accuracy and detection time for different element categories on the proposed detection model. As shown in Table 3, there are considerable disparities in the number of samples and detection results among the mural element categories. In particular, the Male and Female categories boast a larger number of samples with relatively small intra-class feature variations, leading to significantly higher detection accuracy and speed compared to other categories. In contrast, the Flower, Bird, and Cloud categories have a relatively smaller number of labeled samples, coupled with substantial intra-class feature differences, resulting in lower detection accuracy.
Table 4 demonstrates the impact of the proposed adaptive random erasing augmentation model, lightweight backbone network model, and semantic feature enhancement model on the detection accuracy and speed for various types of mural elements. As shown in Table 4, the adaptive random erasing augmentation model can effectively improve the detection accuracy of target elements. The lightweight backbone network model exhibits significant advantages in enhancing detection speed. Although the semantic feature enhancement model sacrifices some detection speed, it achieves good results in terms of improving target feature extraction capability and detection accuracy.
Figure 10 presents the visualized detection results of different mural element categories. As shown in Fig. 10, the proposed mural element object detection model is capable of effectively detecting categories such as Male, Female, Beast, Bird, Flower, and Cloud on murals. For each detection result, the model provides a confidence score indicating its certainty in the prediction.
Table 4 | The impact of models on detection accuracy and speed for various categories of elements
Category Adaptive Random Erasing Lightweight Backbone Network Semantic Feature Model mAP Detection Time
Male × × 88.6% 2.67 ms
× 89.4% 1.72 ms
× 88.7% 2.28 ms
Female × × 85.2% 3.52 ms
× 87.2% 1.86 ms
× 86.2% 2.78 ms
Beast × × 82.6% 3.96 ms
× 83.8% 2.08 ms
× 81.9% 1.89 ms
Flower × × 73.2% 4.13 ms
× 72.8% 1.64 ms
× 75.2% 2.13 ms
Bird × × 69.5% 5.36 ms
× 70.3% 2.06 ms
× 73.2% 2.28 ms
Cloud × × 65.3% 4.98 ms
× 66.7% 2.14 ms
× 70.6% 2.36 ms
A higher confidence score suggests that the model is more confident that the prediction is correct. Such visualized detection results are of great significance for mural research, protection, restoration, and artistic appreciation. They can assist researchers in more accurately analyzing the constituent elements, artistic styles, historical backgrounds, and other information of murals, providing strong support for in-depth mural research and protection. At the same time, for art lovers and connoisseurs, such visualized presentations undoubtedly enhance their understanding and appreciation of mural art.
Figure 11 showcases the detection results of mural element targets in complex and challenging scenes. As illustrated in Fig. 11, these scenes contain dense element targets, with a large number of targets and limited distinguishing features for each individual target. Additionally, the murals exhibit defects such as damage and peeling, which significantly increase the difficulty of detecting the element targets. In this paper, we enhance the detection capability for damaged mural element targets through an adaptive random erasing augmentation algorithm to expand the sample size, and we improve detection accuracy and speed using a lightweight backbone network and a semantic feature extraction model. As shown in Fig. 11, although the complexity of the scenes results in low confidence in target detection, the proposed algorithm successfully achieves effective detection of mural element targets in these complex and challenging environments. Furthermore, by analyzing the results of mural element target detection, we gain deeper insights into the compositional elements, stylistic features, and historical changes of the murals, providing richer information and data support for the academic research and conservation of murals.
Although the mural element object detection model proposed in this paper demonstrates good detection performance on the created dataset, its effectiveness on mural datasets with different cultural backgrounds and styles has not been verified. In our future work, to further enhance the generalizability of the proposed algorithm, we can first expand the mural dataset to include murals of various styles and types, such as by incorporating ancient Buddhist murals from Dunhuang, China, and ancient European art murals. Additionally, we will conduct a more refined classification of the element types within the murals, for instance, by providing more detailed annotations for different types of figures, enabling the model to extract and learn the essential features of different categories. Furthermore,
Fig. 10 | Visualized Detection Results of Different Mural Element Categories.
Fig. 11 | Visualization detection results in complex and difficult scenarios.
we will attempt to utilize diffusion models for mural element object detection, allowing the model to recognize unlabeled object types and thus improving the applicability and robustness of the detection model.

Conclusion and discussion

In this paper, we propose a model for the recognition and understanding of elements in ancient murals unearthed in China, achieving efficient detection of mural elements in various complex environments and challenging detection scenarios. In our work, we first created a large-scale dataset for target detection of ancient murals, which features a wide chronological span,
a vast number of samples, and a rich variety of labeled categories. To further enrich the number of mural image samples, we have established an adaptive random erasure augmentation model for mural images, capable of randomly generating erasure regions to simulate the damage that may exist in murals, thereby forcing the model to learn the ability to recognize and understand element targets through incomplete image information. Additionally, we have developed a lightweight multi-scale backbone network for feature extraction of mural elements. This model significantly reduces computational load while maintaining detection accuracy through a lightweight convolutional neural network and multi-scale feature fusion
methods. Furthermore, to enhance the semantic understanding of mural elements, we have introduced a semantic feature enhancement model for mural elements, which improves semantic understanding and increases detection accuracy through contextual information and residual attention mechanism. The ancient mural element object detection algorithm proposed in this paper achieves a recall rate of , a precision rate of , a mean Average Precision (mAP) of , and an average detection time of 0.022 s per image on the created dataset. These results demonstrate that the proposed method outperforms several other state-of-the-art object detection algorithms in both detection accuracy and speed.
However, the research presented in this paper still has some shortcomings and limitations. While the proposed method is capable of accurately detecting the target elements on mural paintings, it cannot accurately ascertain the historical and dynastic information associated with those elements. For instance, the method cannot determine the era of the figures based on their headgear and attire. Furthermore, a crucial aspect of digital research on ancient Chinese mural paintings is virtual restoration, and although the method proposed in this paper provides some valuable information for virtual mural restoration, it cannot be directly applied to this purpose. In future research, we will deeply explore the semantic feature information of mural elements, such as the dynasties, artistic styles, and cultural backgrounds they pertain to. Meanwhile, based on the established dataset of ancient Chinese mural paintings excavated from archaeological sites, we will focus on virtual restoration and reconstruction. We will utilize computer vision techniques to extract shape and texture features from mural images and seamlessly blend them with surrounding areas to optimize the generated textures. Additionally, by applying the principles of traditional art restoration in conjunction with computer vision outputs, we will reasonably reconstruct colors, shapes, and details.

Data availability

No datasets were generated or analysed during the current study.
Received: 5 November 2024; Accepted: 4 January 2025;
Published online: 11 March 2025

References

  1. Jia, Y. et al. Multi-analytical investigations on a tomb mural painting of the Yuan dynasty in Chongqing, China. Vib. Spectrosc. 124, 103457 (2023).
  2. Dong, S. et al. Multi-Method Analysis of Painting Materials in Murals of the North Mosque (Linqing, China). Coatings 13, 1298 (2023).
  3. Guo, R. et al. Rare colour in medieval China: Case study of yellow pigments on tomb mural paintings at Xi’an, the capital of the Chinese Tang dynasty. Archaeometry 64, 759-778 (2022).
  4. Cao, J., Cui, H., Zhang, Z. & Zhao, A. Mural classification model based on high- and low-level vision fusion. Herit. Sci. 8, 121 (2020).
  5. Cao, J., Cui, H., Zhang, Q. & Zhang, Z. Ancient Mural Classification Method Based on Improved AlexNet Network. Stud. Conserv 65, 411-423 (2020).
  6. Chen Z., Rajamanickam L., Tian X. & Cao J. Application of Optimized Convolution Neural Network Model in Mural Segmentation. Appl Comput Intell Soft Comput. 2022, 5485117 (2022).
  7. Liu, W., Li, X. & Wu, F. Research on Restoration Algorithm of Tomb Murals Based on Sequential Similarity Detection. Sci Program. 2021, 6842353, (2021).
  8. Cheng, G. et al. Towards Large-Scale Small Object Detection: Survey and Benchmarks. IEEE Trans. Pattern Anal. Mach. Intell. 45, 13467-13488 (2023).
  9. Wu, L., Zhang, L., Shi, J., Zhang, Y. & Wan, J. Damage detection of grotto murals based on lightweight neural network. Comput Electr. Eng. 102, 108237 (2022).
  10. Sun, D., Zhang, J., Pan, G. & Zhan, R. Mural2Sketch: A Combined Line Drawing Generation Method for Ancient Mural Painting. 2018 IEEE International Conference on Multimedia and Expo (2018).
  11. Ni, X., Yu, Y., Zhao, H. & Li, Y. Mural Disease Detection Based on ConvUNeXt with Improved Up-Sampling and Feature Fusion. 2024 5th International Seminar on Artificial Intelligence, Networking and Information Technology (2024).
  12. . et al. A comprehensive dataset for digital restoration of Dunhuang murals. Sci. Data 11, 955 (2024).
  13. Cao, J., Yan, M., Jia, Y., Tian, X. & Zhang, Z. Application of a modified Inception-v3 model in the dynasty-based classification of ancient murals. EURASIP J. Adv. Signal Process 2021, 1-25 (2021).
  14. Cao, J., Jia, Y., Chen, H., Yan, M. & Chen, Z. Ancient mural classification methods based on a multichannel separable network. Herit. Sci. 9, 88 (2021).
  15. Huang, R., Feng, W., Fan, M., Guo, Q. & Sun, J. Learning multi-path CNN for mural deterioration detection. J. Ambient Intell. Hum. Comput 11, 3101-3108 (2017).
  16. Pan G., Sun D., Zhan R. & Zhang J. Mural Sketch Generation via Styleaware Convolutional Neural Network. CGI 2018: Proceedings of Computer Graphics International (2018).
  17. Yu, Z. et al. AGD-GAN: Adaptive Gradient-Guided and Depthsupervised generative adversarial networks for ancient mural sketch extraction. Expert Syst. Appl. 255, 124639 (2024).
  18. Wu, Z. et al. Enhanced Spatial Feature Learning for Weakly Supervised Object Detection. IEEE Trans. Neural Netw. Learn Syst. 35, 961-972 (2022).
  19. Wang, X., Song, N., Zhang, L. & Jiang, Y. Understanding subjects contained in Dunhuang mural images for deep semantic annotation. J. Doc. 74, 333-353 (2018).
  20. Zeng, Z., Sun, S., Sun, J., Yin, J. & Shen, Y. Constructing a mobile visual search framework for Dunhuang murals based on fine-tuned CNN and ontology semantic distance. Electron Libr. 40, 121-139 (2022).
  21. Wang, N., Wang, W., Hu, W., Fenster, A. & Li, S. Damage Sensitive and Original Restoration Driven Thanka Mural Inpainting. Pattern Recognition and Computer Vision. 142-154 (2020).
  22. Xu, Z. et al. MuralDiff: Diffusion for Ancient Murals Restoration on Large-Scale Pre-Training. IEEE Trans. Emerg. Top. Comput Intell. 8, 2169-2181 (2024).
  23. Wang, N., Wang, W., Hu, W., Fenster, A. & Li, S. Thanka Mural Inpainting Based on Multi-Scale Adaptive Partial Convolution and Stroke-Like Mask. IEEE Trans. Image Process 30, 3720-3733 (2021).
  24. Mei Y., Yang L., Wang M., Yu T. & Wu K. DunHuangStitch: Unsupervised Deep Image Stitching of Dunhuang Murals. IEEE Trans. Vis. Comput. Graph. Early Access (2024).
  25. Chen, Y., Fan, Z. & Liu, X. RPTK1: A New Thangka Data Set for Object Detection of Thangka Images. IEEE Access 9, 131696-131707 (2021).
  26. Dai, Y., Ma, F., Hu, W. & Zhang, F. SPGC: Shape-Prior-Based Generated Content Data Augmentation for Remote Sensing Object Detection. IEEE Trans. Geosci. Remote Sens. 62, 4504111 (2024).
  27. Dvornik, N., Mairal, J. & Schmid, C. On the Importance of Visual Context for Data Augmentation in Scene Understanding. IEEE Trans. Pattern Anal. Mach. Intell. 43, 2014-2028 (2021).
  28. Tang, Y. et al. AutoPedestrian: An Automatic Data Augmentation and Loss Function Search Scheme for Pedestrian Detection. IEEE Trans. Image Process. 30, 8483-8496 (2021).
  29. Chen, P. Y., Hsieh, J. W., Gochoo, M. & Chen, Y. S. Mixed Stage Partial Network and Background Data Augmentation for Surveillance Object Detection. IEEE Trans. Image Process 23, 23533-23547 (2022).
  30. Liu, Y., Zhang, X. Y., Bian, J. W., Zhang, L. & Cheng, M. M. SAMNet: Stereoscopically Attentive Multi-Scale Network for Lightweight Salient Object Detection. IEEE Trans. Image Process 30, 3804-3814 (2021).
  31. Zhou, Q. et al. Boundary-Guided Lightweight Semantic Segmentation With Multi-Scale Semantic Context. IEEE Trans. Multimed. 26, 7887-7900 (2024).
  32. Zhou, Q., Qu, Z. & Ju, F. A Lightweight Network for Crack Detection With Split Exchange Convolution and Multi-Scale Features Fusion. IEEE Trans. Intell. Veh. 8, 2296-2306 (2023).
  33. Yuan, Z. et al. A Lightweight Multi-Scale Crossmodal Text-Image Retrieval Method in Remote Sensing. IEEE Trans. Geosci. Remote Sens 60, 5612819 (2022).
  34. Li, Q., Sun, B. & Bhanu, B. Lite-FENet: Lightweight multi-scale feature enrichment network for few-shot segmentation. Knowl. Based Syst. 278, 110887 (2023).
  35. Dharejo, F. A. et al. SwinWave-SR: Multi-scale lightweight underwater image super-resolution. Inf. Fusion 103, 102127 (2024).
  36. Zhou, X., Shen, K. & Liu, Z. ADMNet: Attention-guided Densely Multiscale Network for Lightweight Salient Object Detection. IEEE Trans. Multimed. 26, 10828-10841 (2024).
  37. Wu, H. et al. PolypSeg+: A Lightweight Context-Aware Network for Real-Time Polyp Segmentation. IEEE Trans. Cybern. 53, 2610-2621 (2023).
  38. Gou, S. et al. Weakly-Supervised Semantic Feature Refinement Network for MMW Concealed Object Detection. IEEE Trans. Circuits Syst. Video Technol. 33, 1363-1373 (2023).
  39. Zhang, Y., Liu, T., Yu, P., Wang, S. & Tao, R. SFSANet: Multiscale Object Detection in Remote Sensing Image Based on Semantic Fusion and Scale Adaptability. IEEE Trans. Geosci. Remote Sens. 62, 4406410 (2024).
  40. Yan, C. et al. Semantics-Guided Contrastive Network for Zero-Shot Object Detection. IEEE Trans. Pattern Anal. Mach. Intell. 46, 1530-1544 (2024).
  41. Song, K., Sun, X., Ma, S. & Yan, Y. Surface Defect Detection of Aeroengine Blades Based on Cross-Layer Semantic Guidance. IEEE Trans. Instrum. Meas. 72, 2514411 (2023).
  42. Yue, C. et al. SCFNet: Semantic correction and focus network for remote sensing image object detection. Expert Syst. Appl. 224, 119980 (2023).
  43. Zhang X. & Chou C. H. Source-free Domain Adaptation for Video Object Detection Under Adverse Image Conditions. IEEE/CVF Conference on ComputerVision and Pattern Recognition Workshops. 5010-5019 (2024).
  44. Guo, Y. et al. DSCA: A Dual Semantic Correlation Alignment Method for domain adaptation object detection. Pattern Recognit. 150, 110329 (2024).

Acknowledgements

This research was supported by the Key Scientific Research Project of Higher Education of Henan Province (No. 24A520025), and Henan Natural Science Foundation Youth Science Foundation Project (No. 232300420425 ), and the Henan Province Science and Technology
Research Project (No. 222102210138, NO.232102220073, and No.242102210138), and the Science and Technology Innovation Team of Henan University (No. 22IRTSTHN016), and The Special project of key research and development Plan of Henan Province under Grant (No.221111111700).

Author contributions

Jiaquan Shen designed the idea and led the writing of the paper, Ningzhong Liu and Han Sun conducted the experiment, collected the data, and revised the paper. Deguang Li conducted the analysis and supervised the whole process. Yongxin Zhang and Lulu Han discuss the overall methodology and approach of the paper. All the authors read and approved the final manuscript.

Competing interests

The authors declare no competing interests.

Additional information

Correspondence and requests for materials should be addressed to Jiaquan Shen.
Reprints and permissions information is available at
http://www.nature.com/reprints
Publisher’s note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.
Open Access This article is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License, which permits any non-commercial use, sharing, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if you modified the licensed material. You do not have permission under this licence to share adapted material derived from this article or parts of it. The images or other third party material in this article are included in the article’s Creative Commons licence, unless indicated otherwise in a credit line to the material. If material is not included in the article’s Creative Commons licence and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this licence, visit http://creativecommons.org/licenses/by-nc-nd/4.0/.
© The Author(s) 2025

  1. School of Information Technology, Luoyang Normal University, Luoyang, China. College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing, China. □ e-mail: shenjiaquan_cv@163.com