إطار هجين لاكتشاف وتصنيف أمراض أوراق النباتات باستخدام الشبكات العصبية التلافيفية ومحولات الرؤية A hybrid Framework for plant leaf disease detection and classification using convolutional neural networks and vision transformer

المجلة: Complex & Intelligent Systems، المجلد: 11، العدد: 2
DOI: https://doi.org/10.1007/s40747-024-01764-x
تاريخ النشر: 2025-01-15

إطار هجين لاكتشاف وتصنيف أمراض أوراق النباتات باستخدام الشبكات العصبية التلافيفية ومحولات الرؤية

شيريهان أبو العنين فوريا أحمد البشير محمد مسلحي التوخي ولاء م. الهادي خالد م. حسني (د)

تاريخ الاستلام: 11 يوليو 2024 / تاريخ القبول: 20 ديسمبر 2024 / تاريخ النشر على الإنترنت: 15 يناير 2025
© المؤلف(ون) 2024

الملخص

مؤخراً، استخدم العلماء بشكل واسع أساليب الذكاء الاصطناعي في الزراعة الذكية لزيادة إنتاجية قطاع الزراعة والتغلب على مجموعة واسعة من المشكلات. يعد اكتشاف وتصنيف أمراض النباتات مشكلة صعبة بسبب الأعداد الكبيرة من النباتات في جميع أنحاء العالم والعديد من الأمراض التي تؤثر سلباً على إنتاج المحاصيل المختلفة. الهدف من أي نظام يعتمد على الذكاء الاصطناعي هو الكشف المبكر والتصنيف الدقيق لأمراض النباتات. تقترح هذه الورقة إطار عمل هجين لتحسين دقة التصنيف لأمراض أوراق النباتات بشكل كبير. يستفيد هذا النموذج المقترح من قوة الشبكات العصبية التلافيفية (CNNs) ومحولات الرؤية (ViT)، حيث يتم استخدام نموذج تجميعي يتكون من الهياكل المعروفة للشبكات العصبية التلافيفية VGG16 وInception-V3 وDenseNet20 لاستخراج ميزات عالمية قوية. ثم يتم استخدام نموذج ViT لاستخراج ميزات محلية للكشف بدقة عن أمراض النباتات. يتم تقييم أداء النموذج المقترح باستخدام مجموعتين من البيانات متاحة للجمهور (التفاح والذرة). تتكون كل مجموعة بيانات من أربع فئات. يكتشف النموذج الهجين المقترح بنجاح ويصنف أمراض أوراق النباتات متعددة الفئات ويتفوق على طرق مشابهة تم نشرها مؤخراً، حيث حقق النموذج الهجين المقترح معدل دقة قدره و لبيانات التفاح والذرة.

الكلمات الرئيسية الزراعة • تصنيف أمراض أوراق النباتات • نموذج هجين • التعلم العميق • الشبكات العصبية التلافيفية (CNNs) • دمج الميزات • محول الرؤية (ViT)

الاختصارات

الذكاء الاصطناعي
شبكات CNN العصبية التلافيفية
محول الرؤية فيت
تعلم الآلة
تعلم عميق
SVM آلة الدعم الناقل
الشبكات العصبية الاصطناعية الشبكات العصبية الاصطناعية
ملاحظة بايزي الساذج
إم إل بي الإدراك متعدد الطبقات
MHA الانتباه الذاتي متعدد الرؤوس
طبيب عام التجميع العالمي
FFN شبكة التغذية الأمامية
NL طبقة التطبيع
LR معدل التعلم
الجامعة الأمريكية في القاهرة المساحة تحت المنحنى
ROC الخصائص التشغيلية للمستقبل
رئيس الوزراء مصفوفة الالتباس

مقدمة

تشكل أمراض النباتات خطرًا هائلًا على إمدادات الغذاء في العالم. تختلف طبيعة هذا التهديد اعتمادًا على المرض المحدد والمحصول وظروف الزراعة، مما يجعل من الصعب إجراء تحليل المخاطر والتواصل.
بشكل فعال مع صانعي السياسات. بالإضافة إلى ذلك، تؤثر التغيرات العالمية مثل تغير المناخ على أنواع التهديدات المرضية التي تواجهها، ونتائجها المحتملة، والطرق المتبعة لمعالجتها. قد يواجه المزارعون صعوبة في تشخيص أمراض النباتات بدقة بسبب ميزاتها الصغيرة. علاوة على ذلك، يفتقر العديد من المزارعين إلى المعرفة لتشخيص الأمراض، لذا يمكن أن تساعدهم الذكاء الاصطناعي في تشخيص الأمراض بدقة أكبر.
لقد شهد الكشف عن أمراض النباتات زيادة في استخدام التعلم الآلي (ML) والتعلم العميق (DL)، اللذين أظهرا وعدًا في الكشف الدقيق عن الأمراض من الصور الرقمية [3]. تشمل بعض التقنيات الشائعة المستخدمة في التعلم الآلي آلة الدعم الناقل (SVM) [4-6]، والشبكات العصبية الاصطناعية (ANNs) [7]، وتقنية التجميع K-means [8]، ونايف بايز (NB) [9]. نظرًا لتقدمها، اكتسبت تقنيات التعلم العميق، وخاصة الشبكات العصبية التلافيفية (CNNs)، شعبية في رؤية الكمبيوتر. وقد دفع هذا التقدم الباحثين إلى التحقيق في استخدام الشبكات العصبية التلافيفية للكشف عن أمراض النباتات. بدأ موهنتي وآخرون [10] وباربيدو [11] أبحاثًا رائدة في هذا الاتجاه. استخدموا نماذج CNN مثل AlexNet وVGG16 وGoogleNet وResNet وطبقوا تقنية التعلم بالنقل ضمن أساليبهم. بالإضافة إلى ذلك، يعمل الباحثون على استخدام نماذج CNN مخصصة تتضمن كتل التلافيف من نماذج CNN المعروفة مثل VGG16 وInception Nets. تشمل هذه الهياكل طبقات تلافيفية، وطبقات تجميع، وطبقات متصلة بالكامل. يتكون وحدة Inception من طبقة التجميع الأقصى وطبقات الالتفاف المتوازية بأحجام مرشحات مختلفة. ثم يتم دمج مخرجات هذه الطبقات. لا يزال نموذج VGG يشكل أساسًا للعديد من الهياكل الأخرى بسبب بساطته وحقق المركز الثاني في مسابقة ILSVRC 2014.
لقد أظهر استخدام ViT وعدًا في تطوير نماذج لاكتشاف أمراض النباتات. قام الباحثون بالتحقيق في ViT لتحديد أمراض النباتات على الأجهزة المحمولة وتصنيف أمراض النباتات تلقائيًا في الوقت الحقيقي. لقد أدت النماذج المعتمدة على ViT أداءً ممتازًا في تصنيف مجموعات البيانات المرجعية مثل CIFAR-100 وOxford-IIIT Pets وOxford Flowers-102 وImageNet. تشمل النماذج المقترحة المعتمدة على ViT لاكتشاف أمراض النباتات MobileViT المتخصص في النباتات (PMVT) وInception Convolutional Vision Transformer (ICVT) والنهج الهجينة التي تجمع بين ViT وCNN.
إن الكشف والإدارة الفعالة للأمراض في المحاصيل أمران حيويان للحفاظ على إنتاجية الزراعة، وضمان الأمن الغذائي، وتعزيز النمو الاقتصادي. إن الاستثمارات في تقنيات الكشف وتصنيف الأمراض تحمي سبل عيش المزارعين وتساهم في الاستقرار والازدهار العام للدول المعتمدة على الزراعة. تشرح الدراسات الحالية أن الكشف عن أمراض النباتات لا يزال يمثل تحديًا، ويرجع ذلك أساسًا إلى
الأنواع العديدة من الأمراض والمحاصيل المتنوعة المعنية. تشابه الأعراض بين الأمراض المختلفة وأنماط هذه الأمراض المتغيرة مع مرور الوقت يزيد من تعقيد الوضع. التحدي هو أن الأساليب التقليدية قد واجهت صعوبة في استخراج الميزات ذات الصلة من الصور المدخلة. وبالتالي، يفضل الباحثون نماذج التعلم العميق، وخاصة الشبكات العصبية التلافيفية (CNNs)، التي يمكنها استخراج الميزات ذات الصلة والمعلوماتية تلقائيًا من البيانات المدخلة، مما يؤدي إلى أداء متفوق. ومع ذلك، فإن نماذج CNN محدودة في قدرتها على تحليل العلاقات بين البكسلات البعيدة، حيث إنها تأخذ في الاعتبار فقط الارتباط بين البكسلات المجاورة مكانيًا ضمن المجال الاستقبالي المحدد بحجم الفلتر. علاوة على ذلك، على الرغم من فعاليتها، غالبًا ما تتطلب نماذج CNN الحالية مجموعات بيانات كبيرة وموارد حسابية كبيرة، مما يمثل تحديات للتطبيقات في الوقت الحقيقي في البيئات ذات الموارد المحدودة. استكشف الباحثون مؤخرًا استخدام آليات الانتباه لمعالجة التحديات المرتبطة بالقدرة المحدودة لنموذج CNN في التقاط العلاقات بين البكسلات البعيدة. بالإضافة إلى ذلك، ركزت معظم الدراسات الحالية على نماذج CNN الفردية، مع تحقيق محدود في الفوائد المحتملة لأساليب النمذجة الجماعية لتحسين تعميم النتائج. وبالتالي، أنشأنا إطار عمل هجين يجمع بين عدة هياكل DL ومحولات الرؤية لاستخراج ميزات عميقة من خلال نهج هجين، كما هو موضح في الشكل 1. يمكن تلخيص النقاط الرئيسية في هذه الورقة كما يلي:
  • يتم اقتراح إطار هجين، يتضمن الشبكات العصبية التلافيفية العميقة (CNNs) ومحولات الرؤية، للكشف عن أمراض أوراق النباتات وتصنيفها.
  • الإطار المقترح من البداية إلى النهاية يلتقط أبرز الميزات، مما يسمح بالكشف الدقيق والتصنيف متعدد الفئات لأمراض أوراق النباتات.
  • تمت تجربة النموذج المقترح بشكل مكثف مع نوعين مختلفين من مجموعات بيانات أمراض أوراق النباتات (الذرة والتفاح) وتمت مقارنته بالنماذج المتطورة باستخدام نفس مجموعات البيانات.
الأقسام الأخرى من هذه الورقة البحثية هي كما يلي: القسم 2 يناقش الأعمال ذات الصلة الحديثة في تحديد أمراض النباتات. القسم 3 يقدم وصفًا شاملاً للمواد والأساليب. القسم 4 يقدم النتائج والمناقشة. القسم 5 يعرض الآثار الإدارية، بينما توجد خاتمة الورقة في القسم 6.
الشكل 1 مخطط تدفق الإطار المقترح لتحديد أمراض النباتات بدقة
كشف أمراض النباتات من خلال نماذج التعلم الآلي والتعلم العميق كان مجالًا بارزًا في الأبحاث الحديثة. طور جيانغ وآخرون [20] بنية شبكة عصبية تلافيفية عميقة للكشف عن أمراض أوراق التفاح. جمعت هذه البنية بين الشبكة العصبية التلافيفية ووحدة Inception لتحديد خمسة أنواع من أمراض أوراق التفاح. اقترح بوكوميرا وآخرون [21] نظام تصنيف للجزر باستخدام تقنيات الرؤية الحاسوبية وشبكة CNN ذات الرسم البياني المتسلسل. أظهرت هذه الإطار التعرفي القدرة على تصنيف الجزر بدقة وتقييمه. بالإضافة إلى ذلك، اقترحت دراسات أخرى نماذج التعلم العميق لتحديد أمراض أوراق التفاح، بما في ذلك فو وآخرون [22]، بانسال وآخرون [23]، وخان وآخرون [24]. لتعزيز الدقة، تستخدم هذه النماذج تقنيات متنوعة مثل زيادة الصور، وآليات الانتباه، والتفاف موسع. استكشفت الدراسات نماذج التعلم العميق الهجينة في مجالات مختلفة، مثل الزراعة والقطاع الطبي، لتشخيص الأمراض وتصنيفها [25-28]. أظهرت هذه التحقيقات فعالية دمج هياكل التعلم العميق لاستخراج الميزات ذات الصلة بفعالية من بيانات الإدخال. طور حسني وآخرون [29] نهجًا هجينًا باستخدام ميزات نموذج عميق خفيف وميزات نمط ثنائي محلي للكشف عن وتصنيف أمراض الأوراق في التفاح والعنب والطماطم. أسفرت هذه الطريقة عن معدلات دقة من ، و لكل نوع من النباتات، على التوالي. قام بريادارشيتي وآخرون [30] بإنشاء نموذج CNN عن طريق تعديل نموذج LeNet لتصنيف أمراض أوراق الذرة. تم استخدام مجموعة بيانات صور أوراق الذرة من PlantVillage لتدريب نهجهم. أظهر نموذجهم دقة وصلت إلى صمم وحيد وآخرون [31] هيكل DenseNet محسن لاكتشاف وتصنيف أمراض أوراق الذرة: العفن الورقي الشمالي، الصدأ الشائع، بقعة الورقة الرمادية، والأوراق الصحية. أسفرت طريقتهم عن دقة قدرها اقترح وو وآخرون [32] نموذج CNN لاكتشاف مرض العفن الورقي الشمالي على أوراق الذرة باستخدام صور الطائرات بدون طيار. استخدموا بنية ResNet المدربة مسبقًا لاستخراج الميزات، حيث استخدموا نتائجها كمدخلات لمصنف خطي بسيط. أسفر هذا النموذج عن دقة إجمالية قدرها لقد قام الباحثون أيضًا بالتحقيق في التنبؤ وتصنيف أمراض النباتات من خلال استخدام طريقة هجينة تجمع بين الشبكات العصبية التلافيفية (CNNs) وآليات الانتباه. أجرى زينغ ولي [33] تجارب تتضمن شبكة CNN متبقية معززة بالانتباه الذاتي لاكتشاف أمراض المحاصيل. أظهرت طريقتهم أداءً ملحوظًا، حيث حققت دقة بنسبة 98% على مجموعة بيانات MK-D2 ومعدل دقة بنسبة 95.33% على مجموعة بيانات أخرى، AES-CD9214. استخدم تشين وآخرون [34] نموذج MobileNet-V2 المدرب مسبقًا، الذي تم تدريبه سابقًا باستخدام ImageNet، مع دمج آلية الانتباه لتحديد مرض أوراق الأرز، مما أسفر عن دقة قدرها قدم تشيان وآخرون [35] نموذجًا جديدًا يختلف عن الشبكات العصبية التلافيفية التقليدية.
من خلال الاستفادة من المحولات وآليات الانتباه الذاتي. يقوم النموذج بتقسيم البيانات البصرية إلى أجزاء صغيرة ومحلية، ويحسب الارتباطات بين هذه المناطق باستخدام آلية الانتباه، ثم يجمع المعلومات الأكبر والأكثر شمولاً لإبلاغ مهمة التصنيف [35]. أظهر ريدا وآخرون [36] فعالية نموذج المحول البصري الخالي من الالتفاف، الذي يستفيد من آلية الانتباه الذاتي لمعالجة الصورة كسلسلة من الأجزاء من خلال مشفر المحول القياسي. على الرغم من استخدام مجموعة بيانات صغيرة نسبيًا، حققوا أداءً عاليًا، والذي نسبوه إلى تقنيات مثل زيادة البيانات، والتعلم الانتقالي، وعدد محدود من الفئات [36]. استخدم وو وآخرون [37] نهجًا مزدوج النطاق من خلال تمرير مجموعة البيانات عبر نموذجين من ViT في وقت واحد، أحدهما بحجم جزء صغير والآخر بحجم جزء كبير. ثم تم دمج مخرجات هذين النموذجين من ViT باستخدام نموذج دمج وتم تغذيتها إلى رأس متعدد الطبقات. استنتج الباحثون أنه من خلال دمج مقاييس مختلفة من تسلسلات الانتباه الذاتي، يمكن للنموذج استخراج معلومات أغنى من الصور على مستويات مختلفة من الدقة [37]. تم تلخيص تحليل الطرق الحالية المستخدمة لتحديد أمراض النباتات في الجدول 1. كما هو موضح في الجدول 1، تشير أداء التصنيف إلى الحاجة إلى مزيد من التحسينات.

المواد والطرق

العمارة المقترحة

تم تصوير بنية التعلم العميق الهجينة المقترحة لاكتشاف وتصنيف أمراض أوراق النباتات في الشكل 2. يتكون الإطار من ثلاثة شبكات CNN مسبقة التدريب: شبكة VGG16، شبكة Inception-v3، وشبكة DenseNet 201، وينتهي بكتلة ViT [38]. المساهمة الرئيسية للنموذج هي دمج هياكل CNN مسبقة التدريب لاستخراج الميزات العميقة بشكل فعال مع ViT الذي يتضمن تقنيات الانتباه الذاتي والإدراك متعدد الطبقات (MLP) لتحقيق نتائج دقيقة في التعرف والتصنيف. يمكن لنماذج CNN استكشاف العلاقة المكانية بين البكسلات المجاورة داخل منطقة الاستقبال المحددة بحجم مرشح الالتفاف مع تجاهل العلاقات الاتجاهية والمسافة بين هذه البكسلات [39]. ومع ذلك، فإن التقدم الأخير في المحولات المعتمدة على آليات الانتباه أكثر فعالية وقوة في اعتبار العلاقات البعيدة بين البكسلات وترابطها المكاني لتحسين الدقة في عمليات التعرف البصري. يتضمن الإطار الهجين المقترح للتعلم العميق المراحل الأساسية التالية للمعالجة. في البداية، يتم تغيير حجم صور أوراق النباتات إلى 128 × 128 بكسل. بعد ذلك، يتم تنفيذ أساليب زيادة البيانات لتوسيع حجم مجموعة البيانات، و
الجدول 1 ملخص للأعمال ذات الصلة في اكتشاف وتصنيف أمراض أوراق النباتات
مرجع هدف طريقة النتائج الرئيسية القيود
جيانغ وآخرون (2019) [20] الكشف الفوري عن أمراض أوراق التفاح شبكة عصبية تلافيفية محسّنة – توفير حل عالي الأداء مع كشف في الوقت الحقيقي
– محدود بأمراض أوراق التفاح.
– قد تجعل تعقيدات النموذج من الصعب نشره على الأجهزة ذات الطاقة المنخفضة.
بكوميرا وآخرون (2022) [21] تصنيف الجزر استنادًا إلى رؤية الكمبيوتر وشبكة الأعصاب التلافيفية الرسومية (GCNN) شبكة CNN ذات الرسم البياني المتسلسل مع تحسين بايزي – فعال في التقييم الآلي للجزر
– محدد لتصنيف الجزر، مع قابلية محدودة للتكيف مع محاصيل أخرى.
– قد يكون الـ GCNN مكلفًا من الناحية الحسابية للتقييم في الوقت الحقيقي.
فو وآخرون (2022) [22] نموذج خفيف الوزن لاكتشاف أمراض أوراق التفاح شبكة عصبية خفيفة الوزن – دقة عالية مع تقليل تعقيد النموذج – مركّز على أوراق التفاح؛ قد يفتقر النموذج إلى المتانة بالنسبة لمحاصيل أخرى.
بانسال وآخرون (2021) [23] كشف مرض أوراق التفاح مجموعة من نماذج الشبكات العصبية التلافيفية العميقة المدربة مسبقًا -تحسين دقة تصنيف أمراض التفاح – دقة التعرف تتدهور لعدة أمراض
خان وآخرون (2022) [24] نظام الكشف عن أمراض أوراق التفاح في الوقت الحقيقي شبكة CNN خفيفة الوزن وYolov4 – نموذج خفيف الوزن مع أداء في الوقت الحقيقي – أداء التصنيف يحتاج إلى تحسين
تاجي وآخرون (2024) [27] تصنيف أمراض النباتات باستخدام ميزات الشبكات العصبية التلافيفية الهجينة إطار عمل هجين يعتمد على الخوارزميات الميتاهيرستية والشبكات العصبية التلافيفية – تحسين الأداء من خلال تحسين الميتاهيرستيك تعديل الميتاهيرستيك معقد، مما قد يؤدي إلى تكاليف حسابية عالية ووقت طويل لت优化 المعلمات.
حسني وآخرون (2023) [29] تصنيف أمراض أوراق النباتات متعددة الفئات دمج الميزات بين الشبكات العصبية التلافيفية ونمط الثنائي المحلي -تحسين دقة التصنيف متعدد الفئات – قد تعيق التعقيدات في دمج الميزات قابلية تفسير النموذج ومرونته.
بريادارshini وآخرون (2019) [30] تصنيف أمراض أوراق الذرة لي نت المعدل -نموذج خفيف الوزن مع أداء في الوقت الحقيقي – تم تقييمه فقط لتصنيف أمراض أوراق الذرة
وحيد وآخرون (2020) [31] التعرف على مرض أوراق الذرة وتصنيفه – نموذج DenseNet المحسن – تحسين كفاءة ودقة التصنيف – قد تؤدي البنية المعمارية الكثيفة إلى زيادة استهلاك الذاكرة، مما قد يؤثر على النشر على الأجهزة ذات الموارد المحدودة.
وو وآخرون (2019) [32] الكشف الذاتي عن أمراض النباتات نموذج CNN على الصور الجوية – فعال في الكشف عن الأمراض على نطاق واسع – يقتصر على الصور الجوية، التي قد تفوت الأعراض الدقيقة للمرض.
زينغ ولي (2020) [33] التعرف على أمراض أوراق المحاصيل نموذج CNN مع الانتباه الذاتي – تحسين الدقة باستخدام آلية الانتباه الذاتي – تقييمات محدودة على مجموعات بيانات المحاصيل.
تشن وآخرون (2021) [34] كشف أمراض نبات الأرز MobileNet-V2 المدرب مسبقًا مع آلية الانتباه – فعال ودقيق لأمراض الأرز – الهيكل الخفيف قد يضحي بالتفاصيل في مجموعات البيانات المتنوعة أو عالية الدقة.
كيان وآخرون (2022) [35] تحديد أمراض أوراق الذرة شبكة عصبية تلافيفية قائمة على آلية الانتباه – دقة محسّنة مع الانتباه الذاتي – التكلفة الحسابية العالية بسبب طبقات الانتباه قد تحد من التطبيق في الوقت الحقيقي.
ريدها وآخرون (2022) [36] تصنيف الأعشاب والمحاصيل شبكة عميقة قائمة على الانتباه – أداء عالي، خاصة مع مجموعات بيانات تدريب صغيرة معالجة الصور عالية الدقة تتطلب موارد حسابية كبيرة، مما قد يعيق الاستخدام في الوقت الحقيقي.
وو وآخرون (2021) [37] التعرف على أمراض أوراق الطماطم فيت – نموذج استخراج الميزات متعدد الدقة – قد تحدد التعقيد الحسابي العالي لمحوّلات الرؤية من الاستخدام في الوقت الحقيقي
بعد ذلك، يتم تقسيم البيانات إلى مجموعات فرعية للتدريب والتحقق والاختبار. ثانياً، تقوم أحدث هياكل الشبكات العصبية العميقة المجمعة (VGG16، Inception-v3، وDenseNet 201) باستخراج ميزات التعلم العميق. أخيراً، تتلقى ViT هذه الميزات العميقة المجمعة من الهياكل المعتمدة على CNN. هنا، تحدد شبكة الانتباه الذاتي الأعراض المتنوعة داخل الصور المقدمة. ثم يتم تحسين أداء اكتشاف الأعراض غير الدقيقة في مجموعة البيانات باستخدام كتلة MLP. تقدم ViT التي تستخدم الانتباه الذاتي متعدد الرؤوس (MHA) نهجاً فعالاً لمعالجة قطع الصور وتسهيل استخراج الميزات البارزة داخل القطع. يجمع دمج CNN وشبكة ViT بينهما لإنشاء مستخرج ميزات قوي يدمج بين الميزات المحلية.
والميزات العالمية، مما يعزز من قابلية تفسير النموذج.

1.1. هياكل التعلم العميق المدربة مسبقًا

تناقش الفقرات الفرعية التالية الهياكل المعتمدة على التعلم العميق المدربة مسبقًا والتي تُستخدم كأساس للإطار الهجين المقترح: VGG16 [40]، GoogleNet [41]، وDenseNet201 [42].

1.1.1.VGG16

تم تدريب شبكة VGG16 العصبية التلافيفية، التي أنشأها سيمونيان وزيسيرمان [40]

نماذج مدربة مسبقًا

(استخراج الميزات العميقة)

الشكل 2 مخطط كتلي للنموذج المقترح لاكتشاف وتصنيف أمراض أوراق النباتات
باستخدام مجموعة بيانات ImageNet. نحن نستخدم نموذج VGG16 المدرب مسبقًا الذي التقط ميزات مهمة من مجموعة بيانات ImageNet الواسعة. نقوم بتوظيف هذا النموذج VGG16 وأوزانه المدربة مسبقًا ولكننا نستبعد طبقات التصنيف الأصلية المصممة لفئات مختلفة ونقوم بدمج طبقات تصنيف مخصصة تتكيف مع مجموعة البيانات الجديدة. بعد ذلك، يتم تجميد أوزان الطبقات التلافيفية للحفاظ على قدراتها المكتسبة من مرحلة التدريب الأولية.

1.1.2. جوجل نت

جوجل نت، المعروف أيضًا باسم إنسيبشن-في1، هو هيكل شبكة عصبية تلافيفية تم إنشاؤه بواسطة جوجل. يهدف نموذج جوجل نت إلى دمج مرشحات بأحجام مختلفة يمكن أن تعمل في وقت واحد. يمكن لكل وحدة إنسيبشن التقاط مستويات مختلفة من الميزات الهامة. على سبيل المثال، بينما طبقة الالتفاف تستخرج الميزات العالمية، طبقة الالتفاف أفضل في التعرف على الميزات المتناثرة. تركز طبقة التجميع الأقصى على استخراج الميزات المميزة ذات المستوى المنخفض.
منطقة محلية. بعد ذلك، يتم جمع هذه الميزات المتنوعة ودمجها على مستوى محدد قبل أن يتم نقلها إلى الطبقة التالية.

1.1.3. DenseNet201

تسهل بنية DenseNet انتشار المعلومات بين طبقات الشبكة من خلال إنشاء اتصالات من كل طبقة إلى الطبقات التالية بطريقة انتشار أمامية مع الحفاظ على حجم خريطة الميزات ثابتًا. يتم تحقيق ذلك عن طريق دمج مخرجات الطبقة السابقة مع مخرجات الطبقة التالية. تتكون طبقات الانتقال من التفافات و تجميع متوسط. يتم استخدام طبقة التجميع العالمي (GP) بعد الكتلة الكثيفة النهائية قبل تطبيق SoftMax [42].

1.2. محول الرؤية (ViT)

كما هو موضح في الشكل 3، قام دوسوفيتسكي وآخرون [38] بإنشاء بنية ViT من خلال تعديل مشفر المحول الأصلي،
الشكل 3 وصف تفصيلي لكتلة ViT (أ) نموذج Vit الذي قدمه دوسوفيتسكي وآخرون [38] (ب) بنية مشفر المحولات
الذي عالج بنجاح تحديات معالجة اللغة الطبيعية. يتكون ViT من كتل MHA، وشبكات MLP مع إسقاط خطي، ونهج تضمين موضعي. لإدخال صورة في نموذج ViT، يتم تقسيمها إلى قطع غير متداخلة بحجم ثابت. يتم بعد ذلك تسطيح هذه القطع وتحويلها إلى أشكال ذات أبعاد أقل. كل قطعة مسطحة تتعرض لتحويل خطي قابل للتدريب لإنتاج إسقاطها الخطي وتضمينها الموضعي. يتم معالجة المتجه الناتج من الإسقاط الخطي والتضمين في كتلة المحول. تشمل هذه الكتلة MHA، وشبكة التغذية الأمامية حسب الموضع (FFN)، وطبقة التطبيع (NL)، والاتصالات المتبقية لكل من MHA وFFN. يمكن أن يتم الانتباه إلى كل قطعة بشكل فردي من خلال آلية MHA، مما يحسن قدرة النموذج على استخراج العلاقات بعيدة المدى ضمن بيانات الإدخال.
تمثل تمثيلات الإدخال بواسطة المصفوفات Q (الاستعلام)، K (المفتاح)، و V (القيمة)، حيث تشير d إلى أبعاد متجهات K و Q.
في سياق MHA، A هو متجه الإدخال الذي يحول ثلاثة متجهات متميزة ، و ؛ حيث ، و تمثل المصفوفات الوزن. يتم إنتاج مصفوفة الدرجات من خلال حساب حاصل الضرب النقطي بين Q وtranspose لـ K. بعد ذلك، يتم تطبيق دالة تفعيل SoftMax على متجه الإخراج كما هو موضح في المعادلة 1 [15]. بالإضافة إلى ذلك، نقوم بإضافة طبقة Dense ونستخدم طبقة Dropout قبل طبقة SoftMax في رؤوس التصنيف. تم تخصيص هذه الطبقات بشكل صريح لتصنيف أمراض أوراق النباتات.

1.3. استخراج ودمج الميزات العميقة

تشير الأبحاث إلى أن معظم الأساليب المتقدمة في التعلم العميق لتحديد أمراض أوراق النباتات تعتمد على شبكة عصبية تلافيفية واحدة. لم يتم استكشاف التعلم الجماعي بشكل موسع في اكتشاف وتصنيف أمراض النباتات. تستخدم هذه الدراسة دمج الميزات كنهج للتعلم الجماعي، بهدف التقاط ميزات عميقة وقوية. كما هو موضح في الشكل 1، تم إنشاء الشبكة الأساسية للنموذج المقترح باستخدام نماذج تعلم عميق مسبقة التدريب مثل VGG16 وInception-V3 وDenseNet201. يسمح دمج الميزات من نماذج مختلفة للنموذج الجماعي بالاستفادة من مجموعة أوسع من الميزات [2، 43-45]. يتضمن دمج هياكل التعلم العميق التي تتكون من VGG16 وGoogleNet و
الجدول 2 توزيع البيانات لمجموعة بيانات مرض أوراق التفاح
فهرس الصف اسم الصف حجم مجموعة التدريب (80%) حجم مجموعة الاختبار (20%) إجمالي
0 صدأ التفاح ٨٠٠ ٢٠٠ ١٠٠٠
1 تعفن أسود ٨٠٠ ٢٠٠ ١٠٠٠
2 صدأ تفاح الأرز ٨٠٠ ٢٠٠ 1,000
٣ صحي ١٣١٦ ٣٢٩ 1,645
إجمالي ٣٧١٦ 929 ٤٦٤٥
الجدول 3 توزيع البيانات لمجموعة بيانات أمراض أوراق الذرة
فهرس الصف اسم الصف حجم مجموعة التدريب (80%) حجم مجموعة الاختبار (20%) إجمالي
0 بقعة الأوراق الرمادية ١٣٦٣ ٣٤١ ١٧٠٤
1 صدأ شائع 1,358 ٣٤٠ ١٦٩٨
2 تعفن الأوراق الشمالية ١٣٦٣ ٣٤١ ١٧٠٤
٣ صحي ١٣٣٤ ٣٣٤ 1,668
إجمالي ٥٤١٨ 1,356 ٦٧٧٤
تضمن DenseNet201 إزالة طبقة التصنيف من كل نموذج واستخراج الميزات العميقة من آخر طبقة تلافيفية. عند إزالة طبقة التصنيف، أنتج هيكل VGG16 مخرجات بحجم (None, 4, 4, 512)، بينما كانت المخرجات لـ GoogleNet و DenseNet هي (None, 2, 2, 2048) و (None, 4, 4, 1920) على التوالي. استدعت المخرجات المميزة من هيكل GoogleNet توحيد جميع ميزات المخرجات، والتي
تضمن ذلك إضافة حشو صفري إلى بنية GoogleNet قبل دمج الميزات.

1.4. مجموعات البيانات

تم استخدام مجموعتين من البيانات المتاحة للجمهور من PlantVillage [46] لتقييم فعالية إطار العمل الهجين المقترح في التعلم العميق. تتكون مجموعة بيانات أوراق التفاح من 4,645 صورة ورقة مقسمة إلى أربع فئات: Apple_scab و Black_rot و Cedar_apple_rust و Healthy (انظر الجدول 2). علاوة على ذلك، استخدمنا مجموعة بيانات أوراق الذرة التي تحتوي على 6,774 صورة ورقة مقسمة إلى أربع فئات محددة: Gray_leaf_spot و Common_rust و Northern_leaf_blight و Healthy (انظر الجدول 3). كما هو موضح في الجداول 1 و 2، تستخدم الدراسة التجريبية للهندسة المعمارية المقترحة مجموعة بيانات مقسمة عشوائيًا، مع مخصص للتدريب و لأغراض الاختبار. علاوة على ذلك، يتم إنشاء مجموعة فرعية للتحقق من صحة البيانات من بيانات التدريب، تشكل 15% من إجمالي مجموعة البيانات. توضح الشكل 4 بعض عينات صور الأوراق المأخوذة من كل مجموعة بيانات. بالإضافة إلى ذلك، يتم تغيير حجم جميع صور أوراق النباتات إلى بكسلات.

1.5. إعداد التجارب

تم تطوير إطار العمل الهجين المقترح باستخدام منصة TensorFlow ومكتبات Keras مفتوحة المصدر. كما هو موضح في الجدول 4، استخدم عملية التدريب المحسن آدم ودالة خسارة الانتروبيا المتقاطعة الفئوية.
الشكل 4 أمثلة من مجموعة بيانات أوراق النباتات (PlantVillage [46]). (أ) مجموعة بيانات أوراق الذرة، و(ب) مجموعة بيانات أوراق التفاح
الجدول 4: المعلمات الفائقة للإطار المقترح
وظيفة معامل قيمة
معلمات التدريب محسّن آدم
معدل التعلم 0.0001
عصور 50
حجم الدفعة ٣٢
معلمات ViT حجم الدفعة ٢
البعد المدمج 64
عدد رؤوس الانتباه ٨
عدد طبقات الشبكة العصبية متعددة الطبقات 256
استخدمت التجربة معدل تعلم (LR) قدره 0.0001 مع 50 دورة ودمجت طريقة التوقف المبكر مع صبر قدره 10. بالنسبة لـ ViT، كانت حجم القطعة المستخدمة 2، مع معدل تسرب قدره 0.01 تم تطبيقه على جميع الطبقات، واستخدمت 8 رؤوس. بالإضافة إلى ذلك، كانت الأبعاد المدمجة 64 (تشير إلى البعد الذي يسمح بتحويل المتجهات عالية الأبعاد إلى متجهات منخفضة الأبعاد دون أي فقد) وعدد البيرسيترونات متعددة الخطوط هو 256. بالإضافة إلى ذلك، يتم تغيير حجم جميع صور أوراق النباتات إلى 128 × 128 بكسل. تم تنفيذ هذه الإجراءات التجريبية على منصة Google Colab لتطبيق النموذج المقترح.

1.6. تقييم النموذج

تُستخدم مقاييس الأداء القياسية، بما في ذلك الدقة، والموثوقية، والاسترجاع، ودرجة F1، ومنحنى منطقة تحت منحنى التشغيل الاستقبالي (AUC-ROC)، ومصفوفة الالتباس (CM)، لتقييم النهج المقترح وكل نموذج مقارنة [47]. تم صياغة هذه المصفوفات التقييمية رياضيًا على النحو التالي:
دقة
دقة
استرجاع
درجة F1
هنا ، و تشير إلى الإيجابيات الحقيقية، السلبيات الحقيقية، الإيجابيات الكاذبة، والسلبيات الكاذبة، على التوالي.
الجدول 5 نتائج تصنيف النماذج باستخدام صور اختبار غير مرئية لأمراض أوراق النباتات
نموذج التعلم العميق مقاييس التقييم
الدقة (%) الدقة (%) استرجاع (%) درجة F1 (%)
تفاح 96 96 96 96
VGG16
إنسيبشن-3 94 94 94 94
دينس نت 201 97 97 97 97
VGG1VGG16 + InceptionV3 + DenseNet201 97.6 ٩٨ 98 98
النموذج الهجين المقترح 99.24 99 99 99
ذرة 96 96 96 96
في جي جي 16
إنسيبشن-3 93.87 94 94 94
دينس نت 201 97 97 97 97
VGG16 + InceptionV3 + DenseNet201 97 97 97 97
النموذج الهجين المقترح 98 98 98 98

النتائج والمناقشة

تركز هذه الجزء على تقديم نتائج التجارب التي أجريت لتقييم كفاءة الهيكل الهجين المقترح في اكتشاف وتصنيف أمراض أوراق النباتات. كما يتضمن مقارنة أداء هذا النموذج مع نماذج CNN وViT المتطورة الأخرى. تم تقييم فعالية هياكل النماذج المختلفة باستخدام مجموعة البيانات الكاملة المقدمة. أولاً، تم إجراء تقييم فردي لكل نموذج مدرب مسبقًا، مثل VGG16 وInception-V3 وDenseNet201. ثم تم تقييم أداء مجموعة تتكون من VGG16 وInception-V3 وDenseNet201، وأخيرًا، تم تقييم دمج هذه النماذج المدربة مسبقًا وViT لاكتشاف وتصنيف أمراض أوراق النباتات. كما هو موضح في الجدول 5، تشمل مقاييس التقييم المستخدمة في التحليل المقارن الدقة، والموثوقية، والاسترجاع، ودرجة F1، مما يوفر تقييمًا شاملاً لأداء النماذج. تشير النتائج لمجموعة بيانات التفاح إلى أن نموذج VGG16 حقق الأداء عبر جميع مقاييس التقييم. بينما أظهر نموذج VGG16 أداءً معتدلاً، كان أداء نموذج Inception-v3 أسوأ قليلاً، حيث وصل إلى عبر جميع المقاييس. بالمقابل، تفوق نموذج DenseNet201 على كل من VGG16 و Inception-v3، محققًا الأداء في جميع المقاييس، مما يشير إلى قدرته الفائقة في تصنيف أمراض أوراق التفاح. عندما تم دمج النماذج (VGG16 و Inception-v3 و DenseNet201)، تحسن الأداء، مع دقة قدرها الدقة والاسترجاع لـ ، و
درجة F1 من من الجدير بالذكر أن النموذج الهجين المقترح يتفوق على النماذج الأخرى، محققًا دقة قدرها والدقة والاسترجاع ودرجات F1 بنسبة 99%. وهذا يشير إلى أن الجمع بين الشبكات العصبية التلافيفية (CNNs) ونموذج فيجن ترانسفورمر (ViT) يوفر أداء تصنيف محسّن بشكل كبير على أمراض أوراق التفاح. يظهر نموذج VGG16 أداءً متسقًا لمجموعة بيانات الذرة، محققًا عبر جميع مقاييس التقييم. بالمقابل، يظهر نموذج Inception-v3 نتائج أقل قليلاً، حيث يحقق دقة قدرها و في الدقة والاسترجاع ودرجة F1. ومن الجدير بالذكر أن نموذج DenseNet201 يظهر كنموذج فردي قوي، حيث يصل إلى في جميع المقاييس. علاوة على ذلك، يتطابق نموذج التجميع مع أداء DenseNet201 بمفرده، محققًا عبر جميع المقاييس. أيضًا، يتفوق النموذج الهجين المقترح على النماذج الأخرى، حيث يصل إلى الدقة، الدقة المتناهية، الاسترجاع، ودرجة F1.
تشير الأشكال 5 و 6 إلى أن تدريب النموذج المقترح قد توقف بعد 26 و 27 دورة تدريبية لمجموعات بيانات التفاح والذرة، على التوالي. كما هو موضح في الشكل 5، وصلت نسبة دقة التدريب إلى ، وبلغت دقة التحقق لمجموعة بيانات آبل. بالإضافة إلى ذلك، تشير الشكل 6 إلى
أن دقة التدريب والتحقق لمجموعة بيانات الذرة وصلت إلى و ، على التوالي. تم استخدام مصفوفة الالتباس للنموذج الهجين المقترح لقياس عدد العينات التي تم اكتشافها بدقة والأخرى التي تم اكتشافها بشكل خاطئ لمجموعات بيانات التفاح والذرة، كما هو موضح في الشكلين 7 و8. تعتبر مصفوفة الالتباس أداة تحليلية قيمة لتقييم أداء نموذج التصنيف، حيث توفر رؤى حول قدرة النموذج على تصنيف أنواع مختلفة من أمراض أوراق النباتات بدقة. كما هو موضح في الشكل 7، أظهر النموذج الهجين المقترح دقة عالية في تصنيف العينات لمرض التفاح (Apple_scab)، حيث تم التعرف بشكل صحيح على 196 من أصل 200 عينة، مع تصنيف 3 منها بشكل خاطئ كمرض تعفن أسود (Black_rot) و1 كصدأ تفاح الأرز (Cedar_apple_rust). بالنسبة لمرض التعفن الأسود (Black_Rot)، أدى النموذج بشكل مثالي، حيث صنف جميع العينات البالغ عددها 200 بشكل صحيح. وبالمثل، بالنسبة لصدأ تفاح الأرز (Cedar apple_rust)، صنف النموذج بشكل صحيح 199 من أصل 200 عينة، مع تصنيف 1 بشكل خاطئ كمرض التفاح (Apple_scab). أخيرًا، تم التعرف بشكل صحيح على 325 من أصل 329 عينة لفئة الصحة (Healthy)، مع تصنيف 2 بشكل خاطئ كمرض التفاح (Apple_scab) و2 كمرض تعفن أسود (Black_rot). بالنسبة لفئة بقعة الورقة الرمادية (Gray_leaf_spot) من مجموعة بيانات الذرة (الشكل 8)، تم التعرف بشكل صحيح على 320 من أصل 341 عينة، مع تصنيف 21 منها بشكل خاطئ كمرض العفن الورقي الشمالي (Northern_leaf_blight). بالنسبة لمرض الصدأ الشائع (Common_rust)، تم التعرف بشكل صحيح على 337 من أصل 340 عينة، مع تصنيف 2 منها بشكل خاطئ كمرض بقعة الورقة الرمادية (Gray_leaf_spot) و1 كمرض العفن الورقي الشمالي (Northern_leaf_blight). بالنسبة لـ
الشكل 5 دقة مجموعة بيانات آبل ورسم خسارة النموذج المقترح. (أ) دقة التدريب والتحقق، و (ب) خسارة التدريب والتحقق
الشكل 6 رسم دقة وخسارة مجموعة بيانات الذرة للنموذج المقترح. (أ) دقة التدريب والتحقق، و (ب) خسارة التدريب والتحقق
تم تصنيف 334 من أصل 341 عينة بواسطة النموذج لمرض Northern_leaf_blight، مع 7 عينات تم تصنيفها بشكل خاطئ كـ Gray_leaf_spot. أخيرًا، أدّى النموذج أداءً مثاليًا لفئة Healthy، حيث قام بتصنيف جميع العينات البالغ عددها 334 بشكل صحيح. بشكل عام، تُظهر مصفوفة الارتباك الأداء القوي للنموذج الهجين عبر الفئات المختلفة لمجموعات بيانات التفاح والذرة. قمنا بتقييم نتائج AUC-ROC للفئات الفردية ضمن مجموعات بيانات التفاح والذرة لقياس فعالية النموذج المقترح، كما هو موضح في الأشكال 9 و10. تشير منحنيات AUCROC لمجموعات بيانات التفاح والذرة إلى أن النموذج يتفوق في التمييز بين الفئات المختلفة من أمراض النباتات. تسلط درجات AUC المثالية البالغة 1.0 و0.99 عبر جميع الفئات الضوء على قوة النموذج وقدرته على تحديد أمراض النباتات بشكل صحيح. تقارن الجدول 6 نماذج تصنيف أمراض النباتات التي تم تقديمها حديثًا مع النموذج الهجين المقترح. تقيّم هذه الدراسة المقارنة النماذج المتطورة لتصنيف أمراض النباتات. يظهر النموذج المقترح أداءً متفوقًا، محققًا معدلات دقة استثنائية من و على مجموعات بيانات التفاح والذرة، على التوالي، متفوقًا على جميع النماذج الأخرى المعروضة في الجدول. يمكن أن يُعزى هذا النجاح الملحوظ إلى دمج الميزات العميقة المستخرجة من ثلاث بنى CNN مدربة مسبقًا.
(VGG16 و Inception-V3 و DenseNet201) ودمج تقنية ViT.
لذلك، يجمع هذا الإطار الهجين بين قوة الشبكات العصبية التلافيفية (CNNs) ونموذج المحولات (ViT) لإنتاج ميزات أكثر قوة لتصنيف أمراض أوراق النباتات. يتم تحسين دقة وكفاءة عملية التصنيف باستخدام نهج تجميعي يتضمن ثلاث هياكل مسبقة التدريب وViT. أظهر النموذج المقترح دقة استثنائية من و لبيانات التفاح والذرة، على التوالي، متجاوزةً النماذج المتطورة الأخرى المعتمدة على هياكل CNN والمحولات.
من الضروري الاعتراف بحدود هذه التكنولوجيا. تشمل هذه الحدود الحاجة إلى تنوع بيانات أوسع لضمان تعميم موثوق، وزيادة القابلية للتفسير لتعزيز الثقة بين المستخدمين النهائيين، وقابلية التوسع لاستيعاب مناطق زراعية أكبر. بالإضافة إلى ذلك، فإن الدرجة العالية من التشابه في أنماط الأمراض والألوان والملمس، إلى جانب الأمراض التي لا تظهر أعراضًا مبكرة على أوراق النباتات، تشكل عقبات كبيرة في تطوير حلول فعالة تعتمد على الذكاء الاصطناعي. علاوة على ذلك، فإن ظهور أنواع جديدة من الأمراض وسلوك انتشارها المتغير بسبب تغير المناخ يزيد من تفاقم المشكلة. يتطلب معالجة هذه التحديات استكشاف وتنفيذ طرق وتقنيات جديدة.
الشكل 7 مصفوفة الالتباس للنموذج الهجين المقترح باستخدام مجموعة بيانات آبل
التعاون مع خبراء الموضوع، والتكامل مع المعدات الزراعية، ومعالجة إدارة البيانات الأخلاقية هي جميعها خطوات حاسمة لمزيد من تحسين وتعزيز قدرات النظام. من خلال مواجهة هذه التحديات والسعي نحو هذه الاتجاهات المستقبلية، يمكن للقطاع الزراعي الاستفادة بالكامل من إمكانيات الأنظمة المعتمدة على التعلم العميق، مما يؤدي إلى استدامة في ممارسات الزراعة التي تساهم في الازدهار الاقتصادي.

الآثار الإدارية

الإطار الهجين المقترح، الذي يدمج الشبكات العصبية التلافيفية (CNNs) ونموذج المحولات (ViT)، يوفر حلاً لتصنيف أمراض أوراق النباتات بدقة وكفاءة في البيئات الزراعية. يمكن للإطار تحقيق تعميم قوي عبر أنواع نباتات وأمراض متنوعة من خلال دمج الشبكات العصبية التلافيفية لاستخراج الميزات ونموذج المحولات لاستخراج المعلومات العالمية.
الشكل 8 مصفوفة الالتباس للنموذج الهجين المقترح باستخدام مجموعة بيانات الذرة
التداخلات. تم التحقق من صحة هذا الإطار من خلال تجارب شاملة على مجموعات بيانات التفاح والذرة، مما يوضح أدائه المتفوق مقارنةً بالطرق المتطورة.
يمكن أن يؤدي تنفيذ هذا الإطار إلى تعزيز كبير في التعرف المبكر على أمراض النباتات في تطبيقات الزراعة العملية، مما يعزز الزراعة الدقيقة. بالإضافة إلى ذلك، فإن استخدام التعلم المنقول والنماذج المدربة مسبقًا يعالج
تحدي ندرة البيانات. يمكن اعتماد هذا الإطار الهجين لإنشاء أنظمة تحديد أمراض النباتات بشكل آلي، مما يؤدي إلى تحسين إدارة المحاصيل وزيادة الإنتاجية مع التخفيف من تأثير أمراض النباتات على إنتاج الغذاء. علاوة على ذلك، فإن نجاح هذا الإطار يبرز الفرص للبحث والتطوير الإضافي، بما في ذلك إمكانيته للتوسع.
منحنى ROC لأمراض أوراق التفاح
الشكل 9 نتائج AUC-ROC من النموذج الهجين المقترح باستخدام مجموعة بيانات Apple
تنفيذ في الوقت الحقيقي، وقابلية التكيف مع محاصيل وأمراض أخرى.

الخاتمة

تقدم هذه الدراسة إطار عمل هجين يجمع بين الشبكات العصبية التلافيفية (CNNs) ونموذج التحويل البصري (ViT) لتحديد وتصنيف أمراض أوراق النباتات. في البداية، تم استخدام ثلاث هياكل CNN مدربة مسبقًا (VGG16 وInceptionV3 وDenseNet201) لاستخراج ميزات الورقة. تم ضبط أوزان هذه النماذج المدربة مسبقًا باستخدام مجموعة بيانات ImageNet. بعد ذلك، تم الاستفادة من ViT لاستخراج الميزات العميقة للأوراق. أخيرًا، يقوم مصنف الرأس متعدد الطبقات (MLP) بتحديد فئة الورقة. تم تقييم فعالية النموذج المقترح من خلال مقاييس الدقة، والوضوح، ودرجة F1، والاسترجاع. تم استخدام مجموعتين من البيانات المتاحة للجمهور من مستودع PlantVillage (التفاح والذرة) لتقييم فعالية الإطار المقترح. يحقق النموذج الهجين المقترح نتائج ملحوظة.
عدم الدقة في و لبيانات التفاح والذرة، على التوالي. بالإضافة إلى ذلك، فإن أداء النموذج المقترح في اكتشاف وتصنيف أمراض أوراق النباتات يتجاوز العديد من النماذج المتطورة. يُظهر هذا النموذج إمكانيات كبيرة لمزيد من التقييم باستخدام مجموعات بيانات نباتية متنوعة، والتي يمكن أن تقدم مساعدة قيمة للصناعة في حماية سبل العيش وتقديم خيارات خدمات ذكية للمزارعين. النموذج المقترح دقيق وقابل للتطبيق في مجموعات بيانات نباتية وفاكهية وبيانات سيقان النباتات. أيضًا، يُعتبر النموذج المقترح أداة محتملة لمجموعة متنوعة من تطبيقات ورموز الرؤية الحاسوبية، مثل التعرف على الوجوه المmasked، واكتشاف السرطان وتصنيفاته، ومراقبة الجودة الصناعية المعتمدة على الصور.
منحنى ROC لأمراض أوراق الذرة
الجدول 6 مقارنة مع الأساليب المتطورة الأخرى لمرض أوراق النباتات (مجموعة بيانات PlantVillage [46])
الشكل 10 نتائج AUC-ROC من النموذج الهجين المقترح باستخدام مجموعة بيانات الذرة
مجموعة بيانات المؤلفون نهج الدقة (%)
تفاح ثاكور وآخرون (2021) [48] سي إن إن + في تي 98.6
لي وآخرون (2022) [49] سي إن إن + في تي 96.7
أرشاد وآخرون (2023) [44] سي إن إن + في تي ٩٦.٤٢
النموذج الهجين المقترح مجموعة من نماذج التعلم العميق المدربة مسبقًا مع ViT 99.24
ذرة وحيد وآخرون (2020) [31] نموذج DenseNet المحسن ٩٨
Qian وآخرون (2022) [35] مبني على الانتباه والمحولات 97.7
ميشرا وآخرون (2020) [50] DCCN ٨٨.٤٦
النموذج الهجين المقترح مجموعة من نماذج التعلم العميق المدربة مسبقًا مع ViT 98
الشكر والتقدير تم تمويل هذا العمل من قبل جامعة جدة، جدة، المملكة العربية السعودية، بموجب المنحة رقم (UJ -24 -DR -20755-1). لذلك، يشكر المؤلفون جامعة جدة على دعمها الفني والمالي.
توفر البيانات ستكون البيانات متاحة عند الطلب.

الإعلانات

تعارض المصالح / المصالح المتنافسة لا يوجد تعارض في المصالح.
الوصول المفتوح هذه المقالة مرخصة بموجب رخصة المشاع الإبداعي النسبية-غير التجارية-بدون اشتقاقات 4.0 الدولية، التي تسمح بأي استخدام غير تجاري، ومشاركة، وتوزيع، وإعادة إنتاج في أي وسيلة أو صيغة، طالما أنك تعطي الائتمان المناسب للمؤلفين الأصليين والمصدر، وتوفر رابطًا لرخصة المشاع الإبداعي، وتوضح إذا قمت بتعديل المادة المرخصة. ليس لديك إذن بموجب هذه الرخصة لمشاركة المواد المعدلة المشتقة من هذه المقالة أو أجزاء منها. الصور أو المواد الأخرى من طرف ثالث في هذه المقالة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة، ما لم يُشار إلى خلاف ذلك في سطر الائتمان للمادة. إذا لم تكن المادة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة وكان استخدامك المقصود غير مسموح به بموجب القانون.
إذا كانت اللوائح أو الاستخدامات تتجاوز الاستخدام المسموح به، ستحتاج إلى الحصول على إذن مباشرة من صاحب حقوق الطبع والنشر. لعرض نسخة من هذه الرخصة، قم بزيارة http://creativecommons.org/licenses/by-nc-nd/4.0/.

References

  1. Savary S, Bregaglio S, Willocquet L, Gustafson D, Mason D’Croz D, Sparks A, Garrett K (2017) Crop health and its global impacts on the components of food security. Food Secur 9:311-327
  2. Borhani Y, Khoramdel J, Najafi E (2022) A deep learning-based approach for automated plant disease classification using vision transformer. Sci Rep 12(1):11554
  3. Shoaib M, Shah B, Ei-Sappagh S, Ali A, Ullah A, Alenezi F, Ali F (2023) An advanced deep learning models-based plant disease detection: a review of recent research. Front Plant Sci 14:1158933
  4. Hou C, Zhuang J, Tang Y, He Y, Miao A, Huang H, Luo S (2021) Recognition of early blight and late blight diseases on potato leaves based on graph cut segmentation. J Agric Food Res 5:100154
  5. Sun Y, Jiang Z, Zhang L, Dong W, Rao Y (2019) SLIC_SVM based leaf diseases saliency map extraction of tea plant. Comput Electron Agric 157:102-109
  6. Zhang S, Wang Z (2016) Cucumber disease recognition based on global-local singular value decomposition. Neurocomputing 205:341-348
  7. Hamdani H, Septiarini A, Sunyoto A, Suyanto S, Utaminingrum F (2021) Detection of oil palm leaf disease based on color histogram and supervised classifier. Optik 245:167753
  8. Ramesh S, Vydeki D (2020) Recognition and classification of paddy leaf diseases using optimized deep neural network with Jaya algorithm. Inform Process Agric 7(2):249-260
  9. Johannes A, Picon A, Alvarez-Gila A, Echazarra J, RodriguezVaamonde S, Navajas AD, Ortiz-Barredo A (2017) Automatic plant disease diagnosis using mobile capture devices, applied on a wheat use case. Comput Electron Agric 138:200-209
  10. Mohanty SP, Hughes DP, Salathé M (2016) Using deep learning for image-based plant disease detection. Front Plant Sci 7:1419
  11. Barbedo JGA (2018) Impact of dataset size and variety on the effectiveness of deep learning and transfer learning for plant disease classification. Comput Electron Agric 153:46-53
  12. Chen J, Chen J, Zhang D, Sun Y, Nanehkaran YA (2020) Using deep transfer learning for image-based plant disease identification. Comput Electron Agric 173:105393
  13. Thakur PS, Sheorey T, Ojha A (2023) VGG-ICNN: a lightweight CNN model for crop disease identification. Multimedia Tools Appl 82(1):497-520
  14. Shah SR, Qadri S, Bibi H, Shah SMW, Sharif MI, Marinello F (2023) Comparing inception V3, VGG 16, VGG 19, CNN, and ResNet 50: a case study on early detection of a Rice Disease. Agronomy 13(6): 1633
  15. Thakur PS, Chaturvedi S, Khanna P, Sheorey T, Ojha A (2023) Vision transformer meets convolutional neural network for plant disease classification. Ecol Inf 77:102245
  16. Li G, Wang Y, Zhao Q, Yuan P, Chang B (2023) PMVT: a lightweight vision transformer for plant disease identification on mobile devices. Front Plant Sci 14:1256773
  17. Yu S, Xie L, Huang Q (2023) Inception convolutional vision transformers for plant disease identification. Internet Things 21:100650
  18. De Silva M, Brown D (2023) Multispectral plant Disease Detection with Vision transformer-convolutional neural network hybrid approaches. Sensors 23(20):8531
  19. Boukabouya RA, Moussaoui A, Berrimi M (2022), November Vision Transformer Based Models for Plant Disease Detection
    and Diagnosis. In 2022 5th International Symposium on Informatics and its Applications (ISIA) (pp. 1-6). IEEE
  20. Jiang P, Chen Y, Liu B, He D, Liang C (2019) Real-time detection of apple leaf diseases using deep learning approach based on improved convolutional neural networks. IEEE Access 7:59069-59080
  21. Bukumira M, Antonijevic M, Jovanovic D, Zivkovic M, Mladenovic D, Kunjadic G (2022) Carrot grading system using computer vision feature parameters and a cascaded graph convolutional neural network. J Electron Imaging 31(6):061815-061815
  22. Fu L, Li S, Sun Y, Mu Y, Hu T, Gong H (2022) Lightweightconvolutional neural network for apple leaf disease identification. Front Plant Sci 13:831219
  23. Bansal P, Kumar R, Kumar S (2021) Disease detection in apple leaves using deep convolutional neural network. Agriculture 11(7):617
  24. Khan AI, Quadri SMK, Banday S, Shah JL (2022) Deep diagnosis: a real-time apple leaf disease detection system based on deep learning. Comput Electron Agric 198:107093
  25. Zhang C, Wang J, Yan T et al (2023) An instance-based deep transfer learning method for quality identification of Longjing tea from multiple geographical origins. Complex Intell Syst 9:3409-3428
  26. Albattah W, Nawaz M, Javed A et al (2022) A novel deep learning method for detection and classification of plant diseases. Complex Intell Syst 8:507-524
  27. Taji K, Sohail A, Shahzad T, Khan BS, Khan MA, Ouahada K (2024) An Ensemble Hybrid Framework: a comparative analysis of Metaheuristic algorithms for Ensemble Hybrid CNN features for plants Disease classification. IEEE Access 12:61886-61906
  28. Mohamed M (2023) Agricultural sustainability in the age of Deep Learning: current trends, challenges, and future trajectories. Sustainable Mach Intell J 4:2-1
  29. Hosny KM, El-Hady WM, Samy FM, Vrochidou E, Papakostas GA (2023) Multi-class classification of Plant Leaf diseases using Feature Fusion of deep convolutional neural network and local binary pattern. IEEE Access 11:62307-62317
  30. Ahila Priyadharshini R, Arivazhagan S, Arun M, Mirnalini A (2019) Maize leaf disease classification using deep convolutional neural networks. Neural Comput Appl 31:8887-8895
  31. Waheed A, Goyal M, Gupta D, Khanna A, Hassanien AE, Pandey HM (2020) An optimized dense convolutional neural network model for disease recognition and classification in corn leaf. Comput Electron Agric 175:105456
  32. Wu H, Wiesner-Hanks T, Stewart EL, DeChant C, Kaczmar N, Gore MA, Lipson H (2019) Autonomous detection of plant disease symptoms directly from aerial imagery. Plant Phenome J 2(1):1-9
  33. Zeng W, Li M (2020) Crop leaf disease recognition based on selfattention convolutional neural network. Comput Electron Agric 172:105341
  34. Chen J, Zhang D, Zeb A, Nanehkaran YA (2021) Identification of rice plant diseases using lightweight attention networks. Expert Syst Appl 169:114514
  35. Qian X, Zhang C, Chen L, Li K (2022) Deep learning-based identification of maize leaf diseases is improved by an attention mechanism: self-attention. Front Plant Sci 13:864486
  36. Reedha R, Dericquebourg E, Canals R, Hafiane A (2022) Transformer neural network for weed and crop classification of highresolution UAV images. Remote Sens 14(3):592
  37. Wu S, Sun Y, Huang H (2021), December Multi-granularity feature extraction based on vision transformer for tomato leaf disease recognition. In 2021 3rd International Academic Exchange Conference on Science and Technology Innovation (IAECST) (pp. 387-390). IEEE
  38. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner,T., … Houlsby, N. (2020). An image is worth 16×16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929
  39. Ukwuoma CC, Qin Z, Heyat MBB, Akhtar F, Bamisile O, Muaad AY, Al-Antari MA (2023) A hybrid explainable ensemble transformer encoder for pneumonia identification from chest X-ray images. J Adv Res 48:191-211
  40. Simonyan K, Zisserman A (2014) Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556
  41. Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., … Rabinovich,A. (2015). Going deeper with convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1-9)
  42. He K, Zhang X, Ren S, Sun J (2016) Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778)
  43. Al-Hejri AM, Al-Tam RM, Fazea M, Sable AH, Lee S, Al-Antari MA (2022) ETECADx: Ensemble self-attention transformer encoder for breast cancer diagnosis using full-field digital X-ray breast images. Diagnostics 13(1):89
  44. Arshad F, Mateen M, Hayat S, Wardah M, Al-Huda Z, Gu YH, Al-antari MA (2023) PLDPNet: end-to-end hybrid deep learning framework for potato leaf disease prediction. Alexandria Eng J 78:406-418
  45. Al-Tam RM, Al-Hejri AM, Narangale SM, Samee NA, Mahmoud NF, Al-Masni MA, Al-Antari MA (2022) A hybrid workflow of residual convolutional transformer encoder for breast cancer classification using digital X-ray mammograms. Biomedicines 10(11):2971
  46. Oluwafemi ET (2019) PlantVillage Dataset. Accessed: Dec. 30, 2023. [Online]. Available: https://www.kaggle.com/datasets/em marex/plantdisease
  47. Stojanović M, Apostolović M, Stojanović D, Milošević Z, Toplaović A, Mitić-Lakušić V, Golubović M (2014) Understanding sensitivity, specificity, and predictive values. Vojnosanit Pregl 71(11):1062-1065
  48. Thakur PS, Khanna P, Sheorey T, Ojha A (2021), December Vision Transformer for Plant Disease Detection: PlantViT. In International Conference on Computer Vision and Image Processing (pp. 501-511). Cham: Springer International Publishing
  49. Li X, Li S (2022) Transformer help CNN see better: a lightweight hybrid apple disease identification model based on transformers. Agriculture 12(6):884
  50. Mishra S, Sachan R, Rajpal D (2020) Deep convolutional neural network-based detection system for real-time corn plant disease recognition. Procedia Comput Sci 167:2003-2010
Publisher’s note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.

Journal: Complex & Intelligent Systems, Volume: 11, Issue: 2
DOI: https://doi.org/10.1007/s40747-024-01764-x
Publication Date: 2025-01-15

A hybrid Framework for plant leaf disease detection and classification using convolutional neural networks and vision transformer

Sherihan Aboelenin ⋅ Foriaa Ahmed Elbasheer ⋅ Mohamed Meselhy Eltoukhy ⋅ Walaa M. El-Hady ⋅ Khalid M. Hosny (D)

Received: 11 July 2024 / Accepted: 20 December 2024 / Published online: 15 January 2025
© The Author(s) 2024

Abstract

Recently, scientists have widely utilized Artificial Intelligence (AI) approaches in intelligent agriculture to increase the productivity of the agriculture sector and overcome a wide range of problems. Detection and classification of plant diseases is a challenging problem due to the vast numbers of plants worldwide and the numerous diseases that negatively affect the production of different crops. Early detection and accurate classification of plant diseases is the goal of any AI-based system. This paper proposes a hybrid framework to improve classification accuracy for plant leaf diseases significantly. This proposed model leverages the strength of Convolutional Neural Networks (CNNs) and Vision Transformers (ViT), where an ensemble model, which consists of the well-known CNN architectures VGG16, Inception-V3, and DenseNet20, is used to extract robust global features. Then, a ViT model is used to extract local features to detect plant diseases precisely. The performance proposed model is evaluated using two publicly available datasets (Apple and Corn). Each dataset consists of four classes. The proposed hybrid model successfully detects and classifies multi-class plant leaf diseases and outperforms similar recently published methods, where the proposed hybrid model achieved an accuracy rate of and for the apple and corn datasets.

Keywords Farming • Plant leaf disease classification • Hybrid model • Deep learning • Convolutional neural networks (CNNs) • Feature concatenation • Vision transformer (ViT)

Abbreviations

AI Artificial Intelligence
CNNs Convolutional Neural Networks
ViT Vision Transformer
ML Machine Learning
DL Deep Learning
SVM Support Vector Machine
ANNs Artificial Neural Networks
NB Naive Bayes
MLP Multilayer Perception
MHA Multi-Head self-Attention
GP Global Pooling
FFN Feed Forward Network
NL Normalization Layer
LR Learning Rate
AUC Area Under Curve
ROC Receiver Operating Characteristic
CM Confusion Matrix

Introduction

Plant diseases pose an enormous risk to the world’s food supply. The nature of this threat varies depending on the specific disease, crop, and farming conditions, making it challenging to conduct risk analysis and communicate
effectively with policymakers. Additionally, global changes such as climate change impact the types of disease threats faced, their potential outcomes, and the approaches for addressing them [1]. Farmers may struggle to diagnose plant diseases accurately due to their tiny features. Furthermore, many farmers lack the knowledge to diagnose diseases, so artificial intelligence can help them diagnose diseases more accurately [2].
Plant disease detection has seen a rise in the use of Machine Learning (ML) and Deep Learning (DL), which have shown promise for accurate disease detection from digital images [3]. Some commonly employed ML techniques include Support Vector Machine (SVM) [4-6], Artificial Neural Networks (ANNs) [7], K-means clustering [8], and Naive Bayes (NB) [9]. Due to their advances, DL techniques, especially CNNs, have gained popularity in computer vision. This advancement has prompted researchers to investigate using CNNs to detect plant diseases. Mohanty et al. [10] and Barbedo [11] initiated pioneering research in this direction. They utilized CNN models like AlexNet, VGG16, GoogleNet, and ResNet and employed the transfer learning technique within their approaches. In addition, researchers are working on using customized CNN models that incorporate convolution blocks from established CNN models like VGG16 and Inception Nets. These architectures include convolutional layers, pooling, and fully connected layers. The Inception module consists of a max pooling layer and parallel convolutional layers with varying filter sizes. The outputs of these layers are then combined. The VGG model continues to serve as the foundation for numerous other architectures due to its straightforwardness and achieved second place in the ILSVRC 2014 competition [12-14].
Using a ViT has shown promise in developing models for detecting plant diseases. Researchers have investigated ViT to identify plant diseases on mobile devices and classify plant diseases automatically in real time. ViT-based models have performed excellently in classifying benchmark datasets such as CIFAR-100, Oxford-IIIT Pets, Oxford Flowers-102, and ImageNet. Proposed ViT-based models for plant disease detection include MobileViT specialized for plants (PMVT), Inception Convolutional Vision Transformer (ICVT), and hybrid approaches combining ViT with CNN [15-19].
The detection and effective management of diseases in crops are pivotal for sustaining agricultural productivity, ensuring food security, and fostering economic growth. Investments in disease detection and classification technologies protect farmers’ livelihoods and contribute to the overall stability and prosperity of nations dependent on agriculture. Existing studies explain that the detection of plant diseases continues to be challenging, primarily because of
the numerous disease species and diverse crops involved. The similarity in symptoms between different diseases and the changing patterns of these diseases over time further compounds the complexity. The limitation is that traditional approaches have struggled to extract relevant features from input images. Consequently, researchers prefer deep learning models, especially CNNs, which can automatically extract relevant and informative features from the input data, leading to superior performance. However, CNN models are limited in their ability to analyze the relationships between distant pixels, as they only consider the correlation between spatially neighboring pixels within the receptive field defined by the filter size. Furthermore, while effective, existing CNN models often require large datasets and substantial computational resources, presenting challenges for real-time applications in resource-constrained environments. Researchers have recently explored the use of attention mechanisms to address the challenges associated with the CNN model’s limited ability to capture relationships between distant pixels. Additionally, most existing studies have focused on individual CNN models, with a limited investigation into the potential benefits of ensemble modeling approaches for improved generalization of results. Consequently, we have created a hybrid framework that combines multiple DL architectures and vision transformers to extract profound features through a hybrid approach, as shown in Fig. 1. The key points of this paper can be stated as follows:
  • A hybrid framework, including deep-learning CNNs and vision transformers, is suggested for detecting and classifying plant leaf diseases.
  • The suggested end-to-end framework captures the most distinct features, allowing for precise detection and multi-class classification of plant leaf diseases.
  • The suggested model has been extensively experimented with two different types of plant leaf disease datasets (Corn and Apple) and compared to the cutting-edge models using the same datasets.
The other sections of this research paper are as follows: Sect. 2 discusses recent related works on identifying plant disease. Section 3 introduces a comprehensive description of the materials and methods. Section 4 introduces the results and discussion. Section 5 presents the managerial implications, while the paper’s conclusion is found in Sect. 6.
Fig. 1 Flow diagram of the proposed framework for accurately identifying plant diseases
Detecting plant diseases through machine learning and deep learning models has been a prominent area of recent research. Jiang et al. [20] developed a deep CNN architecture for detecting apple leaf disease. This architecture combined CNN with the Inception module to identify five types of apple leaf diseases. Bukumira et al. [21] proposed a Carrot grading system utilizing computer vision techniques and a cascaded graph CNN. This recognition framework demonstrated the capability to classify carrots accurately and grade them. Additionally, other studies have suggested DL models for identifying apple leaf diseases, including Fu et al. [22], Bansal et al. [23], and Khan et al. [24]. To enhance accuracy, these models employ diverse techniques like image augmentation, attention mechanisms, and dilated convolution. Studies have explored hybrid deep-learning models in various fields, such as agriculture and the medical sector, for disease diagnosis and classification [25-28]. These investigations have demonstrated the efficacy of combining deep learning architectures to effectively extract relevant features from the input data. Hosny et al. [29] developed a hybrid approach using lightweight deep model features and Local Binary Pattern features to detect and classify leaf diseases in apples, grapes, and tomatoes. This method resulted in accuracy rates of , and for each plant type, respectively. Priyadharshini et al. [30] created a CNN model by modifying the LeNet model to classify corn leaf diseases. A corn leaf image dataset from PlantVillage was used to train their approach. Their model demonstrated accuracy reached . Waheed et al. [31] designed an optimized DenseNet structure to detect and classify corn leaf diseases: northern leaf blight, common rust, gray leaf spot, and healthy leaves. Their method resulted in an accuracy of . Wu et al. [32] suggested a CNN model to detect Northern leaf blight on corn leaves using UAV images. They utilized the pre-trained ResNet architecture for feature extraction, employing its outcomes as inputs to a basic linear classifier. This model resulted in an overall accuracy of . Researchers have also investigated the prediction and classification of plant diseases by employing a hybrid method that integrates CNNs with attention mechanisms. Zeng and Li [33] conducted experiments involving a residual CNN enhanced with self-attention to detect crop diseases. Their approach exhibited notable performance, achieving 98% accuracy on the MK-D2 dataset and a 95.33% accuracy rate on another dataset, AES-CD9214. Chen et al. [34] utilized a pre-trained MobileNet-V2 model, which had previously been trained using ImageNet, integrating an attention mechanism for identifying rice leaf disease, resulting in an accuracy of . Qian et al. [35] introduced a novel model that diverges from conventional CNNs
by leveraging transformers and self-attention mechanisms. The model partitions visual data into small, localized segments, computes correlations between these regions using an attention mechanism, and then aggregates larger, global information to inform the classification task [35]. Reedha et al. [36] demonstrated the effectiveness of the convolu-tional-free Vision Transformer model, which leverages the self-attention mechanism to process an image as a sequence of patches through a standard transformer encoder. Despite using a relatively small dataset, they achieved high performance, which they attributed to techniques such as data augmentation, transfer learning, and a limited number of classes [36]. Wu et al. [37] employed a dual-scale approach by passing the dataset through two ViT models simultaneously, one with a small patch size and the other with a large patch size. The outputs of these two ViT models were then combined using a fusion model and fed into a multilayer perceptron header. The researchers concluded that by integrating different scales of self-attention sequences, the model could extract richer information from the images at various levels of granularity [37]. The analysis of current methods utilized to identify plant diseases is summarized in Table 1. As shown in Table 1, the classification performance indicates a need for further improvements.

Materials and methods

The proposed architecture

The suggested hybrid DL architecture for plant leaf disease detection and classification is depicted in Fig. 2. The framework comprises three initial pre-trained CNNs: a VGG16 network, an Inception-v3 network, and a DenseNet 201 network, and it concludes with a ViT block [38]. The main contribution of the model is to combine pre-trained CNN architectures for effective extraction of deep features with a ViT that includes self-attention and Multilayer Perception (MLP) techniques for achieving accurate identification and classification results. CNN models can investigate the spatial relationship between adjacent pixels within a receiving area defined by the size of the convolutional filter while disregarding directional relationships and distance between these pixels [39]. However, recent advancements in transformers based on attention mechanisms are more effective and robust in considering the distance relations between pixels and their spatial correlation for improved accuracy in visual recognition operations. The suggested hybrid DL framework involves the following primary processing stages. Initially, the plant leaf images are resized to 128 by 128 pixels. Following this, data augmentation approaches are implemented to expand the dataset size, and
Table 1 Summary of related works for plant leaf disease detection and classification
Reference Objective Method Key Findings Limitations
Jiang et al. (2019) [20] Real-time detection of apple leaf diseases Improved CNN – provide a high-performance solution with realtime detection
– Limited to apple leaf diseases.
– The model’s complexity may make it challenging to deploy on low-power devices.
Bukumira et al. (2022) [21] Carrot grading based on computer vision and Graph Convolutional Neural Network (GCNN) Cascaded Graph CNN with Bayesian optimization – Effective in automated grading of carrots
– Specific to carrot grading, with limited adaptability for other crops.
– The GCNN may be computationally intensive for real-time grading.
Fu et al. (2022) [22] Lightweight model for apple leaf disease detection Lightweight-CNN – High accuracy with reduced model complexity – Focused on apple leaves; the model might lack robustness for other crops.
Bansal et al. (2021) [23] Apple leaf disease detection ensemble of pretrained deep CNN models -Improved classification accuracy for apple diseases – identification accuracy degrades for multiple diseases
Khan et al. (2022) [24] Real-time apple leaf disease detection system Lightweight-CNN and Yolov4 – Lightweight model with Real-time performance – Classification performance needs improvement
Taji et al. (2024) [27] Plant disease classification with hybrid CNN features Metaheuristicbased hybrid CNN framework – Enhanced performance with metaheuristic optimization – Metaheuristic tuning is complex, which may lead to high computational costs and time-consuming parameter optimization.
Hosny et al. (2023) [29] Multi-class plant leaf disease classification Feature fusion of CNN and Local Binary Pattern -Enhanced multi-class classification accuracy – Complexity in feature fusion may impede model interpretability and adaptability.
Priyadharshini et al. (2019) [30] Classification of maize leaf diseases modified LeNet -Lightweight model with Real-time performance – Only evaluated for maize leaf disease classification
Waheed et al. (2020) [31] corn leaf disease recognition and classification – Optimized DenseNet model – Improved classification efficiency and accuracy – The dense architectural structure may elevate memory consumption, potentially impacting the deployment on devices with limited resources.
Wu et al. (2019) [32] Autonomous detection of plant disease CNN model on aerial imagery – Effective in large-scale disease detection – Limited to aerial imagery, which may miss finer disease symptoms.
Zeng & Li (2020) [33] Crop leaf disease recognition CNN model with Self-Attention – Improved accuracy with self-attention mechanism – Limited evaluations on crop datasets.
Chen et al. (2021) [34] Rice plant disease detection Pre-trained MobileNet-V2 with Attention Mechanism – Efficient and accurate for rice diseases – Lightweight structure may sacrifice detail on diverse or high-resolution datasets.
Qian et al. (2022) [35] Maize leaf disease identification Attention mecha-nism-based CNN – Enhanced accuracy with self-attention – High computational cost due to attention layers may limit real-time application.
Reedha et al. (2022) [36] Weed and crop classification attention-based deep network – high performance, especially with small training datasets – High-resolution image processing is computationally demanding, which may hinder real-time use.
Wu et al. (2021) [37] Tomato leaf disease recognition ViT – multi-granularity feature extraction model – High computational complexity of Vision Transformers may limit real-time use
subsequently, the data is partitioned into training, validation, & testing subsets. Second, the latest ensemble deep CNN structures (VGG16, Inception-v3, and DenseNet 201) extract DL features. Finally, the ViT receives these combined deep features of the CNN-based architectures. Here, the self-attention network identifies the varied symptoms within the images provided. The performance of detecting inaccurate symptoms in the dataset is then enhanced by using the MLP block. The ViT employing Multi-Head SelfAttention (MHA) offers an efficient approach for processing image patches and facilitates extracting prominent features within the patches. Combining CNN and the ViT network creates a potent feature extractor that integrates both local
and global features, thereby enhancing the interpretability of the model.

1.1. Pre-trained deep learning architectures

The following subsections discuss the pre-trained DL architectures used as the foundation of the suggested hybrid framework: VGG16 [40], GoogleNet [41], and DenseNet201 [42].

1.1.1.VGG16

The VGG16 convolutional neural network, created by Simonyan and Zisserman [40], has undergone training

Pre-trained Models

(Deep Features Extraction)

Fig. 2 Block diagram of the suggested model for plant leaf disease detection and classification
using the ImageNet dataset. We utilize a pre-trained VGG16 model that has captured important features from ImageNet’s extensive dataset. We employ this VGG16 model and its pre-trained weights but exclude its original classification layers designed for different categories and integrate customized classification layers adapted to the new dataset. Subsequently, the weights of the convolutional layers are frozen to retain their learned capabilities from the initial training stage.

1.1.2. GoogleNet

The GoogleNet, also named Inception-V1, is a CNN architecture created by Google [41]. The GoogleNet model aims to incorporate filters of varying sizes that can operate simultaneously. Each inception module can capture different levels of significant features. For example, whereas the conv layer extracts global features, the conv layer is better at recognizing scattered features. The max-pooling layer focuses on extracting distinctive low-level features in
a local area. Subsequently, these diverse features are gathered and combined at a specific level before being transmitted to the next layer.

1.1.3. DenseNet201

DenseNet architecture facilitates information propagation between network layers by establishing connections from every layer to the following layers in a forward-propagating method while maintaining consistent feature map size. This is achieved by concatenating the previous layer’s output with that of the subsequent layer. The transition layers consist of convolutions and average pooling. The Global Pooling (GP) layer is employed after the final dense block before applying SoftMax [42].

1.2. Vision Transformer (ViT)

As illustrated in Fig. 3, Dosovitskiy et al. [38] created the ViT architecture by adapting the original transformer encoder,
Fig. 3 Detailed description of ViT block (a) The Vit model introduced by Dosovitskiy et al. [38] (b) The transformer encoder architecture
which successfully addressed natural language processing challenges. The ViT comprises MHA blocks, networks of MLP with linear projection, and a positional embedding approach. To input an image into the ViT model, it undergoes splitting into non-overlapping patches of a fixed size. These patches are subsequently flattened and converted into forms that are lower in dimension. Each flattened patch experiences a trainable linear transformation to produce its respective linear projection and positional embedding [38]. The resulting vector from the linear projection and embedding undergoes further processing in a transformer block. This block encompasses MHA, position-wise Feed Forward Network) FFN(, Normalization Layer )NL(, and residual connections for both MHA and FFN. Each patch can be attended to individually through the MHA mechanism, thereby improving the model’s capacity to extract long-distance relationships within the input data.
The input embeddings are represented by the matrices Q (Query), K (Key), and V (Value), where d denotes the dimensionality of the K and Q vectors.
In the context of MHA, A is the input vector which transforms three distinct vectors , and ; wherein , and represent the matrices of weight. The score matrix is produced by computing the dot product between Q and the transpose of K . Subsequently, the SoftMax activation function is applied to the output vector as detailed in Eq. 1 [15]. In addition, we include a Dense layer and use a Dropout layer before the SoftMax layer in the classification heads. These layers are customized explicitly for plant leaf disease classification.

1.3. Extraction and fusion of deep features

The research indicates that most advanced DL approaches for identifying plant leaf diseases depend on a single CNN. Ensemble learning has not been extensively explored in detecting and classifying plant diseases. This study utilizes feature concatenation as an approach to ensemble learning, aiming to capture robust, deep features. As depicted in Fig. 1, the foundational network of the suggested model is created with different pre-trained DL models like VGG16, Inception-V3, and DenseNet201. Combining features from various models allows the ensemble model to tap into a broader range of features [2, 43-45]. The concatenation of DL architectures comprising VGG16, GoogleNet, and
Table 2 Data distribution for the dataset of apple leaf disease
Class Index Class Name Training set size (80%) Testing set size (20%) Total
0 Apple_scab 800 200 1,000
1 Black_rot 800 200 1,000
2 Cedar_apple_rust 800 200 1,000
3 Healthy 1,316 329 1,645
Total 3,716 929 4,645
Table 3 Data distribution for the dataset of corn leaf diseases
Class Index Class Name Training set size (80%) Testing set size (20%) Total
0 Gray_leaf_spot 1,363 341 1,704
1 Common_rust 1,358 340 1,698
2 Northern_leaf_blight 1,363 341 1,704
3 Healthy 1,334 334 1,668
Total 5,418 1,356 6,774
DenseNet201 involved removing the classification layer from each model and extracting deep features from their last block convolutional layers. Upon removal of the classification layer, the VGG16 architecture produced an output of (None, 4, 4, 512), while the outputs for GoogleNet and DenseNet were (None, 2, 2, 2048) and (None, 4, 4, 1920), respectively. The distinct output from the GoogleNet architecture necessitated standardizing all output features, which
involved zero-padding the GoogleNet architecture before concatenating the features.

1.4. Datasets

Two publicly available datasets from PlantVillage [46] were utilized to evaluate the effectiveness of the suggested hybrid DL framework. The apple leaf dataset comprises 4,645 leaf images divided into four classes: Apple_scab, Black_rot, Cedar_apple_rust, and Healthy (see Table 2). Furthermore, we utilized the corn leaf dataset of 6,774 leaf images divided into four specific classes: Gray_leaf_spot, Common_rust, Northern_leaf_blight, and Healthy (see Table 3). As shown in Tables 1 and 2, the proposed architecture’s experimental study utilizes a randomly split dataset, with designated for training and for testing. Furthermore, a validation subset is created from the training data, constituting 15% of the total dataset. Figure 4 depicts some leaf image samples taken from each dataset. Additionally, all plant leaf images are resized to pixels.

1.5. Experiments setup

The proposed hybrid DL framework was developed using the TensorFlow platform and open-source Keras libraries. As indicated in Table 4, the training process utilized the optimizer Adam and the categorical cross-entropy loss function.
Fig. 4 Examples of the plant leaf dataset (PlantVillage [46]). (a) Corn leaf dataset, and (b) Apple leaf dataset
Table 4 Hyperparameters for the proposed framework
Function Parameter Value
Training Parameters Optimizer Adam
Learning Rate 0.0001
Epochs 50
Batch Size 32
ViT Parameters Batch Size 2
Embedded Dimension 64
Number of Attention Heads 8
Number of MLP Layers 256
The experiment used a Learning Rate (LR) of 0.0001 with 50 epochs and incorporated the early stopping method with a patience of 10. Regarding the ViT, the patch size used was 2, with a dropout rate of 0.01 applied to all layers, and it utilized 8 heads. Additionally, an embedded dimension of 64 (signifying the dimension that allows high-dimensional vectors to be transformed to low-dimensional vectors without any loss) and the number of multi-linear perceptrons is 256. Additionally, all plant leaf images are resized to 128 by 128 pixels. These experimental procedures were carried out on the Google Colab platform to implement the suggested model.

1.6. Model evaluation

Standard performance measures, including accuracy, precision, recall, F1-score, the Area Under Curve Receiver Operating Characteristic (AUC-ROC) curve, and the Confusion Matrix (CM), are used to assess the suggested approach and each comparison model [47]. These assessment matrices are mathematically formulated as,
Accuracy
Precision
Recall
F1 score
Here , and denote true positive, true negative, false positive, and false negative, respectively.
Table 5 Classification results of the models using unseen testing images of plant leaf diseases
DL Model Evaluation metrics
Accuracy (%) Precision (%) Recall (%) F1-score (%)
Apple 96 96 96 96
VGG16
Inception-v3 94 94 94 94
DenseNet201 97 97 97 97
VGG1VGG16 + InceptionV3 + DenseNet201 97.6 98 98 98
Proposed Hybrid Model 99.24 99 99 99
Corn 96 96 96 96
VGG16
Inception-v3 93.87 94 94 94
DenseNet201 97 97 97 97
VGG16 + InceptionV3 + DenseNet201 97 97 97 97
Proposed Hybrid Model 98 98 98 98

Results and discussion

This part focuses on presenting the outcomes of experiments conducted to assess the efficiency of the suggested hybrid architecture in detecting and classifying plant leaf diseases. It also includes a comparison of the performance of this model with other state-of-theart CNN and ViT-based models. The effectiveness of various model architectures was assessed using the complete set of the provided datasets. First, individual assessment was conducted for each pre-trained model, like VGG16, Inception-V3, and DenseNet201. Then, the performance of a combination comprising VGG16, Inception-V3, and DenseNet201, and finally, the fusion of these pre-trained models and ViT were evaluated for detecting and classifying plant leaf diseases. As indicated in Table 5, the evaluation metrics utilized for comparative analysis include Accuracy, Precision, Recall, and F1-score, collectively providing a comprehensive assessment of the models’ performance. The results for the Apple dataset indicate that the VGG16 model achieved a performance across all evaluation metrics. While VGG16 demonstrated moderate performance, the Inception-v3 model performed slightly worse, reaching across all metrics. In contrast, the DenseNet201 model outperformed both VGG16 and Inception-v3, achieving a performance in all metrics, suggesting its superior capability in classifying apple leaf diseases. When the models (VGG16, Inception-v3, and DenseNet201) were combined, the performance improved, with an accuracy of , precision and recall of , and
an F1-score of . Notably, the proposed hybrid model is outstanding compared to the other models, achieving an accuracy of and precision, recall, and F1-scores of 99%. This indicates that combining CNNs and ViT, the hybrid approach provides significantly enhanced classification performance on Apple leaf diseases. The VGG16 model exhibits consistent performance for the corn dataset, achieving across all evaluation metrics. In contrast, the Incep-tion-v3 model demonstrates slightly inferior results, achieving an accuracy of and in precision, recall, and F1-score. Notably, the DenseNet201 model emerges as a robust individual model, reaching in all metrics. Moreover, the ensemble model matches the performance of DenseNet201 alone, achieving across all metrics. Also, the proposed hybrid model outperforms the other models, reaching accuracy, precision, recall, and F1 score.
Figures 5 and 6 indicate that the suggested model’s training was stopped after 26 and 27 epochs for apple and corn datasets, respectively. As shown in Fig. 5, the training accuracy rate reached , and the validation accuracy reached for the Apple dataset. In addition, Fig. 6 indicates
that the training and validation accuracy for the corn dataset reached and , respectively. The CM of the suggested hybrid model was employed for measuring the number of accurately and mistakenly detected samples for the apple and corn datasets, as depicted in Figs. 7 and 8. The CM is a valuable analytical tool for assessing the performance of a classification model, as it provides insights into the model’s capability to accurately classify diverse types of plant leaf diseases. As shown in Fig. 7, the proposed hybrid model demonstrated high accuracy in classifying samples for Apple_scab, correctly identifying 196 out of 200 samples, with only 3 misclassified as Black_rot and 1 as Cedar_ apple_rust. For Black_ Rot, the model performed perfectly, correctly classifying all 200 samples. Similarly, for Cedar apple_rust, the model correctly classified 199 out of 200 samples, with only 1 misclassified as Apple_scab. Finally, the model correctly identified 325 out of 329 samples for the Healthy class, with 2 misclassified as Apple_scab and 2 as Black_rot. For the Gray_leaf_spot class of the corn dataset (Fig. 8), the proposed hybrid model correctly identified 320 out of 341 samples, with 21 misclassified as Northern_leaf_blight. For Common_rust, the model correctly identified 337 out of 340 samples, with only 2 misclassified as Gray_leaf_spot and 1 as Northern_leaf_blight. For
Fig. 5 The Apple dataset’s accuracy and loss graph for the suggested model. (a) Training & validation accuracy, and (b) Training & validation loss
Fig. 6 The corn dataset’s accuracy and loss graph for the suggested model. (a) Training & validation accuracy, and (b) Training & validation loss
Northern_leaf_blight, the model classified 334 out of 341 samples, with 7 misclassified as Gray_leaf_spot. Finally, the model performed perfectly for the Healthy class, correctly classifying all 334 samples. Generally, the CM demonstrates the robust performance of the hybrid model across the different classes for the Apple and Corn datasets. We assessed the AUC-ROC outcomes for individual classes within the apple and corn datasets to measure the effectiveness of the suggested model, as depicted in Figs. 9 and 10. The AUCROC curves for the apple and corn datasets indicate that the model excels in differentiating between various classes of plant diseases. The perfect AUC scores of 1.0 and 0.99 across all classes underscore the model’s robustness and capability to identify plant diseases correctly. Table 6 compares the newly introduced plant disease classification models and the suggested hybrid DL model. This comparative study evaluates state-of-the-art models for the classification of plant diseases. The proposed model exhibits superior performance, achieving outstanding accuracy rates of and on the apple and corn datasets, respectively, outperforming all other models presented in the table. This remarkable success can be attributed to combining deep features extracted from three pre-trained CNN architectures
(VGG16, Inception-V3, and DenseNet201) and the incorporation of ViT technology.
Therefore, this hybrid framework combines the strength of CNNs and ViT to produce more robust features for plant leaf disease classification. The classification process’s accuracy and efficiency are improved using an ensemble approach that includes three pre-trained architectures and ViT. The suggested model demonstrated outstanding accuracies of and for the apple and corn datasets, respectively, surpassing other cutting-edge models based on CNN and transformer architectures.
It is crucial to recognize the limitations of this technology. These limitations encompass the need for broader data diversity to ensure reliable generalization, enhanced interpretability to foster trust among end-users, and scalability to accommodate larger agricultural areas. Additionally, the high degree of similarity in disease patterns, colors, and textures, coupled with diseases that do not exhibit early symptoms on plant leaves, pose significant obstacles in developing effective AI-based solutions. Additionally, the emergence of new disease species and their altered spread behavior due to climate change further exacerbate the problem. Addressing these challenges necessitates the exploration and implementation of novel methods and techniques.
Fig. 7 The confusion matrix of the suggested hybrid model using the Apple dataset
Collaborating with subject matter experts, integrating with agricultural equipment, and addressing ethical data management are all crucial steps to further refine and enhance the system’s capabilities. By embracing these challenges and pursuing these future directions, the agricultural sector can fully leverage the potential of DL-based systems, leading to sustainability in agriculture practices that contribute to economic prosperity.

Managerial implications

The proposed hybrid framework, which integrates CNNs and ViT, provides a solution for accurately and efficiently classifying plant leaf diseases in agricultural environments. The framework can achieve robust generalization across diverse plant species and disease types by combining CNNs for feature extraction and ViT for extracting global
Fig. 8 The confusion matrix of the proposed hybrid model using the Corn dataset
interdependencies. This framework has been validated through comprehensive experiments on the Apple and Corn datasets, demonstrating its superior performance compared to cutting-edge methods.
Implementing this framework can substantially enhance the early identification of plant diseases in practical farming applications, bolstering precision agriculture. Additionally, using transfer learning and pre-trained models addresses
the challenge of data scarcity. This hybrid framework can be adopted to create automated plant disease identification systems, leading to improved crop management and yield optimization while mitigating the impact of plant diseases on food production. Furthermore, the success of this framework underscores opportunities for additional research and development, including its potential for scalability,
Apple Leaf Diseases ROC curve
Fig. 9 The AUC-ROC results from the suggested hybrid model using the Apple dataset
real-time implementation, and adaptability to other crops and diseases.

Conclusion

This study introduces a hybrid framework combining CNNs and ViT to identify and classify plant leaf disease. Initially, three pre-trained CNN architectures (VGG16, InceptionV3, and DenseNet201) are employed to extract the features of the leaf. The weights of these pre-trained models are finetuned using the ImageNet dataset. Subsequently, the ViT is leveraged to extract the deep features of the leaves. Finally, the MLP head classifier determines the leaf’s class. The proposed model’s efficacy was assessed through accuracy, precision, F1-score, and recall metrics. Two publicly available datasets from the PlantVillage repository (apple and corn) were utilized to evaluate the proposed framework’s effectiveness. The suggested hybrid model achieves remarkable
accuracies of and for apple and corn datasets, respectively. Additionally, the suggested model’s performance for detecting and classifying plant leaf diseases surpasses numerous cutting-edge models. This model shows much potential for further evaluation using various plant datasets, which can provide valuable assistance to the industry in safeguarding livelihoods and offering intelligent service options to the farmers. The proposed model is accurate and applicable in various plant, fruit, and plant-stem datasets. Also, the proposed model is a potential tool for various computer vision applications and challenges such as masked face recognition, cancer detection and classifications, and image-based industrial quality control.
Corn Leaf Diseases ROC curve
Table 6 Comparison with the other cutting-edge approaches for plant leaf disease (PlantVillage dataset [46])
Fig. 10 The AUC-ROC results from the suggested hybrid model using the corn dataset
Dataset Authors Approach Accuracy (%)
Apple Thakur et al. (2021) [48] CNN+ViT 98.6
Li et al. (2022) [49] CNN+ViT 96.7
Arshad et al. (2023) [44] CNN+ViT 96.42
The proposed hybrid model An ensemble of pre-trained DL models with ViT 99.24
Corn Waheed et al. (2020) [31] optimized DenseNet model 98
Qian et al. (2022) [35] Attention-based and transformer 97.7
Mishra et al. (2020) [50] DCCN 88.46
The proposed hybrid model An ensemble of pre-trained DL models with ViT 98
Acknowledgements This work was funded by the University of Jeddah, Jeddah, Saud Arabia, under grant No. (UJ -24 -DR -20755-1). Therefore, the authors thank the University of Jeddah for its technical and financial support.
Data availability Data will be available upon request.

Declarations

The Conflict of Interests/Competing Interests No conflict of interests.
Open Access This article is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License, which permits any non-commercial use, sharing, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if you modified the licensed material. You do not have permission under this licence to share adapted material derived from this article or parts of it. The images or other third party material in this article are included in the article’s Creative Commons licence, unless indicated otherwise in a credit line to the material. If material is not included in the article’s Creative Commons licence and your intended use is not permitted by statutory
regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this licence, visit http://creativecommons.org/licenses/by-nc-nd/4.0/.

References

  1. Savary S, Bregaglio S, Willocquet L, Gustafson D, Mason D’Croz D, Sparks A, Garrett K (2017) Crop health and its global impacts on the components of food security. Food Secur 9:311-327
  2. Borhani Y, Khoramdel J, Najafi E (2022) A deep learning-based approach for automated plant disease classification using vision transformer. Sci Rep 12(1):11554
  3. Shoaib M, Shah B, Ei-Sappagh S, Ali A, Ullah A, Alenezi F, Ali F (2023) An advanced deep learning models-based plant disease detection: a review of recent research. Front Plant Sci 14:1158933
  4. Hou C, Zhuang J, Tang Y, He Y, Miao A, Huang H, Luo S (2021) Recognition of early blight and late blight diseases on potato leaves based on graph cut segmentation. J Agric Food Res 5:100154
  5. Sun Y, Jiang Z, Zhang L, Dong W, Rao Y (2019) SLIC_SVM based leaf diseases saliency map extraction of tea plant. Comput Electron Agric 157:102-109
  6. Zhang S, Wang Z (2016) Cucumber disease recognition based on global-local singular value decomposition. Neurocomputing 205:341-348
  7. Hamdani H, Septiarini A, Sunyoto A, Suyanto S, Utaminingrum F (2021) Detection of oil palm leaf disease based on color histogram and supervised classifier. Optik 245:167753
  8. Ramesh S, Vydeki D (2020) Recognition and classification of paddy leaf diseases using optimized deep neural network with Jaya algorithm. Inform Process Agric 7(2):249-260
  9. Johannes A, Picon A, Alvarez-Gila A, Echazarra J, RodriguezVaamonde S, Navajas AD, Ortiz-Barredo A (2017) Automatic plant disease diagnosis using mobile capture devices, applied on a wheat use case. Comput Electron Agric 138:200-209
  10. Mohanty SP, Hughes DP, Salathé M (2016) Using deep learning for image-based plant disease detection. Front Plant Sci 7:1419
  11. Barbedo JGA (2018) Impact of dataset size and variety on the effectiveness of deep learning and transfer learning for plant disease classification. Comput Electron Agric 153:46-53
  12. Chen J, Chen J, Zhang D, Sun Y, Nanehkaran YA (2020) Using deep transfer learning for image-based plant disease identification. Comput Electron Agric 173:105393
  13. Thakur PS, Sheorey T, Ojha A (2023) VGG-ICNN: a lightweight CNN model for crop disease identification. Multimedia Tools Appl 82(1):497-520
  14. Shah SR, Qadri S, Bibi H, Shah SMW, Sharif MI, Marinello F (2023) Comparing inception V3, VGG 16, VGG 19, CNN, and ResNet 50: a case study on early detection of a Rice Disease. Agronomy 13(6): 1633
  15. Thakur PS, Chaturvedi S, Khanna P, Sheorey T, Ojha A (2023) Vision transformer meets convolutional neural network for plant disease classification. Ecol Inf 77:102245
  16. Li G, Wang Y, Zhao Q, Yuan P, Chang B (2023) PMVT: a lightweight vision transformer for plant disease identification on mobile devices. Front Plant Sci 14:1256773
  17. Yu S, Xie L, Huang Q (2023) Inception convolutional vision transformers for plant disease identification. Internet Things 21:100650
  18. De Silva M, Brown D (2023) Multispectral plant Disease Detection with Vision transformer-convolutional neural network hybrid approaches. Sensors 23(20):8531
  19. Boukabouya RA, Moussaoui A, Berrimi M (2022), November Vision Transformer Based Models for Plant Disease Detection
    and Diagnosis. In 2022 5th International Symposium on Informatics and its Applications (ISIA) (pp. 1-6). IEEE
  20. Jiang P, Chen Y, Liu B, He D, Liang C (2019) Real-time detection of apple leaf diseases using deep learning approach based on improved convolutional neural networks. IEEE Access 7:59069-59080
  21. Bukumira M, Antonijevic M, Jovanovic D, Zivkovic M, Mladenovic D, Kunjadic G (2022) Carrot grading system using computer vision feature parameters and a cascaded graph convolutional neural network. J Electron Imaging 31(6):061815-061815
  22. Fu L, Li S, Sun Y, Mu Y, Hu T, Gong H (2022) Lightweightconvolutional neural network for apple leaf disease identification. Front Plant Sci 13:831219
  23. Bansal P, Kumar R, Kumar S (2021) Disease detection in apple leaves using deep convolutional neural network. Agriculture 11(7):617
  24. Khan AI, Quadri SMK, Banday S, Shah JL (2022) Deep diagnosis: a real-time apple leaf disease detection system based on deep learning. Comput Electron Agric 198:107093
  25. Zhang C, Wang J, Yan T et al (2023) An instance-based deep transfer learning method for quality identification of Longjing tea from multiple geographical origins. Complex Intell Syst 9:3409-3428
  26. Albattah W, Nawaz M, Javed A et al (2022) A novel deep learning method for detection and classification of plant diseases. Complex Intell Syst 8:507-524
  27. Taji K, Sohail A, Shahzad T, Khan BS, Khan MA, Ouahada K (2024) An Ensemble Hybrid Framework: a comparative analysis of Metaheuristic algorithms for Ensemble Hybrid CNN features for plants Disease classification. IEEE Access 12:61886-61906
  28. Mohamed M (2023) Agricultural sustainability in the age of Deep Learning: current trends, challenges, and future trajectories. Sustainable Mach Intell J 4:2-1
  29. Hosny KM, El-Hady WM, Samy FM, Vrochidou E, Papakostas GA (2023) Multi-class classification of Plant Leaf diseases using Feature Fusion of deep convolutional neural network and local binary pattern. IEEE Access 11:62307-62317
  30. Ahila Priyadharshini R, Arivazhagan S, Arun M, Mirnalini A (2019) Maize leaf disease classification using deep convolutional neural networks. Neural Comput Appl 31:8887-8895
  31. Waheed A, Goyal M, Gupta D, Khanna A, Hassanien AE, Pandey HM (2020) An optimized dense convolutional neural network model for disease recognition and classification in corn leaf. Comput Electron Agric 175:105456
  32. Wu H, Wiesner-Hanks T, Stewart EL, DeChant C, Kaczmar N, Gore MA, Lipson H (2019) Autonomous detection of plant disease symptoms directly from aerial imagery. Plant Phenome J 2(1):1-9
  33. Zeng W, Li M (2020) Crop leaf disease recognition based on selfattention convolutional neural network. Comput Electron Agric 172:105341
  34. Chen J, Zhang D, Zeb A, Nanehkaran YA (2021) Identification of rice plant diseases using lightweight attention networks. Expert Syst Appl 169:114514
  35. Qian X, Zhang C, Chen L, Li K (2022) Deep learning-based identification of maize leaf diseases is improved by an attention mechanism: self-attention. Front Plant Sci 13:864486
  36. Reedha R, Dericquebourg E, Canals R, Hafiane A (2022) Transformer neural network for weed and crop classification of highresolution UAV images. Remote Sens 14(3):592
  37. Wu S, Sun Y, Huang H (2021), December Multi-granularity feature extraction based on vision transformer for tomato leaf disease recognition. In 2021 3rd International Academic Exchange Conference on Science and Technology Innovation (IAECST) (pp. 387-390). IEEE
  38. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner,T., … Houlsby, N. (2020). An image is worth 16×16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929
  39. Ukwuoma CC, Qin Z, Heyat MBB, Akhtar F, Bamisile O, Muaad AY, Al-Antari MA (2023) A hybrid explainable ensemble transformer encoder for pneumonia identification from chest X-ray images. J Adv Res 48:191-211
  40. Simonyan K, Zisserman A (2014) Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556
  41. Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., … Rabinovich,A. (2015). Going deeper with convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1-9)
  42. He K, Zhang X, Ren S, Sun J (2016) Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778)
  43. Al-Hejri AM, Al-Tam RM, Fazea M, Sable AH, Lee S, Al-Antari MA (2022) ETECADx: Ensemble self-attention transformer encoder for breast cancer diagnosis using full-field digital X-ray breast images. Diagnostics 13(1):89
  44. Arshad F, Mateen M, Hayat S, Wardah M, Al-Huda Z, Gu YH, Al-antari MA (2023) PLDPNet: end-to-end hybrid deep learning framework for potato leaf disease prediction. Alexandria Eng J 78:406-418
  45. Al-Tam RM, Al-Hejri AM, Narangale SM, Samee NA, Mahmoud NF, Al-Masni MA, Al-Antari MA (2022) A hybrid workflow of residual convolutional transformer encoder for breast cancer classification using digital X-ray mammograms. Biomedicines 10(11):2971
  46. Oluwafemi ET (2019) PlantVillage Dataset. Accessed: Dec. 30, 2023. [Online]. Available: https://www.kaggle.com/datasets/em marex/plantdisease
  47. Stojanović M, Apostolović M, Stojanović D, Milošević Z, Toplaović A, Mitić-Lakušić V, Golubović M (2014) Understanding sensitivity, specificity, and predictive values. Vojnosanit Pregl 71(11):1062-1065
  48. Thakur PS, Khanna P, Sheorey T, Ojha A (2021), December Vision Transformer for Plant Disease Detection: PlantViT. In International Conference on Computer Vision and Image Processing (pp. 501-511). Cham: Springer International Publishing
  49. Li X, Li S (2022) Transformer help CNN see better: a lightweight hybrid apple disease identification model based on transformers. Agriculture 12(6):884
  50. Mishra S, Sachan R, Rajpal D (2020) Deep convolutional neural network-based detection system for real-time corn plant disease recognition. Procedia Comput Sci 167:2003-2010
Publisher’s note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.