تقييم تصنيف أنواع الأشجار من بيانات المسح بالليزر القريب: تقديم مجموعة بيانات FORspecies20K
Benchmarking tree species classification from proximally sensed laser scanning data: Introducing the FORspecies20K dataset

المجلة: Methods in Ecology and Evolution، المجلد: 16، العدد: 4
DOI: https://doi.org/10.1111/2041-210x.14503
تاريخ النشر: 2025-02-01
المؤلف: Stefano Puliti وآخرون
الموضوع الرئيسي: الاستشعار عن بعد وتطبيقات LiDAR

نظرة عامة

تناقش هذه الفقرة التقدم في التقاط بيانات النظام البيئي للغابات الآلي من خلال المسح بالليزر القريب، مع تسليط الضوء على التحديات في استخراج المعلومات البيئية ذات الصلة، مثل تحديد أنواع الأشجار، دون بيانات أرضية إضافية. بينما توفر الذكاء الاصطناعي، وخاصة التعلم العميق (DL)، إمكانيات للتشغيل الآلي، فإن التقدم قد تعثر بسبب ندرة مجموعات بيانات سحاب النقاط الفردية الموسومة الكبيرة والمتنوعة والمتاحة بشكل مفتوح. تؤثر هذه القيود على قوة نماذج DL عبر أنواع البيانات المختلفة وتعيق تتبع التقدم في منهجيات تصنيف الأنواع.

للتغلب على هذه التحديات، قدم المؤلفون مجموعة بيانات FOR-species20K المرجعية، التي تتكون من سحب نقاط الأشجار الفردية التي تم الحصول عليها من تقنيات المسح بالليزر المختلفة، بما في ذلك المسح الأرضي (TLS)، والمسح المتنقل (MLS)، وأنظمة الطائرات بدون طيار (ULS). تشمل هذه المجموعة التي تم تجميعها بشكل تعاوني أكثر من 20,000 شجرة من 33 نوعًا، وتمثل مجموعة واسعة من أحجام وأشكال الأشجار، وتشتمل على بيانات بشكل أساسي من الغابات الأوروبية عبر مناطق البحر الأبيض المتوسط، والمعتدلة، والبيئية الشمالية، بالإضافة إلى عينات متناثرة من قارات أخرى. يهدف إصدار FOR-species20K إلى تعزيز تطوير نماذج DL القوية وتسهيل التقدم في تصنيف الأنواع الآلي.

مقدمة

تهدف مجموعة بيانات FOR-species20K بشكل أساسي إلى تقييم مصنفي الأنواع بدلاً من أن تكون قاعدة بيانات شاملة لتوقع أنواع الأشجار التشغيلية. تقيم هذه الدراسة أداء طريقة DetailView عبر ثلاث مناطق بيئية أوروبية—شمالية، نصف شمالية، ومعتدلة—مركزة على الغابات الناضجة (ارتفاع الشجرة >5 م). تشير النتائج إلى أن DetailView تحقق دقة عامة عالية (أكثر من 75%) عبر مختلف المناطق البيئية، مع أعلى دقة (87%-90%) لوحظت في الغابات الشمالية ذات الأنواع القليلة. مع زيادة تنوع الأنواع، وخاصة في الغابات المعتدلة ذات الأوراق العريضة المختلطة، تميل الدقة إلى الانخفاض.

على الرغم من فعاليتها، فإن نشر DetailView في أنظمة تشغيلية سهلة الاستخدام أمر ضروري، حيث إن المعالجة اللاحقة لبيانات المسح بالليزر تطرح تحديات بسبب متطلباتها الحاسوبية. تقدم التطورات الأخيرة في التعلم العميق، مثل أطر تقسيم الأشجار من النهاية إلى النهاية مثل ForAInet وSegmentAnyTree، حلولًا واعدة لأتمتة استخراج أشجار النقاط من سحب النقاط غير المهيكلة. يمكن أن تسهل هذه الابتكارات دمج DetailView في حلول مبسطة “زر واحد”، مما يعزز الوصول لعلماء البيئة ومديري الغابات غير المتخصصين ويدعم في النهاية مراقبة وإدارة النظام البيئي للغابات على نطاق واسع.

طرق

تحدد قسم الطرق في ورقة البحث مجموعة متنوعة من الأساليب المعتمدة على سحب النقاط والصور لتصنيف الأنواع. تستخدم الأساليب المعتمدة على الصور استراتيجيات متعددة الزوايا، حيث تُعامل مهمة التصنيف كمشكلة تصنيف صور من خلال إسقاط سحب النقاط على مستويات ثنائية الأبعاد من زوايا متعددة. من الجدير بالذكر أن طريقة SimpleView تستخدم ستة إسقاطات كاميرا عمودية لتوليد صور للتصنيف.

تلخص الفقرة أيضًا خصائص هياكل التعلم العميق (DL) المختلفة التي تم اختبارها، موضحة أنواع بيانات الإدخال، وتقسيمات التدريب والتحقق، وتقنيات التوسيع، وطرق الاستدلال. على سبيل المثال، يقوم DGCNN مع PointAugment بمعالجة سحب النقاط ثلاثية الأبعاد مع تقسيم تدريبي بنسبة 90% والتحقق بنسبة 10%، مع دمج تقنيات تقليل العينة والضوضاء كاستراتيجيات توسيع. تتبع نماذج أخرى، مثل PointNet++ وMinkNet، أيضًا تقسيمات بيانات مماثلة وتستخدم تقنيات توسيع متنوعة، بما في ذلك التدوير العشوائي والتصويت بالأغلبية للتنبؤات. تم تعديل نموذج YOLOv5 ليشمل أحجام صور أكبر وتقليل عينة سحب النقاط، مع التركيز على تعظيم الدقة المتوازنة أثناء التحقق لمعالجة عدم توازن البيانات. الشيفرة التنفيذية متاحة في المستودع المقدم.

مناقشة

تسلط فقرة المناقشة في الورقة الضوء على التقدم والتحديات في أتمتة تصنيف أنواع الأشجار باستخدام تقنيات المسح بالليزر. تؤكد على الدور الكبير لنماذج التعلم العميق (DL)، مثل DetailView وYOLOv5، في تحسين دقة التصنيف، خاصة في النظم البيئية للغابات المتنوعة. تكشف التحليلات أنه بينما حقق تصنيف الأنواع الصنوبرية دقة أعلى (87.4%) مقارنة بالأنواع ذات الأوراق العريضة (71.3%)، فإن هذا التفاوت يُعزى إلى الاختلاف الداخلي الأكبر وتعقيد تيجان الأوراق العريضة. تحدد الدراسة الفجوات الحرجة في الأبحاث الحالية، بما في ذلك التنوع الجغرافي والأنواع المحدود، وأحجام مجموعات البيانات الصغيرة، وهيمنة أوضاع البيانات الفردية، مما يعيق عمومية نماذج التصنيف.

يقدم المؤلفون مجموعة بيانات FOR-species20K كمعيار شامل لتصنيف أنواع الأشجار، تم تجميعها من مصادر متنوعة لتعزيز تدريب النماذج وتقييمها. ويبلغون أن النماذج الأعلى أداءً أظهرت أداءً قويًا عبر منصات المسح المختلفة، مع دقة إجمالية تتجاوز 70%. ومع ذلك، تشير النتائج إلى أن الأشجار الصغيرة (<5 م) تشكل تحديات كبيرة لدقة التصنيف، مما يبرز الحاجة إلى مزيد من البحث لمعالجة عدم توازن البيانات وتحسين قوة النموذج. تختتم الورقة بالدعوة إلى جهود تعاونية لتوسيع مجموعة البيانات، خاصة للأنواع غير الممثلة وطرق المسح، لتسهيل تطوير مصنفي الأنواع من الجيل التالي.

القيود

تسلط القيود في الدراسة الضوء على اعتبارات حاسمة لتطبيق النماذج المدربة على مجموعة بيانات FOR-species20K. أولاً، قد تكون النتائج متفائلة بشكل مفرط نظرًا لأن مجموعة بيانات الاختبار مشتقة من نفس مجموعة البيانات مثل مجموعة التدريب، مما قد يؤدي إلى خصائص بيانات مماثلة وشكل الشجرة، مما قد يشوه تقييمات الأداء. يجب على المستخدمين توخي الحذر عند نشر هذه النماذج على مجموعات بيانات جديدة، خاصة فيما يتعلق بالتعرف على الأنواع المفتوحة، حيث إن قائمة الأنواع غير مكتملة، خاصة في أوروبا. قد تؤدي هذه النقص إلى توقعات غير دقيقة للأنواع غير الممثلة في بيانات التدريب، مما يؤثر على القابلية للتطبيق في العالم الحقيقي في النظم البيئية للغابات المتنوعة.

بالإضافة إلى ذلك، فإن جودة تقسيم الأشجار في مجموعة بيانات FOR-species20K مرتفعة بشكل ملحوظ، مما يثير القلق بشأن فعالية النموذج عند تطبيقه على مجموعات بيانات ذات جودة تقسيم أقل. هذه القضية ذات صلة خاصة في البيئات الغابية المعقدة حيث يكون تقسيم الأشجار الفردية بدقة تحديًا بسبب تداخل التيجان. أخيرًا، فإن تمثيل الأنواع عبر منصات أو مستشعرات مختلفة محدود، حيث يتم تسجيل بعض الأنواع بواسطة منصة واحدة فقط، وتشتمل مجموعة البيانات على نطاق ضيق من المستشعرات. وبالتالي، فإن أداء النموذج على منصات أو مستشعرات بديلة لا يزال غير مختبر، مما قد يقيد عموميتها بشكل أكبر.

Journal: Methods in Ecology and Evolution, Volume: 16, Issue: 4
DOI: https://doi.org/10.1111/2041-210x.14503
Publication Date: 2025-02-01
Author(s): Stefano Puliti et al.
Primary Topic: Remote Sensing and LiDAR Applications

Overview

The section discusses advancements in automated forest ecosystem data capture through proximally sensed laser scanning, highlighting the challenges in deriving ecologically relevant information, such as tree species identification, without supplementary ground data. While artificial intelligence, particularly deep learning (DL), offers potential for automation, progress has been stymied by the scarcity of large, diverse, and openly available labeled single-tree point cloud datasets. This limitation affects the robustness of DL models across different data types and impedes the tracking of advancements in species classification methodologies.

To overcome these challenges, the authors introduced the FOR-species20K benchmark dataset, which comprises individual tree point clouds obtained from various laser scanning techniques, including terrestrial (TLS), mobile (MLS), and unmanned aerial systems (ULS). This collaboratively compiled dataset encompasses over 20,000 trees from 33 species, representing a wide array of tree sizes and forms, and includes data primarily from European forests across Mediterranean, temperate, and boreal biogeographic regions, as well as scattered samples from other continents. The release of FOR-species20K aims to enhance the development of robust DL models and facilitate progress in automated species classification.

Introduction

The FOR-species20K dataset primarily aims to benchmark species classifiers rather than serve as a comprehensive database for operational tree species prediction. This study evaluates the performance of the DetailView method across three European biogeographic regions—boreal, hemiboreal, and temperate—focusing on mature forests (tree height >5 m). The results indicate that DetailView achieves high overall accuracy (over 75%) across various ecoregions, with the highest accuracy (87%-90%) observed in species-poor boreal forests. As species diversity increases, particularly in mixed broadleaved temperate forests, accuracy tends to decrease.

Despite its effectiveness, the deployment of DetailView in user-friendly operational systems is essential, as the post-processing of laser scanning data poses challenges due to its computational demands. Recent advancements in deep learning, such as end-to-end tree segmentation frameworks like ForAInet and SegmentAnyTree, offer promising solutions to automate tree instance extraction from unstructured point clouds. These innovations could facilitate the integration of DetailView into streamlined “one-button” solutions, enhancing accessibility for non-specialist ecologists and forest managers and ultimately supporting scalable forest ecosystem monitoring and management.

Methods

The methods section of the research paper outlines various point-cloud-based and image-based approaches for species classification. The image-based methods utilize multi-view strategies, treating the classification task as an image classification problem by projecting point clouds onto 2D planes from multiple angles. Notably, the SimpleView method employs six orthogonal camera projections to generate images for classification.

The section also summarizes the characteristics of different deep learning (DL) architectures tested, detailing input data types, training and validation splits, augmentation techniques, and inference methods. For instance, DGCNN with PointAugment processes 3D point clouds with a stratified 90% training and 10% validation split, incorporating downsampling and noise as augmentation strategies. Other models, such as PointNet++ and MinkNet, also follow similar data splits and utilize various augmentation techniques, including random rotations and majority voting for predictions. The YOLOv5 model was adapted to include larger image sizes and down-sampling of point clouds, focusing on maximizing balanced accuracy during validation to address data imbalance. The implementation code is available in the provided repository.

Discussion

The discussion section of the paper highlights the advancements and challenges in automating tree species classification using laser scanning technologies. It emphasizes the significant role of deep learning (DL) models, such as DetailView and YOLOv5, in improving classification accuracy, particularly in diverse forest ecosystems. The analysis reveals that while coniferous species classification achieved higher accuracy (87.4%) compared to broadleaved species (71.3%), this disparity is attributed to the greater intra-specific variation and complexity of broadleaf crowns. The study identifies critical gaps in existing research, including limited geographic and species diversity, small dataset sizes, and the predominance of single data modalities, which hinder the generalizability of classification models.

The authors present the FOR-species20K dataset as a comprehensive benchmark for tree species classification, compiled from various sources to enhance model training and evaluation. They report that the top-performing models demonstrated robust performance across different scanning platforms, with overall accuracies exceeding 70%. However, the results indicate that smaller trees (<5 m) pose significant challenges for classification accuracy, underscoring the need for further research to address data imbalances and improve model robustness. The paper concludes by advocating for collaborative efforts to expand the dataset, particularly for underrepresented species and scanning methods, to facilitate the development of next-generation species classifiers.

Limitations

The limitations of the study highlight critical considerations for the application of models trained on the FOR-species20K dataset. Firstly, the results may be overly optimistic due to the test dataset being derived from the same data pool as the training set, which could lead to similar data properties and tree morphology, potentially skewing performance evaluations. Users should be cautious when deploying these models on new datasets, particularly regarding open-set recognition, as the species list is incomplete, especially in Europe. This incompleteness may result in inaccurate predictions for species not represented in the training data, thereby affecting real-world applicability in diverse forest ecosystems.

Additionally, the quality of tree segmentation in the FOR-species20K dataset is notably high, raising concerns about the model’s effectiveness when applied to datasets with poorer segmentation quality. This issue is particularly pertinent in complex forest environments where accurate segmentation of individual trees is challenging due to overlapping canopies. Lastly, the representation of species across different platforms or sensors is limited, as some species are recorded by only one platform, and the dataset encompasses a narrow range of sensors. Consequently, the model’s performance on alternative platforms or sensors remains untested, which could further constrain its generalizability.