تحليل مقارن لتقنيات التعلم الآلي لتوقع درجة الحرارة والرطوبة في البيئات الضوئية
Comparative analysis of machine learning techniques for temperature and humidity prediction in photovoltaic environments

المجلة: Scientific Reports، المجلد: 15، العدد: 1
DOI: https://doi.org/10.1038/s41598-025-98607-7
PMID: https://pubmed.ncbi.nlm.nih.gov/40325114
تاريخ النشر: 2025-05-05
المؤلف: Montaser Abdelsattar وآخرون
الموضوع الرئيسي: الإشعاع الشمسي والطاقة الشمسية

نظرة عامة

تقدم هذه الورقة البحثية تحليلًا مقارنًا لتسعة نماذج تعلم آلي (ML) للتنبؤ بدرجة الحرارة والرطوبة في بيئات الطاقة الشمسية (PV)، باستخدام مجموعة بيانات تتكون من 5,000 عينة (80% تدريب، 20% اختبار). تشمل النماذج التي تم تقييمها الانحدار باستخدام دعم المتجهات (SVR)، والانحدار اللين، والانحدار الجبلي (RR)، والانحدار الخطي (LR)، وأدا بوست، وزيادة التدرج (GB)، وشجرة القرار (DT)، والغابة العشوائية (RF)، وزيادة التدرج المتطرف (XGBoost). تم استخدام مقاييس الأداء مثل متوسط الخطأ المطلق (MAE)، وجذر متوسط مربع الخطأ (RMSE)، ومعامل التحديد (R²). من الجدير بالذكر أن XGBoost أظهر دقة تنبؤية متفوقة لكل من درجة الحرارة (MAE: 1.544، RMSE: 1.242، R²: 0.947) والرطوبة (MAE: 3.550، RMSE: 1.884، R²: 0.744)، بينما أظهر SVR أضعف أداء عبر كلا المقياسين.

تؤكد النتائج على مزايا الأساليب المعتمدة على التجميع، وخاصة XGBoost وRF، في التقاط التفاعلات البيئية المعقدة مقارنةً بالنماذج الخطية الأبسط مثل LR وSVR. تبرز الدراسة أهمية اختيار النموذج في تعزيز القدرات التنبؤية لأنظمة الطاقة الشمسية، مشيرةً إلى أن الخوارزميات المتقدمة يمكن أن تحسن بشكل كبير من مراقبة البيئة وموثوقية أنظمة الطاقة الشمسية. تشمل اتجاهات البحث المستقبلية دمج مصادر بيانات إضافية، مثل سرعة الرياح والإشعاع الشمسي، وتحسين المعلمات الفائقة لنشر نماذج ML في إعدادات الطاقة الشمسية التشغيلية، مما يعزز التطبيق العملي لهذه الأساليب في أنظمة الطاقة المتجددة.

الطرق

توضح قسم المنهجية تصميم البحث والتقنيات التحليلية المستخدمة في الدراسة. يتناول اختيار المشاركين، وطرق جمع البيانات، والأدوات الإحصائية المستخدمة للتحليل. استخدمت الدراسة نهجًا كميًا، حيث تم استخدام الاستبيانات والتجارب لجمع البيانات حول المتغيرات المحددة.

شمل التحليل تطبيق مجموعة متنوعة من الاختبارات الإحصائية، بما في ذلك تحليل الانحدار وANOVA، لتقييم العلاقات بين المتغيرات المستقلة والتابعة. تأكد الباحثون من موثوقية وصلاحية الأدوات المستخدمة، وتم تناول الاعتبارات الأخلاقية طوال عملية البحث. بشكل عام، تم تصميم المنهجية لاختبار الفرضيات بدقة وتقديم نتائج قوية.

النتائج

يقيم قسم النتائج أداء نماذج تعلم الآلة (ML) المختلفة في التنبؤ بدرجة الحرارة والرطوبة في بيئات الطاقة الشمسية (PV)، باستخدام مقاييس مثل متوسط الخطأ المطلق (MAE)، وجذر متوسط مربع الخطأ (RMSE)، وR². بالنسبة لتنبؤ درجة الحرارة، تم تصنيف النماذج بناءً على قيم R² الخاصة بها، حيث أظهر XGBoost والغابة العشوائية (RF) دقة متفوقة ومقاييس خطأ أقل مقارنةً بالانحدار باستخدام دعم المتجهات (SVR)، الذي أظهر أعلى MAE وRMSE. على وجه التحديد، حقق XGBoost وRF أفضل ملاءمة لبيانات درجة الحرارة، كما هو موضح في الأشكال المرفقة والجدول 6.

فيما يتعلق بتنبؤ الرطوبة، ظهر XGBoost مرة أخرى كنموذج الأكثر فعالية، حيث حقق أدنى MAE (3.550)، وأدنى RMSE (1.884)، وأعلى R² (0.744). تبع ذلك RF عن كثب، بينما كان أداء SVR ضعيفًا مع أعلى MAE (6.780) وRMSE (2.604)، مما يدل على عدم قدرته على التقاط الأنماط الأساسية في بيانات الرطوبة. أظهرت نماذج أخرى، مثل الانحدار اللين وأشجار القرار (DT)، أداءً معتدلاً لكنها تفوقت بشكل كبير من قبل XGBoost وRF. توضح الأشكال 14 و15 و16، جنبًا إلى جنب مع الجدول 7، الأداء المقارن لهذه النماذج، مؤكدةً أن XGBoost وRF يوفران أكثر التنبؤات دقة وموثوقية لكل من درجة الحرارة والرطوبة، بينما كان أداء SVR ضعيفًا باستمرار عبر جميع المقاييس.

المناقشة

في قسم المناقشة من الورقة البحثية، يقدم المؤلفون تحليلًا شاملاً لمجموعة البيانات المستخدمة في تدريب واختبار نماذج تعلم الآلة (ML)، والتي تتكون من متغيرات بيئية مثل درجة الحرارة، والرطوبة، ومؤشر الأشعة فوق البنفسجية، والجهد، والتيار، والإضاءة. تم تقسيم مجموعة البيانات، التي تتكون من 5,000 عينة، إلى 80% للتدريب و20% للاختبار لضمان موثوقية النموذج ومنع الإفراط في التكيف. تكشف الإحصائيات الوصفية عن تباين كبير في درجة الحرارة (المتوسط: 15.06 °C، النطاق: 0.60 °C إلى 43.80 °C) والرطوبة (المتوسط: 31.75%، النطاق: 10.10% إلى 65.20%)، مما يشير إلى ظروف بيئية متنوعة. يبرز التحليل أهمية هذه المتغيرات في فهم تأثيرها على أنظمة الطاقة الشمسية (PV)، مع تمثيلات بصرية توضح أنماط توزيع كل متغير.

يتناول المؤلفون أيضًا خوارزميات ML المستخدمة في التنبؤ بدرجة الحرارة والرطوبة، مناقشين نقاط القوة والضعف الخاصة بها. يؤكدون على التوازن بين تعقيد النموذج، وقابلية التفسير، والأداء، مشيرين إلى أن النماذج الأبسط مثل الانحدار الخطي أكثر قابلية للتفسير ولكن قد لا تلتقط الأنماط المعقدة بفعالية كما تفعل الأساليب المتقدمة المعتمدة على التجميع مثل الغابة العشوائية (RF) وXGBoost. تؤكد الدراسة على ضرورة اختيار النماذج المناسبة بناءً على مهام التنبؤ المحددة، مع مراعاة عوامل مثل الموارد الحاسوبية وطبيعة البيانات. تشمل اتجاهات البحث المستقبلية دمج تقنيات التحليل لتحسين دقة النموذج واستكشاف مقاييس أداء بديلة، مثل مؤشر الدقة المجمعة، لتوفير تقييم أكثر شمولية للأداء التنبؤي في نمذجة البيئة المعتمدة على ML.

Journal: Scientific Reports, Volume: 15, Issue: 1
DOI: https://doi.org/10.1038/s41598-025-98607-7
PMID: https://pubmed.ncbi.nlm.nih.gov/40325114
Publication Date: 2025-05-05
Author(s): Montaser Abdelsattar et al.
Primary Topic: Solar Radiation and Photovoltaics

Overview

This research paper presents a comparative analysis of nine Machine Learning (ML) models for predicting temperature and humidity in Photovoltaic (PV) environments, utilizing a dataset of 5,000 samples (80% training, 20% testing). The models evaluated include Support Vector Regression (SVR), Lasso Regression, Ridge Regression (RR), Linear Regression (LR), AdaBoost, Gradient Boosting (GB), Decision Tree (DT), Random Forest (RF), and eXtreme Gradient Boosting (XGBoost). Performance metrics such as Mean Absolute Error (MAE), Root Mean Squared Error (RMSE), and the Coefficient of Determination (R²) were employed. Notably, XGBoost exhibited superior predictive accuracy for both temperature (MAE: 1.544, RMSE: 1.242, R²: 0.947) and humidity (MAE: 3.550, RMSE: 1.884, R²: 0.744), while SVR demonstrated the weakest performance across both metrics.

The findings underscore the advantages of ensemble-based approaches, particularly XGBoost and RF, in capturing complex environmental interactions compared to simpler linear models like LR and SVR. The study highlights the importance of model selection in enhancing predictive capabilities for PV systems, suggesting that advanced algorithms can significantly improve environmental monitoring and the reliability of solar energy systems. Future research directions include integrating additional data sources, such as wind speed and solar radiation, and optimizing hyperparameters for real-time deployment of ML models in operational PV settings, thereby enhancing the practical applicability of these approaches in renewable energy systems.

Methods

The methodology section outlines the research design and analytical techniques employed in the study. It details the selection of participants, data collection methods, and the statistical tools used for analysis. The study utilized a quantitative approach, employing surveys and experiments to gather data on the specified variables.

The analysis involved the application of various statistical tests, including regression analysis and ANOVA, to evaluate the relationships between the independent and dependent variables. The researchers ensured the reliability and validity of the instruments used, and ethical considerations were addressed throughout the research process. Overall, the methodology was designed to rigorously test the hypotheses and provide robust findings.

Results

The results section evaluates the performance of various machine learning (ML) models for predicting temperature and humidity in photovoltaic (PV) environments, utilizing metrics such as Mean Absolute Error (MAE), Root Mean Square Error (RMSE), and R². For temperature prediction, the models were ranked based on their R² values, with XGBoost and Random Forest (RF) demonstrating superior accuracy and lower error metrics compared to Support Vector Regression (SVR), which exhibited the highest MAE and RMSE. Specifically, XGBoost and RF achieved the best fits to the temperature data, as illustrated in the accompanying figures and Table 6.

In terms of humidity prediction, XGBoost again emerged as the most effective model, achieving the lowest MAE (3.550), lowest RMSE (1.884), and highest R² (0.744). RF followed closely, while SVR performed poorly with the highest MAE (6.780) and RMSE (2.604), indicating its inability to capture the underlying patterns in the humidity data. Other models, such as Lasso Regression and Decision Trees (DT), showed moderate performance but were significantly outperformed by XGBoost and RF. Figures 14, 15, and 16, along with Table 7, further illustrate the comparative performance of these models, confirming that XGBoost and RF provide the most accurate and reliable forecasts for both temperature and humidity, while SVR consistently underperformed across all metrics.

Discussion

In the discussion section of the research paper, the authors present a comprehensive analysis of the dataset utilized for machine learning (ML) model training and testing, which comprises environmental variables such as temperature, humidity, UV index, voltage, current, and illuminance. The dataset, consisting of 5,000 samples, was split into 80% for training and 20% for testing to ensure model reliability and prevent overfitting. Descriptive statistics reveal significant variability in temperature (mean: 15.06 °C, range: 0.60 °C to 43.80 °C) and humidity (mean: 31.75%, range: 10.10% to 65.20%), indicating diverse environmental conditions. The analysis highlights the importance of these variables in understanding their impact on photovoltaic (PV) systems, with visual representations illustrating the distribution patterns of each variable.

The authors also delve into the ML algorithms employed for predicting temperature and humidity, discussing their respective strengths and weaknesses. They emphasize the trade-offs between model complexity, interpretability, and performance, noting that simpler models like linear regression are more interpretable but may not capture intricate patterns as effectively as advanced ensemble methods like Random Forest (RF) and XGBoost. The study underscores the necessity of selecting appropriate models based on the specific prediction tasks, considering factors such as computational resources and the nature of the data. Future research directions include the integration of decomposition techniques to enhance model accuracy and the exploration of alternative performance metrics, such as the Combined Accuracy index, to provide a more holistic evaluation of predictive performance in ML-based environmental modeling.