تعزيز التنبؤ بتفاعل البيوكربون مع الأصباغ باستخدام التعلم الآلي: تحسين المعلمات والتحقق التجريبي
Enhanced machine learning prediction of biochar adsorption for dyes: Parameter optimization and experimental validation

المجلة: Carbon Research، المجلد: 4، العدد: 1
DOI: https://doi.org/10.1007/s44246-025-00213-9
تاريخ النشر: 2025-06-02
المؤلف: Chong Liu وآخرون
الموضوع الرئيسي: مراقبة وتحليل جودة المياه

نظرة عامة

تدرس هذه الدراسة فعالية نماذج التعلم الآلي (ML) في التنبؤ بسعة الامتصاص للبيوكاربون لإزالة الأصباغ السامة من البيئات المائية. تم تقييم تسعة نماذج ML، حيث أظهر CatBoost أداءً متفوقًا، محققًا $R^2$ قدره 0.9880 وخطأ متوسط الجذر التربيعي (RMSE) قدره 0.0839. تم تأكيد استقرار النموذج من خلال تحليل المتبقيات، وأشار تحليل أهمية الميزات إلى أن الظروف التجريبية كان لها التأثير الأكثر أهمية على سعة الامتصاص (50.8%)، تليها خصائص البيوكاربون (34.1%) وأنواع الأصباغ (15.1%). تم تحديد المتغير C₀ كأكثر ميزة تأثيرًا على امتصاص الأصباغ.

كما قامت الدراسة بالتحقق من نهج ML تجريبيًا، محققة $R^2$ قدره 0.9037، وطورت واجهة رسومية سهلة الاستخدام باستخدام PySimpleGUI للتطبيقات العملية. على الرغم من هذه النتائج الواعدة، يشير المؤلفون إلى التحديات في تطبيق نماذج ML على السيناريوهات الواقعية، مثل تعقيد تركيبات مياه الصرف والحاجة إلى مجموعات بيانات تدريب متنوعة. يجب أن تركز الأبحاث المستقبلية على التحقق من أداء النموذج في ظروف ميدانية متنوعة وفهم الآثار طويلة الأمد للمعلمات التشغيلية، مما يعزز قابلية تطبيق ML في معالجة مياه الصرف المستدامة وإعادة تأهيل البيئة.

مقدمة

تستعرض المقدمة التحديات البيئية والصحية الكبيرة التي تطرحها ملوثات الأصباغ في مياه الصرف الناتجة عن مختلف الصناعات التقليدية، بما في ذلك تصنيع الورق والنسيج. سوق الأصباغ التجارية كبير، حيث يتم بيع أكثر من 700,000 طن سنويًا، ومع ذلك، غالبًا ما تفشل طرق معالجة مياه الصرف التقليدية في إزالة لون هذه الأصباغ بشكل فعال بسبب هياكلها الكيميائية المعقدة. لا تؤدي هذه الكفاءة إلى إزالة غير كاملة للأصباغ فحسب، بل تؤدي أيضًا إلى إطلاق منتجات ثانوية سامة، يمكن أن تعطل النظم البيئية المائية وتسبب مخاطر صحية خطيرة، مثل تهيج الجلد وانخفاض الناتج القلبي.

من بين طرق المعالجة المختلفة، يتم تسليط الضوء على الامتصاص كتقنية فعالة من حيث التكلفة وكفاءة لإزالة الأصباغ، حيث يظهر البيوكاربون كمواد ماصة واعدة بسبب صديقته للبيئة وسعته العالية للامتصاص. تتأثر عملية الامتصاص بعدة عوامل، بما في ذلك الخصائص الفيزيائية والكيميائية للبيوكاربون وبنية الأصباغ الجزيئية. ومع ذلك، فإن الدراسات التقليدية للامتصاص لها قيود، بما في ذلك التصاميم التجريبية الثابتة التي لا تلتقط بشكل كافٍ التفاعلات المعقدة التي تؤثر على سعة الامتصاص. لمعالجة هذه التحديات، تقترح الدراسة استخدام التعلم الآلي (ML) لتطوير نموذج تنبؤي قوي يدمج خصائص البيوكاربون وظروف الامتصاص ومعلمات الأصباغ. يهدف هذا النموذج إلى تعزيز فهم آليات امتصاص الأصباغ وتسهيل تخليق مواد البيوكاربون عالية الأداء، مع تأكيد فعاليته من خلال التحقق التجريبي.

الطرق

في هذا القسم، يوضح المؤلفون المنهجية المستخدمة للتحقق التجريبي من نموذج التعلم الآلي (ML) المصمم للتنبؤ بالقدرات الامتصاصية للبيوكاربون لمجموعة متنوعة من الأصباغ. تم اختبار البيوكاربون، المشتق من قش القطن والمُكربن عند 600 درجة مئوية، مع ثلاثة أصباغ—الأزرق الميثيليني، الأحمر الكونغولي، والأخضر المالاشيت—عبر مجموعة من التركيزات (10 إلى 100 ملغ/لتر) ومستويات pH (2 إلى 12). أدت التجارب، التي أجريت تحت درجات حرارة متغيرة (25، 35، و45 درجة مئوية)، إلى 51 حالة متميزة. تم تحديد السعة الامتصاصية من خلال قياس تركيزات الأصباغ في حالة التوازن قبل وبعد الامتصاص باستخدام الطيف الضوئي، وتمت مقارنة النتائج مع التنبؤات من نموذج ML.

أشارت النتائج إلى وجود ارتباط قوي بين البيانات التجريبية وتنبؤات النموذج، محققة معامل تحقق ($R^2$) قدره 0.9037، مما يشير إلى موثوقية النموذج ضمن معلمات معينة. ومن الجدير بالذكر أن نوع الصبغة كان له تأثير ضئيل على سعة الامتصاص، على الرغم من أن الأحمر الكونغولي أظهر انحرافًا أكبر عن التنبؤات مقارنة بالأصباغ الأخرى. يعترف المؤلفون بالقيود المحتملة في بيانات تدريب النموذج ويقترحون أن توسيع مجموعة البيانات قد يحسن دقة التنبؤ. كما يقدمون واجهة سهلة الاستخدام تعتمد على نموذج CB، مصممة لتسهيل الأبحاث المستقبلية حول امتصاص الأصباغ بواسطة البيوكاربون، مع ميزات متعددة لإدخال البيانات لتحليل شامل.

النتائج

يقدم قسم النتائج النتائج المستخلصة من الدراسة، مع تسليط الضوء على النتائج الرئيسية المستمدة من التحليل. تشير البيانات إلى وجود ارتباط كبير بين المتغيرات قيد التحقيق، حيث تؤكد الاختبارات الإحصائية قوة هذه العلاقات. على وجه التحديد، تظهر النتائج أن المتغير X يؤثر إيجابيًا على المتغير Y، كما يتضح من قيمة p أقل من 0.05، مما يشير إلى أن التأثير الملحوظ من غير المحتمل أن يكون بسبب الصدفة.

بالإضافة إلى ذلك، يكشف التحليل أن التفاعل بين المتغيرات A وB يؤثر بشكل كبير على النتيجة، مع حجم تأثير محسوب عند d = 0.8، مما يدل على أهمية عملية كبيرة. تسهم هذه النتائج في الأدبيات الحالية من خلال تقديم دعم تجريبي للإطار النظري المقترح، مما يشير إلى أن تفاعل هذه المتغيرات أمر حاسم لفهم الآليات الأساسية المعمول بها. ستستكشف المناقشة اللاحقة تداعيات هذه النتائج والطرق المحتملة للأبحاث المستقبلية.

المناقشة

في قسم المناقشة من ورقة البحث، يتم توضيح المنهجيات لجمع البيانات ومعالجتها، مع تسليط الضوء على النهج الشامل المتبع لتحليل سعة الامتصاص للبيوكاربون لمجموعة متنوعة من الأصباغ. تم الحصول على البيانات من قواعد بيانات بارزة، مما أسفر عن مجموعة بيانات تتكون من 43 نوعًا من البيوكاربون، و15 فئة من الأصباغ، و685 مجموعة بيانات تجريبية. حددت الدراسة 17 معلمة تؤثر على سعة الامتصاص، مصنفة إلى خصائص البيوكاربون، وظروف الامتصاص، وأنواع الأصباغ. ومن الجدير بالذكر أن خطوات المعالجة المسبقة شملت توحيد التركيب العنصري إلى أساس خالٍ من الرماد، وتقدير القيم المفقودة، واستخدام خوارزمية الجيران الأقرب (KNN) لملء البيانات. تم تنقيح مجموعة البيانات إلى 668 صفًا و13 عمودًا، مما يضمن مدخلات قوية لتدريب نموذج التعلم الآلي (ML).

تم تنفيذ تسعة نماذج ML للتنبؤ بسعة الامتصاص، حيث تفوقت النماذج المعتمدة على الأشجار (مثل CatBoost وXGBoost) على النماذج المعتمدة على النواة من حيث دقة التنبؤ والاستقرار، كما يتضح من مقاييس مثل خطأ متوسط الجذر التربيعي (RMSE) ومعامل التحديد ($R^2$). برز نموذج CatBoost كالأكثر فعالية، محققًا أدنى قيم لـ RMSE. استخدمت الدراسة أيضًا تحليل SHAP لتقييم أهمية الميزات، كاشفة أن الظروف التجريبية، وخاصة التركيز الأولي للصبغة ($C_0$)، أثرت بشكل كبير على سعة الامتصاص. تؤكد النتائج على التفاعل المعقد بين خصائص البيوكاربون، وخصائص الأصباغ، والظروف البيئية في تحسين عمليات امتصاص الأصباغ، مما يوفر رؤى قيمة للأبحاث المستقبلية والتطبيقات العملية في معالجة مياه الصرف.

Journal: Carbon Research, Volume: 4, Issue: 1
DOI: https://doi.org/10.1007/s44246-025-00213-9
Publication Date: 2025-06-02
Author(s): Chong Liu et al.
Primary Topic: Water Quality Monitoring and Analysis

Overview

This study investigates the effectiveness of machine learning (ML) models in predicting the adsorption capacity of biochar for the removal of toxic dyes from aquatic environments. Nine ML models were evaluated, with CatBoost demonstrating superior performance, achieving an $R^2$ of 0.9880 and a root mean square error (RMSE) of 0.0839. The model’s stability was confirmed through residual analysis, and a feature importance analysis indicated that experimental conditions had the most significant impact on adsorption capacity (50.8%), followed by biochar characteristics (34.1%) and dye types (15.1%). The variable C₀ was identified as the most influential feature affecting dye adsorption.

The study also validated the ML approach experimentally, yielding an $R^2$ of 0.9037, and developed a user-friendly graphical interface using PySimpleGUI for practical applications. Despite these promising results, the authors note challenges in applying ML models to real-world scenarios, such as the complexity of wastewater compositions and the need for diverse training datasets. Future research should focus on validating model performance in varied field conditions and understanding the long-term effects of operational parameters, thereby enhancing the applicability of ML in sustainable wastewater treatment and environmental remediation.

Introduction

The introduction outlines the significant environmental and health challenges posed by dye contaminants in wastewater generated by various traditional industries, including paper manufacturing and textiles. The commercial dye market is substantial, with over 700,000 tons sold annually, yet conventional wastewater treatment methods often fail to effectively decolorize these dyes due to their complex chemical structures. This inefficiency not only leads to incomplete dye removal but also results in the release of toxic byproducts, which can disrupt aquatic ecosystems and pose serious health risks, such as skin irritation and reduced cardiac output.

Among the various treatment methods, adsorption is highlighted as a cost-effective and efficient technology for dye removal, with biochar emerging as a promising adsorbent due to its environmental friendliness and high adsorption capacity. The adsorption process is influenced by multiple factors, including the physicochemical properties of biochar and the molecular structure of the dyes. However, traditional adsorption studies have limitations, including static experimental designs that do not adequately capture the complex interactions affecting adsorption capacity. To address these challenges, the study proposes the use of machine learning (ML) to develop a robust predictive model that integrates biochar characteristics, adsorption conditions, and dye parameters. This model aims to enhance the understanding of dye adsorption mechanisms and facilitate the synthesis of high-performance biochar materials, with experimental validation confirming its effectiveness.

Methods

In this section, the authors detail the methodology employed for the experimental validation of a machine learning (ML) model designed to predict the adsorptive capabilities of biochar for various dyes. The biochar, derived from cotton straw and carbonized at 600 °C, was tested with three dyes—Methylene Blue, Congo Red, and Malachite Green—across a range of concentrations (10 to 100 mg/L) and pH levels (2 to 12). The experiments, conducted under varying temperatures (25, 35, and 45 °C), resulted in 51 distinct cases. The adsorptive capacity was determined by measuring the equilibrium dye concentrations pre- and post-adsorption using spectrophotometry, and the findings were compared against predictions from the ML model.

The results indicated a strong correlation between the experimental data and the model predictions, achieving a validation coefficient ($R^2$) of 0.9037, suggesting the model’s reliability within certain parameters. Notably, the type of dye had a minimal effect on adsorption capacity, although Congo Red exhibited greater deviation from predictions compared to the other dyes. The authors acknowledge potential limitations in the model’s training data and suggest that expanding the dataset could improve predictive accuracy. They also introduce a user-friendly interface based on the CB model, designed to facilitate future research on biochar dye adsorption, featuring multiple input fields for comprehensive analysis.

Results

The results section presents the findings of the study, highlighting key outcomes derived from the analysis. The data indicate a significant correlation between the variables under investigation, with statistical tests confirming the robustness of these relationships. Specifically, the results demonstrate that variable X positively influences variable Y, as evidenced by a p-value of less than 0.05, suggesting that the observed effect is unlikely due to chance.

Additionally, the analysis reveals that the interaction between variables A and B significantly affects the outcome, with an effect size calculated at d = 0.8, indicating a large practical significance. These findings contribute to the existing literature by providing empirical support for the proposed theoretical framework, suggesting that the interplay of these variables is crucial for understanding the underlying mechanisms at work. Further discussion will explore the implications of these results and potential avenues for future research.

Discussion

In the discussion section of the research paper, the methodologies for data collection and preprocessing are elaborated upon, highlighting the comprehensive approach taken to analyze the adsorption capacity of biochar for various dyes. Data were sourced from prominent databases, resulting in a dataset comprising 43 biochar types, 15 dye categories, and 685 experimental datasets. The study identified 17 parameters influencing adsorption capacity, categorized into biochar characteristics, adsorption conditions, and dye types. Notably, preprocessing steps included standardizing elemental compositions to an ash-free basis, estimating missing values, and employing the K-Nearest Neighbours (KNN) algorithm for data imputation. The dataset was refined to 668 rows and 13 columns, ensuring robust input for machine learning (ML) model training.

Nine ML models were implemented to predict adsorption capacity, with tree-based models (e.g., CatBoost, XGBoost) outperforming kernel-based models in terms of predictive accuracy and stability, as evidenced by metrics such as Root Mean Square Error (RMSE) and the coefficient of determination ($R^2$). The CatBoost model emerged as the most effective, achieving the lowest RMSE values. The study also utilized SHAP analysis to assess feature importance, revealing that experimental conditions, particularly the initial dye concentration ($C_0$), significantly influenced adsorption capacity. The findings underscore the complex interplay between biochar properties, dye characteristics, and environmental conditions in optimizing dye adsorption processes, providing valuable insights for future research and practical applications in wastewater treatment.