نظام ذكاء اصطناعي قائم على LLM للأسئلة والأجوبة لتوحيد صيانة قاطرات السكك الحديدية
LLM-based intelligent Q&A system for railway locomotive maintenance standardization

المجلة: Scientific Reports، المجلد: 15، العدد: 1
DOI: https://doi.org/10.1038/s41598-025-96130-3
PMID: https://pubmed.ncbi.nlm.nih.gov/40234512
تاريخ النشر: 2025-04-15
المؤلف: Ao Chen وآخرون
الموضوع الرئيسي: جودة البيانات وإدارتها

نظرة عامة

توحيد بيانات صيانة القاطرات أمر ضروري لتحليل الصيانة المعتمدة على الموثوقية (RCM) الفعال، وهو أمر حاسم لتحسين استراتيجيات الصيانة في النقل بالسكك الحديدية. تتناول هذه الورقة التحديات المتعلقة بصيغ البيانات غير الموحدة، وأحجام العينات الصغيرة، وارتفاع تكاليف العمالة من خلال استخدام نماذج اللغة الكبيرة (LLMs) مثل UIE وChatGLM. يقترح المؤلفون إطار عمل يجمع بين توليد بيانات عالية الجودة، والقدرات الفريدة لنماذج اللغة الكبيرة، والتخصيص لتحسين عملية التوحيد. يقومون بتطوير نصوص مخصصة وأدوات مساعدة، بما في ذلك نظام ذكي للأسئلة والأجوبة (Q&A)، والذي يظهر مقاييس أداء عالية (مثل 86.87% لـ Bleu-4) وكفاءة في المعالجة.

تسلط الأبحاث الضوء على أهمية المعالجة المسبقة الموحدة في ضمان جودة البيانات لتحليل RCM، مع التأكيد على الحاجة إلى موظفين مهرة وبيانات شاملة لتلخيص أنماط الفشل بشكل فعال. لا تعمل نظام الأسئلة والأجوبة الذكي والأدوات المساعدة المقترحة على تبسيط عملية التوحيد فحسب، بل تسهل أيضًا تحديد مكونات الصيانة وطرق معالجة الأعطال. ستركز الأعمال المستقبلية على توسيع مجموعة البيانات، وتحسين نص التوصيف التلقائي للبيانات، وتعزيز أداء النموذج من خلال تقنيات متقدمة مثل زيادة البيانات والتدريب المتوازي. يهدف التطوير المستمر لهذه الأدوات إلى معالجة تحديات النشر في العالم الحقيقي وتحسين الكفاءة العامة لتوحيد بيانات صيانة القاطرات.

مقدمة

تستعرض مقدمة هذه الورقة البحثية تطوير أداة مساعدة مصممة لتوحيد بيانات صيانة القاطرات، مستفيدة من نموذج لغة كبير مخصص (LLM) يعتمد على إطار عمل ChatGLM. يتم هيكلة عملية تطوير الأداة في ثلاث مراحل رئيسية: معالجة مجموعة البيانات، وتخصيص LLM، وتلخيص النتائج. يقوم نموذج معالجة البيانات بتحويل بيانات الصيانة الأصلية إلى ثلاثة ملفات أساسية: ملف فهرس، مجموعة بيانات صيانة القاطرات، ومجموعة بيانات أصلية. تدمج مجموعة بيانات الصيانة محتوى الأعطال وتدابير العلاج، بينما تحتفظ مجموعة البيانات الأصلية بمعلومات شاملة لاسترجاع فعال. تضمن هذه الطريقة المنظمة أن النتائج المستخرجة بواسطة LLM يمكن تتبعها بدقة إلى السجلات الأصلية.

يعزز تنفيذ هذه الأداة المساعدة بشكل كبير عملية التوحيد، مما يقلل الوقت المطلوب للتوحيد اليدوي من أربعة أسابيع عمل إلى 15.06 ساعة فقط، مما يسهل ممارسات صيانة القاطرات. بالإضافة إلى ذلك، تقدم الورقة نظام أسئلة وأجوبة ذكي يستخدم LLM المخصص لتسهيل الاستفسارات باللغة الطبيعية المتعلقة بصيانة القاطرات. يقوم هذا النظام بمعالجة أسئلة المستخدم، وتحديد الكيانات المسماة، واسترجاع الإجابات ذات الصلة من خلال تحليل بيانات الصيانة باستخدام تقنية البيانات الضخمة، مما يحسن في النهاية كفاءة ودقة استرجاع المعلومات في مجال صيانة القاطرات.

نقاش

يوفر قسم النقاش في الورقة البحثية نظرة شاملة على استخراج المعلومات (IE) ومنهجيات الأسئلة والأجوبة المعرفية (Q&A) ضمن معالجة اللغة الطبيعية (NLP). يصنف أساليب IE إلى ثلاثة أنواع رئيسية: هندسة المعرفة، التعلم الآلي، والتعلم العميق. تعتمد هندسة المعرفة على قواعد مصنوعة يدويًا لاستخراج المعلومات، والتي، رغم أنها مستقرة وفعالة، تفتقر إلى القابلية للتكيف وتتطلب مدخلات كبيرة من الخبراء. تعزز أساليب التعلم الآلي، التي تعيد صياغة المهمة كمشكلة تصنيف تسلسلي، القابلية للتكيف والدقة ولكنها تعتمد بشكل كبير على مجموعات بيانات موسومة كبيرة، مما يعقد تطبيقها. تستفيد طرق التعلم العميق من هياكل متقدمة لاستخراج الميزات تلقائيًا، مما يحسن بشكل كبير من دقة وكفاءة الاستخراج، ومع ذلك، فإنها تتطلب أيضًا بيانات تدريب كبيرة وضبط دقيق للمعلمات.

في سياق الأسئلة والأجوبة المعرفية، تحدد الورقة أربع مراحل: الطرق التقليدية المعتمدة على القواعد، الأساليب المعتمدة على الرسوم البيانية المعرفية، نماذج التعلم العميق التقليدية، وتقنيات المعتمدة على نماذج اللغة الكبيرة (LLM). تقتصر الطرق التقليدية على اعتمادها على قواعد محددة مسبقًا، بينما تعزز الرسوم البيانية المعرفية الدقة من خلال البيانات المنظمة ولكنها تتطلب جهدًا كبيرًا وقد تفتقر إلى التغطية الشاملة. تحسن نماذج التعلم العميق القابلية للتكيف والأداء ولكن تواجه تحديات في متطلبات البيانات وتحسين المعلمات. تمثل نماذج اللغة الكبيرة، مثل GPT وLLa-MA، تقدمًا كبيرًا، قادرة على التعامل مع مهام لغوية متنوعة ولكنها لا تزال تتطلب قواعد معرفية خارجية لضمان الدقة الواقعية في التطبيقات الخاصة بالمجال. تؤكد الورقة على الحاجة إلى نماذج لغة كبيرة مخصصة في سياقات معينة، مثل صيانة القاطرات، لتعزيز أداء أنظمة IE وQ&A مع معالجة مخاوف خصوصية البيانات.

Journal: Scientific Reports, Volume: 15, Issue: 1
DOI: https://doi.org/10.1038/s41598-025-96130-3
PMID: https://pubmed.ncbi.nlm.nih.gov/40234512
Publication Date: 2025-04-15
Author(s): Ao Chen et al.
Primary Topic: Data Quality and Management

Overview

The standardization of locomotive maintenance data is essential for effective reliability centered maintenance (RCM) analysis, which is crucial for optimizing maintenance strategies in rail transport. This paper addresses the challenges of nonstandardized data formats, small sample sizes, and high labor costs by employing large language models (LLMs) such as UIE and ChatGLM. The authors propose a framework that combines high-quality data generation, the unique capabilities of LLMs, and fine-tuning to enhance the standardization process. They develop custom scripts and auxiliary tools, including an intelligent question and answer (Q&A) system, which demonstrates high performance metrics (e.g., 86.87% for Bleu-4) and efficiency in processing.

The research highlights the importance of standardized preprocessing in ensuring data quality for RCM analysis, emphasizing the need for skilled personnel and comprehensive data to summarize failure patterns effectively. The proposed intelligent Q&A system and auxiliary tools not only streamline the standardization process but also facilitate the identification of maintenance components and fault treatment methods. Future work will focus on expanding the dataset, optimizing the automatic data annotation script, and enhancing model performance through advanced techniques like data augmentation and parallel training. The ongoing development of these tools aims to address the challenges of real-world deployment and improve the overall efficiency of locomotive maintenance data standardization.

Introduction

The introduction of this research paper outlines the development of an auxiliary tool designed for the standardization of locomotive maintenance data, leveraging a custom large language model (LLM) based on the ChatGLM framework. The tool’s development process is structured into three main stages: dataset processing, LLM fine-tuning, and encapsulation of results. The data preprocessing module transforms original maintenance data into three essential files: an index file, a locomotive maintenance dataset, and an original dataset. The maintenance dataset integrates fault content and treatment measures, while the original dataset retains comprehensive information for efficient retrieval. This structured approach ensures that results extracted by the LLM can be accurately traced back to the original records.

The implementation of this auxiliary tool significantly enhances the standardization process, reducing the time required for manual standardization from four person-weeks to just 15.06 hours, thereby streamlining locomotive maintenance practices. Additionally, the paper introduces an intelligent Q&A system that utilizes the customized LLM to facilitate natural language queries related to locomotive maintenance. This system processes user questions, identifies named entities, and retrieves relevant answers by analyzing maintenance data through big data technology, ultimately improving the efficiency and accuracy of information retrieval in the locomotive maintenance domain.

Discussion

The discussion section of the research paper provides a comprehensive overview of information extraction (IE) and knowledge question and answer (Q&A) methodologies within natural language processing (NLP). It categorizes IE approaches into three main types: knowledge engineering, machine learning, and deep learning. Knowledge engineering relies on manually crafted rules for information extraction, which, while stable and efficient, lack adaptability and require significant expert input. Machine learning approaches, reformulating the task as a sequence-labeling problem, enhance adaptability and accuracy but depend heavily on large labeled datasets, complicating their application. Deep learning methods leverage advanced architectures to automatically extract features, significantly improving extraction precision and efficiency, yet they also necessitate substantial training data and careful hyperparameter tuning.

In the context of knowledge Q&A, the paper delineates four stages: traditional rule-based methods, knowledge graph-based approaches, traditional deep learning models, and large language model (LLM)-based techniques. Traditional methods are limited by their reliance on predefined rules, while knowledge graphs enhance accuracy through structured data but are labor-intensive and may lack comprehensive coverage. Deep learning models improve adaptability and performance but face challenges in data requirements and hyperparameter optimization. LLMs, such as GPT and LLa-MA, represent a significant advancement, capable of handling diverse language tasks but still require external knowledge bases to ensure factual accuracy in domain-specific applications. The paper emphasizes the need for customized LLMs in specific contexts, such as locomotive maintenance, to enhance the performance of IE and Q&A systems while addressing data privacy concerns.