العالِم العربي - الصفحة 10 - الأبحاث المرتبطة بالكلمة المفتاحية: معالجة اللغة الطبيعية

الأبحاث المرتبطة بالكلمة المفتاحية: معالجة اللغة الطبيعية

الذكاء الاصطناعي لأتمتة التحليلات الميتا الشبكية: أربع دراسات حالة لتقييم التطبيق المحتمل لنماذج اللغة الكبيرة

2024 | المؤلف: Tim Reason وآخرون | المجلة: PharmacoEconomics – Open | المجال: الإحصاء والاحتمالات واللايقين (Statistics, Probability and Uncertainty)

تستكشف هذه الدراسة التجريبية تطبيق نموذج اللغة الكبير (LLM)، وتحديداً المحول المدرب مسبقاً التوليدي 4 (GPT-4)، في أتمتة العمليات المعنية في المراجعات المنهجية والتحليلات الشبكية (NMAs). تركز الأبحاث على أربع دراسات حالة مع نتائج ثنائية ووقت للحدث في منطقتين مرضيتين، حيث تم إجراء NMAs سابقاً يدوياً. تم تطوير برنامج بايثون للتفاعل مع LLM عبر استدعاءات…
متى وكيف يتم استخدام تحليل التركيب التأكيدي (CCA) في أبحاث اللغة الثانية

2024 | المؤلف: Abdullah Alamer وآخرون | المجلة: Studies in Second Language Acquisition | المجال: اللغة واللسانيات (Language and Linguistics)

في مجال أبحاث اللغة الثانية (L2)، غالبًا ما تنشأ المفاهيم من عناصر متميزة تحدد بشكل جماعي المفهوم، والتي تُسمى المتغيرات الناشئة. يجب تقييم هذه المتغيرات الناشئة، التي تشمل مكونات مثل مهارات اللغة واستراتيجيات التعلم، باستخدام تحليل المركب التأكيدي (CCA) بدلاً من تحليل العوامل التأكيدي (CFA). يعتمد الأخير على نموذج عامل مشترك يعامل العناصر كعناصر قابلة…
تحسين نماذج اللغة الكبيرة للتعرف على الكيانات المسماة السريرية من خلال هندسة المطالبات

2024 | المؤلف: Yan Hu وآخرون | المجلة: Journal of the American Medical Informatics Association | المجال: الذكاء الاصطناعي (Artificial Intelligence)

تدرس هذه الدراسة أداء GPT-3.5 و GPT-4 في مهام التعرف على الكيانات المسماة السريرية (NER)، مستهدفةً بشكل خاص استخراج الكيانات الطبية من الملاحظات السريرية وتحديد الأحداث السلبية المتعلقة باضطرابات الجهاز العصبي. تستخدم البحث إطار عمل محدد للمهام مصمم لتعزيز أداء النموذج، والذي يتضمن مطالبات أساسية، ومطالبات قائمة على إرشادات التوضيح، وتعليمات تحليل الأخطاء، وعينات من…
تحسين تصنيف الأمراض من خلال تحليل نموذج اللغة للأعراض

2024 | المؤلف: Esraa Hassan وآخرون | المجلة: Scientific Reports | المجال: علم الأحياء الجزيئي (Molecular Biology)

تستكشف هذه الورقة البحثية تطبيق تقنيات معالجة اللغة الطبيعية المتقدمة (NLP) وتقنيات التعلم العميق لأتمتة توقع الأمراض بناءً على أوصاف الأعراض. تستخدم الدراسة نموذجين من نماذج تطبيع المفاهيم الطبية – تمثيلات الترميز ثنائية الاتجاه من المحولات (MCN-BERT) ونموذج الذاكرة الطويلة القصيرة ثنائية الاتجاه (BiLSTM)، كل منهما مُحسَّن باستخدام طرق مختلفة من المعلمات الفائقة. تم تقييم…
Adaptive-RAG: تعلم التكيف مع نماذج اللغة الكبيرة المعززة بالاسترجاع من خلال تعقيد الأسئلة

2024 | المؤلف: Soyeong Jeong وآخرون | المجلة: Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers) | المجال: الذكاء الاصطناعي (Artificial Intelligence)

تقدم البحث إطار عمل استرجاع معزز بالتكيف (Adaptive-RAG)، المصمم لتحسين التعامل مع الاستفسارات ذات التعقيدات المتفاوتة في مهام السؤال والجواب (QA). تكافح نماذج اللغة الكبيرة المعززة بالاسترجاع (LLMs) التقليدية لتحقيق التوازن بين الكفاءة والدقة، وغالبًا ما تعقد الاستفسارات البسيطة أو تعالج بشكل غير كاف الاستفسارات المعقدة متعددة الخطوات. يعالج إطار العمل Adaptive-RAG هذه التحديات من…
emotion2vec: التدريب الذاتي المسبق لتمثيل عواطف الكلام

2024 | المؤلف: Ziyang Ma وآخرون | المجلة: Findings of the Association for Computational Linguistics ACL 2024 | المجال: الذكاء الاصطناعي (Artificial Intelligence)

في هذا البحث، يقدم المؤلفون emotion2vec، وهو نموذج تمثيل عاطفي عالمي مصمم لتعزيز التعرف على العواطف عبر مهام ولغات مختلفة. تم تدريب النموذج مسبقًا على 262 ساعة من بيانات العواطف غير المصنفة باستخدام نهج تقطير عبر الإنترنت مع إشراف ذاتي يدمج بين وظائف خسارة مستوى التعبير ووظائف خسارة مستوى الإطار. تتيح هذه الاستراتيجية التدريبية المبتكرة…
تقييم التوليد المعزز بالاسترجاع للطب

2024 | المؤلف: Guangzhi Xiong وآخرون | المجلة: Findings of the Association for Computational Linguistics ACL 2024 | المجال: الذكاء الاصطناعي (Artificial Intelligence)

في هذا القسم، يناقش المؤلفون قيود نماذج اللغة الكبيرة (LLMs) في الإجابة على الأسئلة الطبية (QA)، وخاصة القضايا المتعلقة بالهلوسة والمعلومات القديمة. لمعالجة هذه التحديات، يقترحون تقييم استرجاع المعلومات الطبية المعزز بالتوليد (MIRAGE)، وهو معيار يتكون من 7,663 سؤالاً مأخوذة من خمسة مجموعات بيانات طبية للإجابة على الأسئلة. أجرى المؤلفون تجارب واسعة باستخدام مجموعة أدوات…
DeepSeekMoE: نحو التخصص النهائي للخبراء في نماذج اللغة المختلطة من الخبراء

2024 | المؤلف: Damai Dai وآخرون | المجلة: Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) | المجال: الذكاء الاصطناعي (Artificial Intelligence)

في هذا القسم، يقدم المؤلفون بنية DeepSeek-MoE، المصممة لتعزيز تخصص الخبراء ضمن نماذج مزيج الخبراء (MoE)، خاصة في سياق نماذج اللغة الكبيرة. تكافح الهياكل التقليدية لمزيج الخبراء، مثل GShard، لضمان أن يطور الخبراء معرفة متميزة ومركزة. لمعالجة ذلك، تستخدم DeepSeek-MoE استراتيجيتين رئيسيتين: أولاً، تقسم الخبراء بدقة إلى \(mN\) وحدة وتفعيل \(mK\) منها، مما يسمح باختيار…
الترجمة خطوة بخطوة: تفكيك عملية الترجمة لتحسين جودة الترجمة للنصوص الطويلة

2024 | المؤلف: Eleftheria Briakou وآخرون | المجلة: Proceedings of the Ninth Conference on Machine Translation | المجال: اللغة واللسانيات (Language and Linguistics)

تقدم هذه الورقة نهجًا جديدًا خطوة بخطوة لترجمة النصوص الطويلة، مستفيدة من رؤى دراسات الترجمة. يجادل المؤلفون ضد اعتبار الترجمة الآلية مهمة واحدة، وبدلاً من ذلك يدعون إلى إطار عمل يتضمن تفاعلات متعددة الأدوار مع نماذج اللغة. يتضمن هذا الإطار مراحل البحث قبل الترجمة، والصياغة، والتنقيح، والتدقيق اللغوي، والتي تعزز مجتمعة جودة الترجمة. تشير التقييمات…
DTS-SQL: نص إلى SQL مفكك باستخدام نماذج لغة كبيرة صغيرة

2024 | المؤلف: Mohammadreza Pourreza وآخرون | المجلة: Findings of the Association for Computational Linguistics: EMNLP 2024 | المجال: نظم المعلومات والإدارة (Information Systems and Management)

في هذا القسم، يتناول المؤلفون التحديات المرتبطة بمهمة تحويل النص إلى SQL، وخاصة الاعتماد على نماذج اللغة الكبيرة المملوكة (LLMs) التي تثير مخاوف بشأن خصوصية البيانات. يقترحون نهجًا جديدًا للتدريب الدقيق على مرحلتين يبسط المهمة من خلال تقسيمها إلى مكونين أكثر قابلية للإدارة. تم تقييم هذه الطريقة عبر ثلاثة مجموعات بيانات كبيرة عبر مجالات مختلفة…