DOI: https://doi.org/10.5334/joc.482
PMID: https://pubmed.ncbi.nlm.nih.gov/41523094
تاريخ النشر: 2026-01-01
المؤلف: Javier Conde وآخرون
الموضوع الرئيسي: علم الأعصاب للغة ثنائية اللغة
نظرة عامة
تتناول هذه المقالة توليد تقديرات قائمة على الذكاء الاصطناعي لخمسة خصائص لغوية لكلمات اللغة الألمانية: الوضوح، القيمة، الإثارة، عمر الاكتساب (AoA)، وألفة الكلمات، باستخدام نموذج GPT-4o-mini. تم اختيار النموذج لأدائه القوي في الأبحاث السابقة. أظهرت دراسات التحقق أن التقديرات التي تم إنشاؤها بواسطة الذكاء الاصطناعي للوضوح، القيمة، والإثارة تتوافق جيدًا مع تقييمات البشر، على الرغم من أنها لا تتجاوز أفضل التقديرات الحالية المستندة إلى الذكاء الاصطناعي المشتقة من المتجهات الدلالية. بالمقابل، تعتبر تقديرات GPT لعمر الاكتساب تقديرات قوية تقارب تقييمات البشر وتتفوق على البدائل الأخرى، خاصة بعد تحسين النموذج باستخدام 2000 تقييم بشري.
بالإضافة إلى ذلك، تظهر تقديرات الذكاء الاصطناعي المحسّنة لألفة الكلمات قيمة تنبؤية متفوقة مقارنة بتكرار الكلمات في مهام اتخاذ القرار المعجمي وتقييمات المفردات. تتضمن مجموعة البيانات تقديرات لـ 167,000 كلمة فيما يتعلق بالوضوح، القيمة، الإثارة، وعمر الاكتساب، والتي من المحتمل أن تكون مألوفة لأكثر من 90% من المشاركين في الدراسات البالغة النموذجية، بينما تتوفر تقديرات الألفة لـ 928,000 شكل من أشكال الكلمات. جميع البيانات، بما في ذلك تقييمات الألفة البشرية التي تم جمعها حديثًا لـ 11,000 كلمة، متاحة للجمهور لأغراض البحث على https://osf.io/ghjd2/، مع قيود على الاستخدام التجاري.
طرق
في هذه الدراسة، قام المؤلفون بتجميع قائمة شاملة من 2,010 كلمات مستمدة من مصفوفة دمجت تقديرات GPT-FAM مع تكرارات كلمات Multilex. كانت مجموعة البيانات الأولية تتكون من 920,000 كلمة مأخوذة من دراسات متنوعة، مع استبعاد قائمة كلمات Multilex بسبب عدم احتوائها على الأسماء المرفوعة. بالإضافة إلى ذلك، تم تضمين قائمة من 100,000 ليمّا لالتقاط الكلمات المعروفة شائعًا التي غابت عن قوائم التكرار القياسية، جنبًا إلى جنب مع 350,000 إدخال تم حساب المتجهات الدلالية لها بواسطة كوبر وشولتي في فالد (2016).
تم تنظيم مساحة التحفيز في شبكة 7 × 7، حيث تم سحب عينات عشوائية تصل إلى 60 كلمة من كل مربع. ومن الجدير بالذكر أن توزيع الكلمات المختارة كشف عن غياب الكلمات ذات التكرار العالي مع تقديرات GPT-FAM المنخفضة، مما أدى إلى أخذ أقل من 60 كلمة من تلك المنطقة. شملت الاختيارات كلمات ذات ألفة GPT متقاربة وتكرار Multilex، بالإضافة إلى فئتين من الكلمات التي تظهر معلومات متباينة: (1) ألفة GPT منخفضة ولكن تكرار Multilex مرتفع، تتكون في الغالب من كلمات محظورة ومصطلحات نادرة مثل “دارين”، و(2) كلمات مألوفة ولكنها نادرة الحدوث، وغالبًا ما تكون أشكالًا معقدة من الناحية الصرفية نموذجية في اللغة الألمانية.
نتائج
في دراسة تقييم الألفة، تم تأكيد موثوقية قوائم الكلمات باستخدام ألفا كرونباخ وأوميغا مك دونالد التي تجاوزت 0.96، ولم يتم استبعاد أي مشاركين بسبب انخفاض الارتباط مع مجموعة البيانات العامة. قام المشاركون بتقييم المحفزات الشائعة بين 5.3 و5.5 في المتوسط. لأخذ الاختلافات الطفيفة بين المجموعات في الاعتبار، تم حساب قيم التنبؤ الخطي الأفضل (BLUP) باستخدام نموذج مختلط التأثيرات. وُجد أن الارتباط سبيرمان بين تقييمات البشر وتقديرات GPT كان ρ = 0.818 [95% CI: 0.803-0.832]، مما يشير إلى أن تقديرات GPT تعمل كبديل موثوق لتقييمات ألفة البشر، متفوقة على الارتباط مع تقييمات Multilex (ρ = 0.623 [0.595-0.649]).
كشفت نتائج تحليل نموذج إضافي عام (GAM) أن الكلمات ذات التكرارات المنخفضة في Multilex ولكن تقديرات الألفة العالية من GPT حصلت على تقييمات بشرية عالية، مما يشير إلى توافق أقوى بين تقييمات البشر وتقديرات GPT-FAM مقارنة بتكرار Multilex. ومن الجدير بالذكر أن الكلمات التي حصلت على تقييمات بشرية أعلى من تقديرات GPT كانت في الغالب كلمات محظورة، بينما كانت تلك التي حصلت على تقييمات أقل هي في الغالب كلمات ذات تكرار منخفض. كما سلطت الدراسة الضوء على عدم كفاية تقييمات الألفة الحالية، حيث أظهر فقط شرويدر وآخرون (2012) ارتباطًا مفيدًا (0.67) مع التقييمات الجديدة. بالإضافة إلى ذلك، يشير الارتباط البالغ 0.85 مع تقديرات GPT-FAM غير المحسّنة إلى أن فوائد التحسين قد تكون أقل أهمية مما كان متوقعًا.
مناقشة
في قسم المناقشة من ورقة البحث، يقيم المؤلفون فعالية تقديرات الذكاء الاصطناعي المولدة لمتغيرات لغوية مختلفة، بما في ذلك وضوح الكلمات، القيمة، الإثارة، عمر الاكتساب (AoA)، وألفة الكلمات. تسلط الدراسة الضوء على أن نماذج الذكاء الاصطناعي، وخاصة GPT، توفر تقديرات موثوقة لوضوح الكلمات، مع ارتباطات عالية (r > .82) بين التقييمات التي تم إنشاؤها بواسطة GPT وتقييمات البشر. تتضمن المنهجية المستخدمة تحفيزًا منظمًا لمعايرة مخرجات النموذج، مما يضمن قابلية التكرار واستقلالية التقديرات. تشير النتائج إلى أن تقديرات GPT تتماشى بشكل وثيق مع تقييمات البشر المعتمدة ومجموعات البيانات الأخرى التي تم إنشاؤها بواسطة الذكاء الاصطناعي، خاصة في سياق دراسات اللغة الألمانية.
بالنسبة للقيمة والإثارة، تكشف النتائج أنه بينما تتوافق تقديرات GPT جيدًا مع تقييمات البشر (r > .75)، إلا أنها أقل قوة من تلك الخاصة بالوضوح. يشير المؤلفون إلى أن غموض الإثارة كمفهوم قد يساهم في هذه الارتباطات المنخفضة. فيما يتعلق بعمر الاكتساب، أظهرت تقديرات GPT ارتباطات واعدة مع تقييمات البشر، خاصة بعد تحسين النموذج، مما حسن بشكل كبير توافق التقديرات مع أحكام البشر. أخيرًا، تتناول الدراسة التحديات المتعلقة بتقدير ألفة الكلمات، مشيرة إلى أن الألفة قد تكون متغيرًا أكثر إفادة من تكرار الكلمات. بشكل عام، تؤكد الأبحاث على إمكانيات تقديرات الذكاء الاصطناعي المولدة في الدراسات اللغوية، بينما تحدد أيضًا مجالات لمزيد من التحسين والتحقق.
DOI: https://doi.org/10.5334/joc.482
PMID: https://pubmed.ncbi.nlm.nih.gov/41523094
Publication Date: 2026-01-01
Author(s): Javier Conde et al.
Primary Topic: Neurobiology of Language and Bilingualism
Overview
This article discusses the generation of AI-based estimates for five linguistic characteristics of German words: concreteness, valence, arousal, age of acquisition (AoA), and word familiarity, utilizing the GPT-4o-mini model. The model was chosen for its strong performance in prior research. Validation studies demonstrated that the AI-generated estimates for concreteness, valence, and arousal correlate well with human ratings, although they do not surpass the best existing AI estimates derived from semantic vectors. In contrast, the GPT estimates for AoA are robust approximations of human ratings and outperform other alternatives, particularly after fine-tuning with 2,000 human ratings.
Additionally, the fine-tuned AI estimates of word familiarity exhibit superior predictive value compared to word frequency in lexical decision tasks and vocabulary assessments. The dataset includes estimates for 167,000 words regarding concreteness, valence, arousal, and AoA, which are likely familiar to over 90% of participants in typical adult studies, while familiarity estimates are available for 928,000 word forms. All data, including newly collected human familiarity ratings for 11,000 words, are publicly accessible for research purposes at https://osf.io/ghjd2/, with restrictions on commercial use.
Methods
In this study, the authors compiled a comprehensive list of 2,010 words derived from a matrix that integrated GPT-FAM estimates with Multilex word frequencies. The initial dataset consisted of 920,000 words sourced from various studies, excluding the Multilex word list due to its lack of capitalized nouns. Additionally, a list of 100,000 lemmas was included to capture commonly known words absent from standard frequency lists, alongside 350,000 entries for which semantic vectors were calculated by Köper and Schulte im Walde (2016).
The stimulus space was organized into a 7 × 7 grid, from which random samples of up to 60 words were drawn from each square. Notably, the distribution of selected words revealed an absence of high-frequency words with low GPT-FAM estimates, resulting in fewer than 60 words sampled from that area. The selection encompassed words with convergent GPT familiarity and Multilex frequency, as well as two categories of words exhibiting divergent information: (1) low GPT familiarity but high Multilex frequency, predominantly consisting of taboo words and rare terms like “darren,” and (2) familiar yet infrequently occurring words, often morphologically complex forms typical in the German language.
Results
In the familiarity rating study, the reliability of the word lists was confirmed with Cronbach’s alpha and McDonald’s omega exceeding 0.96, and no participants were excluded due to low correlation with the overall dataset. Participants rated common stimuli between 5.3 and 5.5 on average. To account for slight differences among groups, best linear unbiased prediction (BLUP) values were calculated using a mixed-effects model. The Spearman correlation between human ratings and GPT estimates was found to be ρ = 0.818 [95% CI: 0.803-0.832], indicating that GPT estimates serve as a reliable proxy for human familiarity ratings, outperforming the correlation with Multilex ratings (ρ = 0.623 [0.595-0.649]).
The results of a generalized additive model (GAM) analysis revealed that words with low Multilex frequencies but high GPT familiarity estimates received high human ratings, suggesting a stronger alignment between human ratings and GPT-FAM estimates than with Multilex frequency. Notably, words with higher human ratings than GPT estimates were predominantly taboo words, while those with lower ratings were mostly low-frequency words. The study also highlighted the inadequacy of existing familiarity ratings, with only Schröder et al. (2012) showing a useful correlation (0.67) with the new ratings. Additionally, the correlation of 0.85 with untuned GPT-FAM estimates suggests that the benefits of fine-tuning may be less significant than anticipated.
Discussion
In the discussion section of the research paper, the authors evaluate the effectiveness of AI-generated estimates for various linguistic variables, including word concreteness, valence, arousal, age of acquisition (AoA), and word familiarity. The study highlights that AI models, particularly GPT, provide reliable estimates for word concreteness, with high correlations (r > .82) between GPT-generated ratings and human ratings. The methodology employed involved a structured prompt to calibrate the model’s output, ensuring reproducibility and independence of estimates. The results indicate that GPT’s estimates align closely with established human ratings and other AI-generated datasets, particularly in the context of German language studies.
For valence and arousal, the findings reveal that while GPT estimates correlate well with human ratings (r > .75), they are less robust than those for concreteness. The authors note that the ambiguity of arousal as a concept may contribute to these lower correlations. In terms of AoA, GPT estimates showed promising correlations with human ratings, especially after fine-tuning the model, which significantly improved the alignment of estimates with human judgments. Lastly, the study addresses the challenges of estimating word familiarity, suggesting that familiarity may serve as a more informative variable than word frequency. Overall, the research underscores the potential of AI-generated estimates in linguistic studies, while also identifying areas for further refinement and validation.
