DOI: https://doi.org/10.1007/s11192-025-05524-7
تاريخ النشر: 2026-01-17
المؤلف: Nick Haupka
الموضوع الرئيسي: البحث في علم القياسات العلمية والبيبلومetrics
نظرة عامة
تقدم هذه الورقة مصنف نوع الوثيقة مصمم لتعزيز التمييز بين منشورات المجلات البحثية وغير البحثية داخل قاعدة بيانات OpenAlex. باستخدام بيانات وصفية مفتوحة، يحدد المصنف بفعالية المحتوى غير البحثي، مثل النصوص الموازية، والملخصات، والتحريرات، والرسائل، وهو أمر حاسم للتحليلات الببليومترية، وتصنيفات الجامعات، والعمليات الأكاديمية. تسلط الدراسة الضوء على التحديات الحالية في التصنيف في OpenAlex، حيث يتم غالبًا تصنيف العناصر غير البحثية بشكل خاطئ كإسهامات بحثية، مما يؤدي إلى تضخيم مقاييس البحث.
يظهر المصنف أداءً عاليًا مع درجة F1 تبلغ 0.95، مما يشير إلى إمكانيات كبيرة لتحسين جودة البيانات الببليومترية في OpenAlex. ومن الجدير بالذكر أن تطبيق هذا المصنف على بيانات فعلية أدى إلى إعادة تصنيف 4,589,967 مقالة ومراجعة—تمثل 10.75% من إجمالي 42,701,863 إدخالاً—كإسهامات غير بحثية. تؤكد هذه النتيجة فعالية المصنف في تحسين دقة تصنيف البحث داخل قاعدة البيانات.
مقدمة
تناقش مقدمة الورقة الدور الحاسم لتصنيف نوع الوثيقة في قواعد البيانات الأكاديمية مثل OpenAlex وCrossref وSemantic Scholar، التي تقوم بفهرسة ملايين المنشورات البحثية سنويًا. يؤثر تصنيف أنواع الوثائق—الذي يتراوح من التحريرات إلى مقالات المجلات—بشكل كبير على التحليلات الببليومترية، بما في ذلك تصنيفات الجامعات وعوامل تأثير المجلات. ومن الجدير بالذكر أنه تم ملاحظة تناقضات في تعيينات نوع الوثيقة عبر قواعد البيانات، حيث تشير الدراسات إلى أن OpenAlex يميل إلى المبالغة في تقدير تصنيف المقالات مقارنة بقواعد بيانات أخرى مثل Scopus وWeb of Science. علاوة على ذلك، كانت OpenAlex تاريخيًا تفتقر إلى تمييز واضح بين المقالات البحثية والمراجعات، مما أدى إلى تصنيف أكثر من 99% من عناصر المجلات كمقالات.
استجابةً لهذه التحديات، نفذت OpenAlex تغييرات على تصنيف نوع الوثيقة، بما في ذلك إضافة المطبوعات السابقة والمراجعات، ودمج أنواع الوثائق من PubMed. تقدم هذه الورقة مصنف تعلم آلي مصمم لتعزيز دقة تصنيف نوع الوثيقة في OpenAlex من خلال تصفية الإسهامات البحثية المفترضة بناءً على بيانات وصفية مفتوحة. ستفصل قسم المنهجية مصادر البيانات وبناء المصنف، بينما سيتم التحقق من النتائج مقابل بيانات حقيقية من OpenAlex وScopus. تهدف الورقة إلى معالجة القضايا المستمرة للتصنيف الخاطئ في قواعد البيانات الببليومترية والمساهمة في تحسين ممارسات تصنيف الوثائق البحثية.
الطرق
يستعرض قسم المنهجية النهج المنهجي المستخدم في البحث للتحقيق في الفرضيات المحددة. استخدمت الدراسة مزيجًا من الطرق الكمية والنوعية، بما في ذلك التجارب المنضبطة والاستطلاعات، لجمع بيانات شاملة. تم اختيار المشاركين من خلال أخذ عينات عشوائية طبقية لضمان عينة تمثيلية، وتم جمع البيانات باستخدام أدوات موثوقة لتعزيز الموثوقية.
تم إجراء تحليلات إحصائية باستخدام أدوات برمجية لتقييم العلاقات بين المتغيرات، باستخدام تقنيات مثل تحليل الانحدار وANOVA. تم تحديد مستوى الدلالة عند \( p < 0.05 \) لتحديد الأهمية الإحصائية للنتائج. بالإضافة إلى ذلك، تم تحليل البيانات النوعية من خلال الترميز الموضوعي لتحديد الأنماط والرؤى التي تكمل النتائج الكمية، مما يوفر فهمًا شاملًا لأسئلة البحث. بشكل عام، تم تصميم المنهجية لاختبار الفرضيات بدقة مع ضمان صحة وموثوقية النتائج.
النتائج
في قسم النتائج، يتم تقييم أداء نماذج التعلم الآلي المختلفة على مجموعة البيانات، مع تلخيص النتائج في الجداول 2 و3. يظهر مصنف الغابة العشوائية أعلى دقة، حيث حقق 94.8% على كل من مجموعتي البيانات الاختبارية والتحقق. في المقابل، يتفوق خوارزمية الجيران الأقرب في الاسترجاع ودرجة F1، حيث تقترب كلاهما من 95% عبر نفس مجموعات البيانات.
تقدم الجدول 3 مزيدًا من التفاصيل حول أداء كل نموذج فيما يتعلق بالفئات المحددة من البحث وغير البحث. تشير النتائج إلى تنوع في فعالية النماذج، حيث يظهر كل منها نقاط قوة وضعف فريدة. ومن الجدير بالذكر أن الانحدار اللوغاريتمي يتفوق على جميع النماذج الأخرى في بعض المقاييس، مما يبرز المشهد المعقد للأداء بين الخوارزميات المختبرة.
المناقشة
تسلط قسم المناقشة في ورقة البحث الضوء على التحديات في إنشاء مجموعة بيانات معيارية ذهبية للتحقق من أنواع الوثائق، خاصة بسبب التناقضات في التصنيف عبر قواعد بيانات مختلفة مثل Crossref وOpenAlex وPubMed. يؤكد المؤلفون أن تصنيف كل ناشر بشكل مستقل يمكن أن يؤدي إلى تناقضات، مما يعقد مقارنة أنواع الوثائق. لمعالجة ذلك، تتبنى الدراسة تصنيف PubMed، الذي أظهر دقة قابلة للمقارنة في تصنيف المقالات البحثية والمراجعات. تم بناء مجموعة مشتركة من مصادر بيانات متعددة للتحقق من أداء المصنف، مع التركيز على منشورات المجلات من 2012 إلى 2022.
يستخدم المصنف الذي تم تطويره في هذه الدراسة خصائص بيانات وصفية محددة للتمييز بين المنشورات البحثية وغير البحثية. استخدمت التجارب خوارزميات تعلم آلي متنوعة، مع نتائج تشير إلى أن المصنف نجح في تحديد أكثر من 10% من المقالات والمراجعات كإسهامات غير بحثية في OpenAlex، بينما تم تصنيف 1.5% فقط على هذا النحو في Scopus. كانت معدلات الدقة لاكتشاف الإسهامات البحثية حوالي 89%، مع دقة 75% لتصنيفات غير البحث. ومع ذلك، يعترف المؤلفون بالقيود، بما في ذلك التناقضات في جودة البيانات الوصفية والتغطية، والتي يمكن أن تؤثر على دقة التصنيف. يقترحون أنه بينما يكون المصنف فعالًا لمجموعات البيانات الكبيرة، قد يستفيد من التحقق اليدوي والتحسين الإضافي لمعالجة قيود التصنيف الثنائي وتحسين اختيار الميزات.
DOI: https://doi.org/10.1007/s11192-025-05524-7
Publication Date: 2026-01-17
Author(s): Nick Haupka
Primary Topic: scientometrics and bibliometrics research
Overview
This paper presents a document type classifier designed to enhance the differentiation between research and non-research journal publications within the OpenAlex database. Utilizing open metadata, the classifier effectively identifies non-research content, such as paratext, abstracts, editorials, and letters, which is crucial for bibliometric analyses, university rankings, and academic processes. The study highlights existing classification challenges in OpenAlex, where non-research items are often misclassified as research contributions, leading to inflated research metrics.
The classifier demonstrates a high performance with an F1-score of 0.95, suggesting significant potential for improving the quality of bibliometric data in OpenAlex. Notably, the application of this classifier on actual data resulted in the reclassification of 4,589,967 articles and reviews—accounting for 10.75% of the total 42,701,863 entries—as non-research contributions. This finding underscores the classifier’s effectiveness in refining the accuracy of research classification within the database.
Introduction
The introduction of the paper discusses the critical role of document type classification in scholarly databases such as OpenAlex, Crossref, and Semantic Scholar, which index millions of research publications annually. The classification of document types—ranging from editorials to journal articles—significantly influences bibliometric analyses, including university rankings and Journal Impact Factors. Notably, discrepancies in document type assignments across databases have been observed, with studies indicating that OpenAlex tends to overestimate the classification of articles compared to other databases like Scopus and Web of Science. Furthermore, OpenAlex has historically lacked a clear distinction between research articles and reviews, leading to over 99% of journal items being classified as articles.
In response to these challenges, OpenAlex has implemented changes to its document type classification, including the addition of preprints and reviews, and the integration of document types from PubMed. This paper introduces a machine learning classifier designed to enhance the accuracy of document type classification in OpenAlex by filtering presumed research contributions based on open metadata. The methodology section will detail the data sources and classifier construction, while the results will be validated against real data from OpenAlex and Scopus. The paper aims to address the ongoing issues of misclassification in bibliometric databases and contribute to the improvement of research document classification practices.
Methods
The methodology section outlines the systematic approach employed in the research to investigate the specified hypotheses. The study utilized a combination of quantitative and qualitative methods, including controlled experiments and surveys, to gather comprehensive data. Participants were selected through stratified random sampling to ensure a representative sample, and data collection was conducted using validated instruments to enhance reliability.
Statistical analyses were performed using software tools to evaluate the relationships between variables, employing techniques such as regression analysis and ANOVA. The significance level was set at \( p < 0.05 \) to determine the statistical relevance of the findings. Additionally, qualitative data were analyzed through thematic coding to identify patterns and insights that complement the quantitative results, providing a holistic understanding of the research questions. Overall, the methodology was designed to rigorously test the hypotheses while ensuring the validity and reliability of the results.
Results
In the results section, the performance of various machine learning models on the dataset is evaluated, with findings summarized in Tables 2 and 3. The random forest classifier demonstrates the highest precision, achieving 94.8% on both the test and validation datasets. In contrast, the k-nearest-neighbours algorithm excels in recall and F1-score, both nearing 95%, across the same datasets.
Table 3 further details the performance of each model concerning the specific classes of research and non-research. The results indicate a diversity in model effectiveness, with each exhibiting unique strengths and weaknesses. Notably, Logarithmic Regression surpasses all other models in certain metrics, highlighting the nuanced performance landscape among the algorithms tested.
Discussion
The discussion section of the research paper highlights the challenges in creating a gold standard dataset for validating document types, particularly due to inconsistencies in classification across various databases like Crossref, OpenAlex, and PubMed. The authors emphasize that each publisher’s independent classification can lead to discrepancies, complicating the comparison of document types. To address this, the study adopts PubMed’s taxonomy, which has demonstrated comparable accuracy in classifying research articles and reviews. A shared corpus was constructed from multiple data sources to validate the classifier’s performance, focusing on journal publications from 2012 to 2022.
The classifier developed in this study utilizes specific metadata characteristics to differentiate between research and non-research publications. The experiments employed various machine learning algorithms, with results indicating that the classifier successfully identified over 10% of articles and reviews as non-research contributions in OpenAlex, while only 1.5% were classified as such in Scopus. Accuracy rates for detecting research contributions were around 89%, with 75% accuracy for non-research classifications. However, the authors acknowledge limitations, including discrepancies in metadata quality and coverage, which can affect classification accuracy. They suggest that while the classifier is effective for large datasets, it may benefit from manual validation and further refinement to address its binary classification constraints and improve feature selection.
