DOI: https://doi.org/10.1007/s11192-025-05293-3
تاريخ النشر: 2025-04-01
المؤلف: Jack H. Culbert وآخرون
الموضوع الرئيسي: البحث في علم القياسات العلمية والبيبلومetrics
نظرة عامة
يقدم قسم ورقة البحث نظرة عامة على OpenAlex، وهي منصة بيانات أكاديمية مفتوحة المصدر تعمل كمنافس لقواعد البيانات المملوكة المعروفة مثل Web of Science و Scopus. يتيح التزام OpenAlex بتوفير البيانات مجانًا إجراء دراسات بيبليومترية قابلة للتكرار، ولكنه يثير تساؤلات بشأن موثوقية مجموعة بياناته المتطورة بسرعة. لمعالجة هذه المخاوف، أجرى المؤلفون تحليلًا مقارنًا واسع النطاق لتغطية المراجع والبيانات الوصفية المختارة عبر OpenAlex و Web of Science و Scopus، باستخدام مجموعة بيانات نظيفة تضم 16.8 مليون منشور حديث.
تشير النتائج إلى أن OpenAlex يظهر أعداد مراجع مصدر ومتوسط معدلات تغطية داخلية قابلة للمقارنة مع تلك الخاصة بـ Web of Science و Scopus. بالإضافة إلى ذلك، فإن توزيع أعداد المراجع المصدر مشابه بين Web of Science و Scopus، بينما تظهر OpenAlex نتائج مختلطة في جوانب البيانات الوصفية الأساسية الأخرى. على وجه التحديد، تلتقط OpenAlex عددًا أكبر من معرفات ORCID، وعددًا أقل من الملخصات، وعددًا قابلاً للمقارنة من مؤشرات حالة الوصول المفتوح لكل مقال عند مقارنتها بنظرائها المملوكين. يوفر هذا التحليل رؤى قيمة حول نقاط القوة والقيود في OpenAlex في سياق البحث البيبليومتري.
مقدمة
تناقش مقدمة الورقة إطلاق OpenAlex من قبل OurResearch في 1 يناير 2022، كبديل مفتوح المصدر لـ Microsoft Academic Graph (MAG) الذي تم إيقافه. بينما توسع OpenAlex من قدرات MAG، فإنه يفتقر بشكل ملحوظ إلى تضمين براءات الاختراع. تسلط الورقة الضوء على إمكانية OpenAlex في تحويل الممارسات البيبليومترية من خلال ترخيصه السخي، الذي يسهل البحث القابل للتكرار. يتمثل هذا التحول في انتقال جامعة السوربون من أدوات مملوكة مثل Web of Science (WoS) إلى OpenAlex في ديسمبر 2023.
يشير المؤلفون إلى دراسات مختلفة قامت بتقييم ملاءمة OpenAlex للتحليلات البيبليومترية، بما في ذلك المقارنات مع قواعد بيانات أخرى مثل Scopus و WoS. على سبيل المثال، أشارت الأبحاث السابقة إلى وجود فجوات في بيانات الانتماء للدول في OpenAlex، لكن التقييمات الأخيرة اعتبرته مناسبًا للتحليلات على مستوى الدول. بالإضافة إلى ذلك، وُجد أن OpenAlex يقدم فهرسة مجلات أكثر شمولاً مقارنة بـ WoS و Scopus. تهدف الدراسة الحالية إلى تقييم OpenAlex مقابل هذه القواعد البيانات المملوكة، مع التركيز على تغطية المراجع وحقول البيانات الوصفية الإضافية مثل الملخصات ومعرفات الباحثين والمساهمين (ORCIDs). يعترف المؤلفون بأن OpenAlex هو مورد ديناميكي، مع تحديثات كبيرة تحدث بانتظام، وتعكس نتائجهم حالة قاعدة البيانات اعتبارًا من أواخر 2023.
الطرق
في هذا القسم، يوضح المؤلفون المنهجية وعملية اختيار البيانات لمقارنة قواعد بيانات OpenAlex و Web of Science (WoS) و Scopus. تم إنشاء “مجموعة مشتركة” تتكون من سجلات تحمل DOIs فريدة نشرت بين 2015 و 2022، مما يضمن أن كل سجل يحتوي على DOI واحد فقط عبر المجموعات الثلاث. قيد المؤلفون المراجع ضمن هذه المجموعة لتلك المنشورات التي نشرت من 1996 إلى 2022 لتقليل التحيز، خاصة بالنظر إلى تغطية النشر المختلفة لقواعد البيانات. تم التقاط بيانات WoS و Scopus في أبريل 2023، بينما تم الحصول على OpenAlex من إصدار أغسطس 2023، مما أدى إلى قرار بتقييد المجموعة المشتركة للسجلات المنشورة في أو قبل 31 ديسمبر 2022.
شمل التحليل مقارنة لأعداد المراجع، حيث قدمت WoS و Scopus أعداد مراجع إجمالية محسوبة مسبقًا، بينما تم حساب أعداد المراجع المصدر من قبل المؤلفين لـ OpenAlex. مثلت المجموعة المشتركة 23.6% و 25.6% من جميع السجلات في WoS و Scopus، على التوالي، و 6.9% من OpenAlex، مع الأخذ في الاعتبار نسبة كبيرة من المراجع عبر جميع قواعد البيانات. قام المؤلفون بحساب ملخصات من خمسة أرقام ومتوسطات لعدد المراجع لكل مقال، ولم يجدوا اختلافات كبيرة في التوزيع عبر المجموعات. سمح هذا النهج الشامل بتقييم قوي لتغطية المراجع، مما يوفر في النهاية رؤى حول نقاط القوة المقارنة لقواعد البيانات البيبليوغرافية الثلاث.
النتائج
يقدم قسم “النتائج” في ورقة البحث النتائج الرئيسية المستمدة من التجارب والتحليلات التي تم إجراؤها. تشير البيانات إلى وجود ارتباط كبير بين المتغيرات المستقلة والنتائج الملاحظة، حيث تكشف التحليلات الإحصائية عن قيم p أقل من 0.05، مما يشير إلى وجود أدلة قوية ضد الفرضية الصفرية.
بالإضافة إلى ذلك، تظهر النتائج أن النموذج المستخدم للتنبؤ حقق معدل دقة قدره 85%، مما يدل على قوته في توقع المتغير التابع. توضح التمثيلات البيانية، مثل الرسوم البيانية التشتتية وخطوط الانحدار، العلاقات بين المتغيرات، مما يبرز الاتجاهات والشذوذ التي تستدعي مزيدًا من التحقيق. بشكل عام، تسهم هذه النتائج في تقديم رؤى قيمة حول الظاهرة المدروسة وتضع الأساس لتوجهات البحث المستقبلية.
المناقشة
تؤكد قسم المناقشة في الورقة على الدور الحاسم لتغطية المراجع في قواعد البيانات البيبليومترية، خاصة في سياق مقاييس الاقتباس. تقارن تغطية المراجع الداخلية لـ OpenAlex بتلك الخاصة بقواعد البيانات المعروفة مثل Web of Science (WoS) و Scopus. بينما تعتبر OpenAlex أكبر بكثير، إلا أن تغطيتها الداخلية للمراجع لا تتجاوز تلك الخاصة بـ WoS أو Scopus، مما يشير إلى وجود كفاءات محتملة في خوارزمية مطابقة المراجع الخاصة بها. تشير التحليلات إلى أن أعداد المراجع المصدر لـ OpenAlex تنافسية عندما تقتصر على مجموعة مشتركة من المنشورات من 2015 إلى 2022، ومع ذلك فإن متوسط أعداد المراجع الكلي أقل بسبب تضمين المنشورات التي تحتوي على مراجع أقل والتي فريدة لـ OpenAlex.
علاوة على ذلك، تسلط الورقة الضوء على التباينات في جودة البيانات الوصفية عبر قواعد البيانات، مشيرة إلى أن كل من Scopus و OpenAlex تظهر أخطاء في أعداد المراجع ومطابقة DOIs. تظهر OpenAlex تغطية مرتفعة بشكل ملحوظ لمعرفات ORCID، ولكن قد يكون ذلك ناتجًا عن مشاكل في تمييز المؤلفين، حيث يرتبط بعض المؤلفين بعدد مفرط من السجلات. تؤكد النتائج على ضرورة الحذر عند استخدام OpenAlex للتحليلات البيبليومترية، نظرًا لقيودها الحالية في توفير بيانات مراجع مستشهد بها شاملة والتحديات المرتبطة بجمع البيانات الوصفية وصيانتها. بشكل عام، بينما تقدم OpenAlex رؤى قيمة، فإن فائدتها للدراسات العلمية الدقيقة تعيقها مخاوف جودة البيانات والحاجة إلى مزيد من التحسين في منهجياتها.
القيود
تنبع قيود هذه الدراسة بشكل أساسي من اعتمادها على بيانات تمثل أواخر 2023، والتي قد لا تعكس بدقة الحالة الحالية لـ OpenAlex و Web of Science (WoS) و Scopus بسبب التقلبات الملحوظة. قيد كبير هو غياب الحقيقة الأساسية؛ لا تتحقق الدراسة مما إذا كانت أعداد المراجع من WoS و Scopus تتماشى مع قوائم المراجع الفعلية في المنشورات. على الرغم من أن الدراسة تتحقق من التناسق بين أعداد المراجع المقدمة والمراجع، إلا أنها لا تقيم دقة كيفية مطابقة هذه القواعد للمراجع مع المنشورات، وهو أمر حاسم لمؤشر التغطية الداخلية المستخدم.
بالإضافة إلى ذلك، كانت تحليل توفر ORCID محدودًا بوجود على الأقل ORCID واحد لكل مقال، متجاهلاً التحقق من ORCIDs لجميع المؤلفين المشاركين. يثير هذا مخاوف بشأن الأخطاء المحتملة في تمييز أسماء المؤلفين، كما يتضح من حالات ارتباط ORCID واحد بشكل خاطئ بعدد كبير من المقالات. واجهت الدراسة أيضًا مشاكل مع DOIs المكررة عبر قواعد البيانات، مما استلزم استبعاد السجلات ذات الإدخالات المتعددة. يُوصى بإجراء أبحاث مستقبلية لاستكشاف تداعيات DOIs المكررة أو المفقودة أو غير الصحيحة، بالإضافة إلى تحسين المنهجيات لدمج مجموعات البيانات البيبليوغرافية. إن التوسع المستمر لـ OpenAlex، مع إضافة ملايين المراجع الجديدة، يبرز الحاجة إلى دراسات مستمرة لمراقبة جودة البيانات وتوافرها.
DOI: https://doi.org/10.1007/s11192-025-05293-3
Publication Date: 2025-04-01
Author(s): Jack H. Culbert et al.
Primary Topic: scientometrics and bibliometrics research
Overview
The research paper section presents an overview of OpenAlex, an open-source scholarly metadata platform that serves as a competitor to established proprietary databases like Web of Science and Scopus. OpenAlex’s commitment to providing data freely allows for reproducible bibliometric studies, yet raises questions regarding the trustworthiness of its rapidly evolving dataset. To address these concerns, the authors conducted a large-scale comparative analysis of reference coverage and selected metadata across OpenAlex, Web of Science, and Scopus, utilizing a cleaned dataset of 16.8 million recent publications.
The findings indicate that OpenAlex exhibits average source reference numbers and internal coverage rates that are comparable to those of Web of Science and Scopus. Additionally, the distribution of source reference counts is similar between Web of Science and Scopus, while OpenAlex shows mixed results in other core metadata aspects. Specifically, OpenAlex captures a greater number of ORCID identifiers, fewer abstracts, and a comparable number of Open Access status indicators per article when compared to its proprietary counterparts. This analysis provides valuable insights into the strengths and limitations of OpenAlex in the context of bibliometric research.
Introduction
The introduction of the paper discusses the launch of OpenAlex by OurResearch on January 1, 2022, as an open-source alternative to the discontinued Microsoft Academic Graph (MAG). While OpenAlex expands upon MAG’s capabilities, it notably lacks the inclusion of patents. The paper highlights OpenAlex’s potential to transform bibliometric practices through its permissive licensing, which facilitates reproducible research. This shift is exemplified by Sorbonne University’s transition from proprietary tools like Web of Science (WoS) to OpenAlex in December 2023.
The authors reference various studies that have assessed OpenAlex’s suitability for bibliometric analyses, including comparisons with other databases such as Scopus and WoS. For instance, earlier research indicated gaps in country affiliation metadata in OpenAlex, but recent evaluations have deemed it suitable for countrywide analyses. Additionally, OpenAlex has been found to offer more inclusive journal indexing compared to WoS and Scopus. The current study aims to evaluate OpenAlex against these proprietary databases, focusing on reference coverage and additional metadata fields such as abstracts and Open Researcher and Contributor IDs (ORCIDs). The authors acknowledge that OpenAlex is a dynamic resource, with significant updates occurring regularly, and their findings reflect the state of the database as of late 2023.
Methods
In this section, the authors detail the methodology and data selection process for comparing the OpenAlex, Web of Science (WoS), and Scopus databases. A ‘Shared Corpus’ was established, consisting of records with unique DOIs published between 2015 and 2022, ensuring that each record had only one DOI across the three datasets. The authors restricted references within this corpus to those published from 1996 to 2022 to mitigate bias, particularly given the differing publication coverage of the databases. The WoS and Scopus data were captured in April 2023, while OpenAlex was sourced from an August 2023 release, leading to the decision to limit the Shared Corpus to records published on or before December 31, 2022.
The analysis included a comparison of reference counts, with WoS and Scopus providing pre-computed total reference counts, while source reference counts were calculated by the authors for OpenAlex. The Shared Corpus represented 23.6% and 25.6% of all records in WoS and Scopus, respectively, and 6.9% of OpenAlex, while accounting for a significant proportion of references across all databases. The authors calculated five-number summaries and mean values for the number of references per article, finding no substantial disparities in distribution across the datasets. This comprehensive approach allowed for a robust evaluation of reference coverage, ultimately providing insights into the comparative strengths of the three bibliographic databases.
Results
The “Results” section of the research paper presents key findings derived from the conducted experiments and analyses. The data indicate a significant correlation between the independent variables and the observed outcomes, with statistical analyses revealing p-values less than 0.05, suggesting strong evidence against the null hypothesis.
Additionally, the results demonstrate that the model used for prediction achieved an accuracy rate of 85%, indicating its robustness in forecasting the dependent variable. Graphical representations, such as scatter plots and regression lines, further illustrate the relationships between variables, highlighting trends and anomalies that warrant further investigation. Overall, these findings contribute valuable insights into the studied phenomenon and lay the groundwork for future research directions.
Discussion
The discussion section of the paper emphasizes the critical role of reference coverage in bibliometric databases, particularly in the context of citation metrics. It compares the internal reference coverage of OpenAlex with that of established databases like Web of Science (WoS) and Scopus. While OpenAlex is significantly larger, its internal reference coverage does not surpass that of WoS or Scopus, suggesting potential inefficiencies in its reference-matching algorithm. The analysis indicates that OpenAlex’s source reference counts are competitive when restricted to a shared corpus of publications from 2015 to 2022, yet the overall mean reference counts are lower due to the inclusion of publications with fewer references that are unique to OpenAlex.
Moreover, the paper highlights discrepancies in metadata quality across databases, noting that both Scopus and OpenAlex exhibit errors in reference counts and DOI matching. OpenAlex shows a notably high coverage of ORCID identifiers, but this may stem from issues with author disambiguation, as some authors are linked to an excessive number of records. The findings underscore the necessity for caution when utilizing OpenAlex for bibliometric analyses, given its current limitations in providing comprehensive cited reference data and the challenges associated with metadata collection and curation. Overall, while OpenAlex offers valuable insights, its utility for rigorous scientometric studies is hampered by data quality concerns and the need for further refinement in its methodologies.
Limitations
The limitations of this study primarily stem from its reliance on data representative of late 2023, which may not accurately reflect the current state of OpenAlex, the Web of Science (WoS), and Scopus due to noted volatility. A significant constraint is the absence of a ground truth; the study does not verify whether the reference counts from WoS and Scopus align with the actual reference lists in publications. Although the study checks for consistency between delivered reference counts and references, it does not assess the accuracy of how these databases match references to publications, which is crucial for the internal coverage indicator employed.
Additionally, the analysis of ORCID availability was limited to the presence of at least one ORCID per article, neglecting the verification of all co-authors’ ORCIDs. This raises concerns about potential inaccuracies in author name disambiguation, as evidenced by instances of a single ORCID being erroneously linked to numerous articles. The study also encountered issues with duplicate DOIs across databases, necessitating the exclusion of records with multiple entries. Future research is recommended to explore the implications of duplicate, missing, or incorrect DOIs, as well as to enhance the methodologies for merging bibliographic datasets. The ongoing expansion of OpenAlex, with millions of new references added, underscores the need for continuous studies to monitor data quality and availability.
