تحليل تغطية المراجع لـ OpenAlex مقارنةً بـ Web of Science و Scopus Reference coverage analysis of OpenAlex compared to Web of Science and Scopus

المجلة: Scientometrics، المجلد: 130، العدد: 4
DOI: https://doi.org/10.1007/s11192-025-05293-3
تاريخ النشر: 2025-04-01

تحليل تغطية المراجع لـ OpenAlex مقارنةً بـ Web of Science و Scopus

جاك إتش. كولبيرت (D) ⋅ آن هوبيرت (D) ⋅ ناجكو ياهن (D) ⋅ نيك هاوبكا (دي. ماريون شميت (D) ⋅ بول دونر (D) ⋅ فيليب ماير (د)

تاريخ الاستلام: 23 فبراير 2024 / تاريخ القبول: 25 مارس 2025 / تاريخ النشر على الإنترنت: 10 أبريل 2025
© المؤلف(ون) 2025

الملخص

OpenAlex هو مصدر واعد مفتوح المصدر للبيانات الوصفية الأكاديمية، ومنافس لمصادر الملكية الراسخة، مثل Web of Science وScopus. حيث يوفر OpenAlex بياناته مجانًا وبشكل مفتوح، فإنه يسمح للباحثين بإجراء دراسات بيبليومترية يمكن إعادة إنتاجها في المجتمع دون حواجز ترخيص. ومع ذلك، نظرًا لأن OpenAlex هو مصدر يتطور بسرعة والبيانات الموجودة فيه تتوسع وتتغير بسرعة أيضًا، فإن السؤال ينشأ بشكل طبيعي حول موثوقية بياناته. في هذا التقرير، سندرس تغطية المراجع والبيانات الوصفية المختارة داخل كل قاعدة بيانات ونقارنها ببعضها البعض للمساعدة في معالجة هذا السؤال المفتوح في البيبليومetrics. في دراستنا واسعة النطاق، نوضح أنه، عند الاقتصار على مجموعة بيانات نظيفة تضم 16.8 مليون منشور حديث مشترك بين جميع قواعد البيانات الثلاث، فإن OpenAlex لديه متوسط أرقام مراجع المصدر ومعدلات تغطية داخلية قابلة للمقارنة مع كل من Web of Science وScopus. نقوم أيضًا بتحليل البيانات الوصفية في OpenAlex وWeb of Science وScopus حسب المجلة، حيث نجد تشابهًا في توزيع أعداد مراجع المصدر في Web of Science وScopus مقارنة بـ OpenAlex. كما نوضح أن مقارنة البيانات الوصفية الأساسية الأخرى التي تغطيها OpenAlex تظهر نتائج مختلطة عند تقسيمها حسب المجلة، حيث تلتقط OpenAlex المزيد من معرفات ORCID، وعددًا أقل من الملخصات وعددًا مشابهًا من مؤشرات حالة الوصول المفتوح لكل مقال مقارنة بكل من Web of Science وScopus.

الكلمات الرئيسية: الببليومترية ⋅ البيانات الوصفية الأكاديمية المفتوحة ⋅ تحليل الاقتباسات ⋅ تغطية المراجع • قواعد البيانات الأكاديمية • OpenAlex

مقدمة

تم إصدار OpenAlex (Priem et al.، 2022) في 1 يناير 2022 من قبل OurResearch كبديل لمخطط Microsoft Academic Graph (MAG) الذي تم إيقافه، ويُقدم كمصدر مفتوح بالكامل للبيانات الوصفية الأكاديمية، مع توفير جميع البيانات ومعلومات واجهة برمجة التطبيقات (API) والشيفرة للجمهور. كما لوحظ في الدراسة المقارنة التي أجراها Scheidsteger وHaunschild (2022)، لم يتم إعادة إنتاج جميع جوانب MAG، حيث لم يتم تضمين براءات الاختراع في OpenAlex. بخلاف هذا الاستثناء، يُعتبر OpenAlex فعليًا استمرارًا وتوسعًا لـ MAG.
OpenAlex هو بديل واعد لمصادر البيانات الببليومترية المملوكة، حيث أن ترخيصه المسموح به يخلق إمكانية لدعم تحول ممارسة البحث نحو الببليومترات القابلة للتكرار. يتم تحقيق ذلك في سياسات البحث المفتوح في الأوساط الأكاديمية، على سبيل المثال في ديسمبر 2023، قامت جامعة السوربون بالتحول من استخدام أدوات Web of Science (WoS) وClarivate الببليومترية إلى OpenAlex وأدوات مفتوحة المصدر. من الصعب جداً إجراء أبحاث بيبليومترية قابلة للتكرار باستخدام مصادر البيانات البيبليومترية المملوكة، حيث أن شروط ترخيصها تمنع نشر البيانات.
كنظام مفتوح المصدر على نطاق واسع لبيانات الميتاداتا الأكاديمية، كانت OpenAlex موضوعًا للبحث سابقًا حول ملاءمتها لمجموعة متنوعة من التحليلات البيبليومترية، مثل مراجعة Velez-Estevez وآخرون (2023)، التي قامت بتحليل مقارن لمختلف واجهات برمجة التطبيقات (APIs) لمجموعات البيانات البيبليومترية، بما في ذلك التوافق بين واجهات برمجة التطبيقات، والخصائص، واستخدامها في الممارسة البحثية، وAkbaritabar وآخرون (2023) الذين تناولت ورقتهم البحثية حول هجرة العلماء دراسة مقارنة بين Scopus وOpenAlex، مع التركيز على تغطية العلماء في الدول الغربية وغير الغربية.
على الرغم من أن دقة واكتمال بيانات الانتماء للدول كانت ناقصة في الإصدارات السابقة (Zhang et al. 2024)، فقد اعتُبر OpenAlex مؤخرًا مناسبًا للتحليلات على مستوى الدول من قبل (Alperin et al. 2024). من خلال دراسة المجلات المفتوحة الوصول الماسية المدرجة في OpenAlex مقارنةً بكل من WoS وScopus، أشار (Simard et al. 2024) إلى أن فهرسة المجلات في OpenAlex أكثر شمولاً من تلك الموجودة في WoS وScopus. ومع ذلك، في هذه المرحلة المبكرة من تطويره، يُعتبر OpenAlex مصدر بيانات ديناميكي للغاية تتغير خصائصه مع كل إصدار. تتبع هذه الورقة أيضًا المقارنات الكمية السابقة لتغطية الاقتباسات لقاعدة البيانات الببليومترية التقليدية. إحدى هذه الدراسات تفحص مجموعة بيانات تتكون من 2.5 ألف وثيقة نُشرت في عام 2006 وحوالي 3.1 مليون اقتباس لهذه الوثائق، الموجودة في قواعد بيانات MAG وGoogle Scholar وWoS وScopus وOpenCitations’ COCI، (Martín-Martín et al. 2021). تُظهر هذه الدراسة فجوات تغطية نسبية في بعض المجالات الموضوعية في MAG مقارنةً بـ WoS وScopus، وأيضًا بشكل عام أن Google Scholar لديه أكبر تغطية للاقتباسات مقارنةً بقواعد البيانات الأخرى.
يتوافق هذا مع دراسة سابقة أيضًا من قبل مارتين-مارتين وآخرون (2018)، التي قارنت أيضًا هذه القواعد البيانات مع جوجل سكولار، حيث تم مقارنة حوالي 2.45 مليون اقتباس من 2300 وثيقة تغطي 252 موضوعًا من حيث التشابه في تغطية الاقتباسات، ووجدت بالمثل أن الاقتباسات في جوجل سكولار تشكل مجموعة شاملة لتلك الموجودة في WoS وScopus.
لقد درست الأعمال السابقة وقارنت بين قواعد البيانات الببليوغرافية لفهم أفضل لقيود مصادر البيانات المختلفة. من خلال مقارنة MAG وScopus وWoS وقواعد بيانات أخرى، يجادل فيسر وآخرون (2021) بضرورة دمج قواعد البيانات للسماح بوجود شمولية.
التغطية، مع الأخذ في الاعتبار نقاط القوة والضعف في مصادر البيانات المختلفة. وبالمثل، ركزت دراسات أخرى على تحليل تغطية المجلات في WoS وScopus وDimensions، مثل دراسة سينغ وآخرون (2021). علاوة على ذلك، تم إنشاء أدوات مثل أداة فربر لمقارنة سجلات المؤلفين بين قواعد البيانات (فربر وآخرون 2022) ومشاركتها من قبل المجتمع الأكاديمي لتوفير رؤى حول ملاءمة وضعف قواعد البيانات البيبليومترية من أجل قياسات بيبليومترية دقيقة في حالتها الحالية.
لذلك، لتمكين علماء الببليومترية من فهم إمكانيات وحدود OpenAlex الحالية بشكل أفضل، نقارن OpenAlex بمصدرين رئيسيين للبيانات الببليومترية المملوكة، وهما WoS و Scopus. من خلال دراستنا، نرغب في المساهمة في السؤال إلى أي مدى يمكن أن يكون OpenAlex بديلاً مجانيًا مناسبًا (أو ربما أفضل) لقواعد البيانات المملوكة الراسخة لأبحاث وتقارير الببليومترية. أسئلتنا البحثية المحددة في هذا التقرير هي ما إذا كانت تغطية المراجع للعناصر تختلف بين المصادر الثلاثة للبيانات، مع التحقيق في ذلك بالنسبة لقواعد البيانات الكاملة وكذلك لمجموعة فرعية من العناصر الموجودة في جميع قواعد البيانات الثلاث، وما إذا كانت، وإلى أي مدى، تختلف تغطية بعض حقول البيانات الوصفية الإضافية، وبشكل خاص الملخصات، ومعرفات الباحثين والمساهمين (ORCIDs)، وحالة الوصول المفتوح للعناصر في جميع المصادر الثلاثة للبيانات.
نحن على علم بأن هذه التقييمات الأولية من المحتمل أن تتغير مع التطورات المستقبلية، حيث تم إصدار اثني عشر لقطة جديدة من OpenAlex حتى كتابة هذه السطور – مع إضافة أو تعديل بيانات جديدة بانتظام، لذا يجب فهم هذا التقرير على أنه يعكس الحالة حتى أواخر عام 2023. منذ ذلك الحين، تم إضافة ما لا يقل عن 151 مليون مرجع جديد، وهو ما يمثل زيادة قدرها بينما تم حذف ما لا يقل عن 750,000 سجل وتم إضافة أكثر من 3.4 مليون سجل.

تغطية المرجع

المراجع لها أهمية مركزية لقواعد البيانات الببليومترية، حيث إن مطابقتها مع العناصر المستهدفة تشكل أساس حساب مقاييس الاقتباس. كخطوة أولى، نقارن متوسط عدد المراجع بين قواعد البيانات الثلاث، حيث تكون قاعدة المقارنة هي قواعد البيانات الكاملة، ثم مجموعات فرعية من المنشورات التي تحمل نوع الوثيقة ‘مقالة’، ومجموعة فرعية مشتركة من المنشورات التي تغطيها جميع قواعد البيانات الثلاث. يمكن أيضًا استخدام بيانات الاقتباس لتقييم غير مباشر للتغطية، أي النسبة المئوية للمنشورات البحثية ذات الصلة التي تم تضمينها في قاعدة البيانات والمتاحة للمستخدمين للتحليل (سينغ وآخرون، 2021). يجب أن يستبعد التغطية غير الكافية أو المنحازة للأدبيات ذات الصلة استخدام قاعدة بيانات لدراسة معينة.
هناك طرق مختلفة لتحديد تغطية قاعدة البيانات، على سبيل المثال، المقارنة مع قوائم خارجية من المصادر ذات الصلة أو قوائم نشر لعينة من الباحثين الممثلين في المجالات المدروسة. ومع ذلك، لا يوجد معيار ذهبي عام، وبالتالي فإن جميع المصادر الخارجية تحمل تحيزاتها وقيودها الخاصة. طريقة بسيطة نسبيًا (وسهلة التكرار والتكرار) لدراسة تغطية الأدبيات هي حساب تغطية المراجع الداخلية لقاعدة البيانات ككل أو بالنسبة لخصائص التجميع، مثل التخصصات، أو أدبيات دول معينة أو مجتمعات لغوية.
التغطية الداخلية هي النسبة المئوية لتلك المراجع المذكورة في مجموعة المنشورات التي يتم تغطيتها كعناصر مصدر في قاعدة البيانات، من جميع المراجع المذكورة في المجموعة. نشير إلى هذه المراجع بمراجع المصدر، وعلى النقيض من المراجع التي تشير إلى عناصر أخرى.
الجدول 1 أحجام قواعد البيانات ومجموعة بيانات الكوربوس المشترك، مع عدد المراجع الموجودة في كل مجموعة بيانات
WoS سكوبس أوبن أليكس
المجموعة الكاملة
عدد السجلات 71,280,830 65,642,377 ٢٤٣,٠٥٣,٩٢٥
عدد المراجع 1,765,281,799 2,033,522,623 1,845,379,285
المجموعة الكاملة – المقالات فقط
عدد السجلات 42,678,632 ٤٣,٥٧٩,٥٩٥ ٢٠٠,٦٦٥,٩٤٠
عدد المراجع 1,400,958,343 1,422,650,789 1,636,497,394
نشرت 2015-2022
عدد السجلات ٢٢,٦٠٩,٠٦٩ 27,620,472 76,836,191
عدد المراجع ٧٨٦,٤٣٧,٥٤٧ 1,035,750,923 ٨٤٠,٧٣٠,٨٣٤
المجموعة المشتركة (2015-2022)
عدد السجلات 16,788,282 16,788,282 16,788,282
عدد المراجع ٧٢٥,٠٠٨,٠٤٣ ٧٢٧,٠٥٦,٧٢٥ خمسمائة وخمسة وثمانون مليوناً وستمائة وستة عشر ألفاً وتسعة
لا يتم فهرستها في قاعدة البيانات كمراجع غير مصدرية (أو مراجع لعناصر غير مصدرية).
مقدمة أكثر شمولاً عن هذا المفهوم وتحليل التغطية الداخلية المعاصرة لقاعدة بيانات WoS متاحة في مويد (2005، الفصل 7) وفان رين (2019). الميزة الكبيرة لهذا النوع من التحليل هي أنه لا يحتاج إلى أي بيانات خارجية قد تكون صعبة ومكلفة لجمعها. هذه الاعتماد على مصدر البيانات المقيم فقط هو أيضًا العيب الرئيسي، حيث يقتصر المرء على بيانات المراجع كما هي موجودة في مصدر البيانات المقيم مع جميع ظروفها. لذلك، لا يمكن للمرء ببساطة استنتاج التغطية من الأدبيات المستشهد بها إلى تغطية أجزاء الأدبيات التي لم يتم الاستشهاد بها أبدًا في بيانات المصدر، ربما كنتيجة مباشرة لمعايير اختيار قاعدة البيانات المصدر. تظهر هذه الاعتبارات لماذا توفر تغطية المراجع الداخلية قياسًا جزئيًا وربما متحيزًا من المصدر للتغطية.
ومع ذلك، عند مقارنة قواعد بيانات مؤشرات الاقتباس، يمكن أن تكون الاختلافات في جمع المراجع الداخلية دليلًا مفيدًا. على سبيل المثال، أحد الأسئلة التي تثار بسبب الأبعاد الأكبر بكثير لـ OpenAlex مقارنة بـ WoS و Scopus هو ما إذا كان لديها أيضًا تغطية داخلية أعلى، أي نسبة أعلى من المنشورات التي يتم الإشارة إليها وأيضًا مفهرسة في قاعدة البيانات مقارنةً بقواعد البيانات الأخرى. لا توجد إرشادات معتمدة لقيم عددية لنسب التغطية المطلوبة للسماح بإجراء دراسات موثوقة. ولكن على سبيل المثال، قام مويد (2005) بتحليل مؤشرات الاقتباس ISI المجمعة (التي كانت سلفًا لموقع Web of Science اليوم) ووجد أن معدل التغطية، وهو نسبة المراجع من سنة المصدر 2002 التي تشير إلى مجلات المصدر ISI، كان الأعلى في علم الأحياء الجزيئي وعلم الأحياء الكيميائي، بحوالي تبع ذلك العلوم البيولوجية التي تركز على الإنسان، والكيمياء، والطب السريري، والفيزياء وعلم الفلك. كانت النسبة أقل بكثير في الفنون والعلوم الإنسانية ومتوسطة في العلوم الاجتماعية، والرياضيات، والهندسة.
عند استخدام هذا المؤشر لمقارنة OpenAlex وWoS وScopus، فإننا أقل اهتمامًا بالتقييم بالقيم المطلقة، بل نركز أكثر على تقييم أداء OpenAlex مقارنةً بقواعد البيانات البيبليومترية المعروفة. تعتمد تغطية المراجع الداخلية على حجم قاعدة البيانات وربما على الملف الأكاديمي لها، بالإضافة إلى دقة إجراء مطابقة المراجع. حيث أن OpenAlex أكبر بكثير من
يمكن توقع أن تغطية المراجع الداخلية لها على الأقل ليست أقل من تلك الخاصة بقواعد البيانات الأخيرة.

فتح البيانات الوصفية

النقاش المتزايد حول التوافر المفتوح وجودة أنواع مختلفة من البيانات الوصفية الأكاديمية في علم المكتبات لا يقتصر على تغطية المراجع، بل يمتد إلى بيانات وصفية أخرى (فان إيك ووالتمان، 2023؛ ديلغادو-كويروس وأورتيغا، 2024؛ سيبيديس وآخرون، 2024؛ زانغ وآخرون، 2024). على سبيل المثال، مبادرة الملخصات المفتوحة (I4OA) يدعو إلى نشر ملخصات مفتوحة للأعمال الأكاديمية ويدعو الناشرين الأكاديميين لتقديمها إلى كروسريف، وكالة تسجيل معرف الكائن الرقمي (DOI). وبالمثل، يمكن للناشرين الأكاديميين استخدام Crossref لمشاركة معلومات التمويل المرتبطة بالمقالات التي ينشرونها. ومع ذلك، تشير تحليلات التغطية لـ Crossref إلى أن ليس جميع الناشرين يقدمون بيانات وصفية أكاديمية مفتوحة لـ Crossref (Mugabushaka et al., 2022; Kramer & de Jonge, 2022). مثال آخر على البيانات الوصفية الأساسية هو استخدام ORCIDs لتحديد المؤلفين بشكل دائم، مما يساعد علماء الببليوميتريكس ليس فقط على تفكيك أسماء المؤلفين، ولكن أيضًا على ربط بيانات مختلفة من مصادر مختلفة بناءً على ORCID (Haak et al., 2012).
نظرًا لأن مصادر البيانات المفتوحة ضرورية لـ OpenAlex، سنقوم بتوسيع تحليلنا لمقارنة الملخصات ومعلومات التمويل وتغطية ORCID على مستوى المجلة. علاوة على ذلك، سنقوم بتقييم تغطية معلومات حالة الوصول المفتوح بين OpenAlex وقواعد البيانات المملوكة WoS و Scopus. على عكس معلومات الملخص والمؤلف، تستخدم القواعد الثلاثة نفس المصدر، وهو خدمة اكتشاف الوصول المفتوح Unpaywall، لاسترجاع معلومات حالة الوصول المفتوح (Else، 2018).

البيانات والمنهجية

في هذا القسم، نصف البيانات المستخدمة في هذه الدراسة، والأسباب وراء اختياراتنا للقيود والمجموعات الفرعية من هذه البيانات. لتمكين مقارنة عادلة بين OpenAlex وWoS وScopus، قمنا بإنشاء ‘مجموعة مشتركة’ تحتوي على السجلات المشتركة بين مجموعات البيانات الثلاثة بناءً على تطابق DOI الدقيق، والتي تم نشرها بين عامي 2015 و2022، حيث يكون DOI فريدًا للسجل في جميع قواعد البيانات الثلاث، أي أنه لا توجد سجلات متعددة بنفس DOI. خلال عملية اختيار السجلات من قواعد البيانات، يتم التأكد من أن المنشورات تحتوي دائمًا على DOI واحد فقط مخصص للسجل. في خطوة إضافية، يتم تقييد المراجع الخاصة بالمنشورات في المجموعة المشتركة لتلك المنشورات التي تم نشرها بين عامي 1996 و2022.
الإصدارات من قواعد بيانات WoS وScopus وOpenAlex المستخدمة في هذه الدراسة هي كما يلي. بيانات WoS وScopus هي لقطات من خمسة فهارس من مجموعة WoS الأساسية (فهرس الاقتباسات العلمية الموسع، فهرس اقتباسات العلوم الاجتماعية، فهرس اقتباسات الفنون والعلوم الإنسانية، فهرس اقتباسات مؤتمرات – العلوم وفهرس اقتباسات مؤتمرات – العلوم الاجتماعية) بدءًا من سنة النشر 1980 وقاعدة بيانات Scopus، تم التقاطها في أبريل 2023. قاعدة بيانات OpenAlex هي النسخة التي تم إصدارها في
الشكل 1 مخطط فين لأحجام التقاطع للـ DOIs الفريدة المستندة إلى كل قاعدة بيانات بناءً على مطابقة DOI الدقيقة (دون إزالة التكرار، أي الحالات التي تم تعيين DOIs لعدة أوراق تُحتفظ الآن في المجموعات)، للسجلات المنشورة بين 2015 و2022

OpenAlex

أغسطس 2023، بسبب سياسة إصدار البيانات لمضيف بياناتنا في FIZ Karlsruhe، معهد لايبنيز للبنية التحتية للمعلومات.
نظرًا لهذا التباين في تواريخ الإصدارات، قررنا تقييد العناصر في الكوربوس المشترك لتلك المنشورة في أو قبل ديسمبر 2022 من أجل التخفيف من أي تحيز بين قواعد البيانات، وقمنا بتصفية هذا الكوربوس لاستبعاد السجلات المنشورة قبل يناير 2015، لذا يغطي الكوربوس المشترك العناصر من سنوات النشر 2015 إلى 2022 شاملة.
نظرًا لأن قاعدة بيانات Scopus تحتوي بشكل أساسي على عناصر من 1996 فصاعدًا (على الرغم من أنه منذ 2015، تمت إضافة المراجع المستشهد بها قبل 1996 وملفات الناشرين الرئيسيين)، ) ولم يكن لدى WoS وOpenAlex أي قيود من هذا القبيل، لتجنب التحيز في حساب عدد المراجع المصدر والتغطية الداخلية، نقوم بتقييد المراجع لتلك العناصر المنشورة بين 1996 و2022.
نحن ندرج قسمًا عن المقالات المنشورة 2015-2022 في الجدول 1 لجميع قواعد البيانات الثلاث، لتوضيح تأثير قيود الوقت على حجم الكوربوس المشترك، ولتقديم سياق لعمل مطابقة DOI وإزالة التكرار الموصوف في القسم 2.1.
في قواعد بيانات Scopus وWoS، يتم تسليم ‘عدد المراجع’ الإجمالي المحسوب مسبقًا من قبل مزودي البيانات Elsevier وClarivate، بينما يتم حساب ‘عدد المراجع المصدر’ لكل سجل من قبل مزود بياناتنا FIZ Karlsruhe. من المتوقع أن تحتوي كلا القاعدتين على جميع المراجع لنشر معين، بغض النظر عما إذا كانت تشير إلى عناصر
الموجودة داخل أو غير الموجودة داخل قواعد بياناتهم، أي سواء كانت مراجع مصدر وغير مصدر، على التوالي، ودون قيود زمنية ثابتة. قد تحتوي المراجع على تكرارات (كما قدمها المؤلفون الأصليون أو مزودو البيانات).
على النقيض من ذلك، حاليًا في OpenAlex توجد فقط مراجع مصدر (انظر وثائق OpenAlex (Priem et al., 2022) – باستثناء جزء أصغر من المراجع لعناصر يُفترض أنها محذوفة) وتم حساب ‘عدد المراجع المصدر’ من قبل FIZ Karlsruhe في قاعدة بياناتنا. هذه الحقيقة تفسر القيم الفارغة لعدد المراجع الإجمالي المتوسط في الجدول 3. لذلك، يجب علينا ربط هذا الرقم بعدد المراجع المصدر المأخوذة من WoS وScopus.
في الجدول 1 نقدم ملخصًا للسجلات المتاحة في كل مصدر بيانات وفي الشكل 1 نقدم مخططًا للتقاطعات بين مصادر البيانات الثلاثة، بناءً على المطابقة الدقيقة لـ DOIs الفريدة، على مدار الكوربوس بالكامل، ومقيدًا بالسجلات المنشورة بين 2015 و2022. بالإضافة إلى ذلك في الجدول 1، نقدم معلومات عن حجم كل كوربوس عند تقييده بالسجلات المصنفة كـ ‘مقال’ لإظهار أن هذا لا يقلل بشكل كبير من النسبة المئوية لـ OpenAlex مقارنة بـ WoS وScopus.
لمعالجة التحيز المحتمل الناشئ عن عدد الوثائق في قواعد البيانات، قمنا بحساب ملخصات الأرقام الخمسة (الوسيط، والانحراف المعياري، والحد الأقصى، والحد الأدنى ونطاق الربع) بالإضافة إلى القيم المتوسطة لعدد المراجع لكل مقال. على الرغم من التباين الكبير في عدد المراجع لكل مقال وعدد الوثائق في قواعد البيانات، لم نلاحظ تباينات كبيرة في التوزيع عبر مصادر البيانات المختلفة التي تم فحصها. وبالتالي، اخترنا تقديم القيمة المتوسطة.
يمكن حسابه من الجدول 1، أنه بينما يحتوي الكوربوس المشترك، بعد إزالة تكرار DOI، على و من جميع السجلات في WoS وScopus، و من تلك الموجودة في OpenAlex، فإنه يحتوي على و من المراجع في جميع الكوربوسات من WoS وScopus وOpenAlex على التوالي.
يحتوي الكوربوس المشترك، بعد إزالة تكرار DOI، على 74.3% من السجلات في WoS المنشورة بين 2015 و2022، و60.8% من السجلات في Scopus المنشورة بين 2015 و2022 و21.8% من OpenAlex المنشورة بين 2015 و2022.
لتقييم تغطية المراجع وعدد المراجع المصدر في WoS وScopus مقابل OpenAlex، استخدمنا أولاً عدد المراجع المبلغ عنها وعدد المراجع المصدر المحسوبة مسبقًا كما هو موضح في القسم 2. تم حساب متوسط عدد المراجع الإجمالي وعدد المراجع المصدر لـ: كل قاعدة بيانات، للسجلات المميزة كـ ‘مقال’ (أو التي تتضمن نوع الوثيقة ‘مقال’ جنبًا إلى جنب مع علامات نوع أخرى، في حالة Scopus وWoS) وللكوربوس المشترك الناتج عن مطابقة DOI (سنوات النشر 2015-2022).
ثم تم التحقق من هذه الأرقام من خلال حساب مستقل حيث تم عد العدد الإجمالي للمراجع والسجلات في كل قاعدة بيانات وتم حساب النسبة (‘المراجع لكل سجل’)، كما هو موضح في الجدول 4. ثم، للحصول على النتائج النهائية، تم إنشاء استعلامات لحساب ومتوسط عدد المراجع مع سنة نشر المرجع من 1996 إلى 2022، وعدد المراجع المرتبطة بالعناصر المصدر وسنوات النشر من 1996 إلى 2022.

مطابقة DOI وإزالة التكرار

عند بناء الكوربوس المشترك كما هو موضح في القسم 2، اعتمدنا على DOI كمعرف فريد يمكننا استخدامه لدمج قواعد البيانات. هذه الطريقة لها قيودها، كما تم استكشافه في Vieira وLeta (2024) الذي يبرز أن توزيع DOIs غير الموجودة أو المكررة في كل كوربوس قد يختلف حسب الموضوع في قواعد بيانات WoS وScopus.
استبعدنا السجلات التي لا تحتوي على DOI والسجلات التي يُنسب فيها أكثر من عنصر نشر إلى نفس DOI – حيث أننا عمليًا غير قادرين على تحديد أي عنصر هو الصحيح بالنسبة لـ DOI المعطى في الحالة الأخيرة. تمثل هذه السجلات المكررة إزالة 39,481 منشورًا (يُحسب كـ DOI مميز) بالإضافة إلى تلك الناتجة عن التقييد إلى 2015-2022. وهذا يفسر الفرق بين حجم الكوربوس المشترك والتقاطع الاسمي بين قواعد البيانات الثلاث بين 2015 و2022.

هوامش الخطأ لمطابقة DOI

تم استبعاد السجلات التي تحتوي على DOI مكرر أو بدون DOI من خطوة مطابقة DOI في بناء الكوربوس المشترك. في الجدول 2، الذي يركز على جميع المنشورات في قواعد البيانات الثلاث التي تم نشرها بين 2015 و2022، يمكن رؤية أن Scopus لديها عدد أكبر بكثير من DOIs المرتبطة بسجلات متعددة. بشكل عام، تحتوي OpenAlex على أكبر عدد من السجلات بدون DOI، تليها WoS وScopus.
نظرًا لأن السجلات التي لا تحتوي على DOI لا يتم مطابقتها في تحليلاتنا، هناك تقدير كبير ناقص لحجم قواعد البيانات الإجمالي كما هو موضح في الشكل 1، وبالمثل، يتم احتساب السجلات التي تحتوي على DOIs مشتركة مرة واحدة.
سبب آخر لاستبعاد العناصر في مطابقة DOI، والذي في نفس الوقت يقيد سنوات النشر 2015-2022، هو أن سنوات النشر ليست دائمًا متطابقة تمامًا بين قواعد البيانات، ربما بسبب اختلافات في التعامل مع الوصول المبكر وتواريخ النشر المطبوعة. نحن نحدد القيود الزمنية على أنها تنطبق على جميع قواعد البيانات الثلاث في نفس الوقت.

تغطية البيانات الوصفية

لتحديد تغطية البيانات الوصفية (كما هو مفصل في القسم 3.3)، استخدمنا أيضًا الكوربوس المشترك كما هو موضح في بداية القسم 2. هنا، نقيد العناصر المنشورة في المجلات. لهذا الغرض، تم تصنيف أنواع النشر في Web of Science
الجدول 2 مقارنة للحالات الخاطئة في مطابقة DOI بين قواعد البيانات
WoS Scopus OpenAlex
المنشورات 2015-2022
DOIs مع سجلات متعددة 7,177 76,891 11,074
سجلات مع DOI مشترك 14,376 282,893 22,158
سجلات بدون DOI
تم استخدام Scopus وتم تعيين منشورات OpenAlex لهذه عبر مقارنة DOI لمجموعة البيانات المشتركة، بحيث يمكن مقارنة OpenAlex بشكل ثنائي مع قواعد البيانات الأخرى. ثم قمنا بمقارنة تغطية الملخصات ومعلومات التمويل وORCIDs ومعلومات حالة الوصول المفتوح (OA) من خلال تقييم ما إذا كانت العناصر تحتوي على (على الأقل واحدة) من هذه المعلومات وتم تجميعها حسب المجلة، أي أنه لكل مجلة، تم احتساب سجل النشر إذا كانت خاصية البيانات الوصفية المطلوبة متاحة. في حالة الوصول المفتوح، قمنا باحتساب العنصر إذا لم يتم وضع علامة على حالة الوصول المفتوح كـ مغلقة. لقد قمنا بتوحيد عنوان المجلة إلى أحرف صغيرة لتجميع العناصر.

النتائج

إجمالي وتغطية مرجع المصدر

الجدول 3، في متوسط ساذج لعدد المراجع المصدرية، يجعل OpenAlex يبدو ضعيفًا نسبيًا بمعدل 7.6 مراجع لكل سجل مقارنة بـ 16.9 أو 18.7 لـ WoS و Scopus (وأقل بكثير من متوسط عدد المراجع الكلي في قواعد البيانات الأخرى). ومع ذلك، عند الاقتصار على مجموعة البيانات من 2015 إلى 2022 المشتركة بين القاعدتين، يثبت OpenAlex أنه تنافسي بمعدل أعلى لعدد المراجع المصدرية مقارنة بكل من WoS و Scopus. إن حقيقة أن النتائج تختلف بشكل كبير اعتمادًا على تعريف مجموعة البيانات الأساسية تشير إلى أن OpenAlex يتضمن العديد من المنشورات بقوائم مراجع قصيرة نسبيًا غير موجودة في WoS أو Scopus. عند التركيز على مقارنة متوسط عدد المراجع الكلي بين WoS و Scopus، يبدو في البداية أن Scopus يتفوق على WoS.
الجدول 3 مقارنة التغطية المرجعية المتاحة في كل قاعدة بيانات، بما في ذلك الأعداد المرجعية المبلغ عنها من مزودي قاعدة البيانات، وأعداد المراجع المصدرية المحسوبة مسبقًا من FIZ-Karlsruhe، وأعدادنا المحسوبة.
WoS سكوبس أوبن أليكس
المجموعة الكاملة
عدد المراجع المتوسطة المبلغ عنها ٢٤.٧٦٥ 31.254
عدد المراجع المصدرية المحسوبة مسبقًا 16.867 18.692 7.572
التغطية الداخلية 68.1٪ ٥٩.٨٪
المجموعة الكاملة – المقالات فقط
عدد المراجع المتوسطة المبلغ عنها 32.826 32.805
عدد المراجع المصدرية المحسوبة مسبقًا ٢٢.٤٤٢ ٢٠٫٢٣٠ 8.134
التغطية الداخلية 68.4٪ 61.7%
المجموعة المشتركة (2015-2022)
جميع المراجع
عدد المراجع المتوسط المبلغ عنه ٤٣.١٨٥ ٤٣.٣٢٠
عدد المراجع المصدرية المحسوبة مسبقًا ٣٣.٤١٦ ٣٣.٣٦٣ ٣٤.٨٦٣
التغطية الداخلية 77.4% 77.0%
المراجع 1996-2022
عدد المراجع المحسوب المتوسط ٣٨.٢٢٦ ٣٨.٠٦٢
عدد المراجع المصدرية المتوسطة المحسوبة 31.207 ٣٣.٣٥٩ 31.823
التغطية الداخلية 81.6% 87.6%
ومع ذلك، عند النظر في السجلات المميزة كمقالات، فإن أدائها يكون أكثر تشابهًا. تستمر هذه الاتجاهات عند ملاحظة المجموعة المشتركة والمجموعة المشتركة مع المراجع من 1996 إلى 2022. ومن الجدير بالذكر أن الفرق بين عدد مراجع المصدر وإجمالي عدد المراجع ينخفض مع إضافة القيود. تشير النتائج إلى أن Scopus لا يزال لديه عيب صغير بسبب بدء فهرسته الأولية في عام 1996. وبالتالي، يتم عكس الميزة الطفيفة لـ OpenAlex عندما تقتصر المراجع على سنوات نشر المراجع من 1996 إلى 2022، حيث يتفوق Scopus على OpenAlex، ويكون أداء WoS هو الأسوأ – ومع ذلك، فإن الفروق صغيرة جدًا.
لا يمكن حساب التغطية الداخلية لـ OpenAlex للجدول 3 لأنه لا يحتوي على جميع المراجع، أي عدد المراجع الإجمالي. ومع ذلك، يمكننا استنتاج التغطية الداخلية لـ OpenAlex في المجموعة المشتركة من خلال افتراض أن Scopus أو WoS تحتوي على عدد مراجع نهائي. في هذه الحالة، ستكون التغطية الداخلية للجزء الأخير (الذي يتضمن قيود سنوات نشر المراجع من 1996 إلى 2022) لـ OpenAlex هي عندما يتعلق الأمر بإجمالي عدد المراجع في WoS، أو عند الإشارة إلى عدد المراجع في سكوبس، تجدر الإشارة إلى أن هذه القيم تقع بين تلك الخاصة بـ WoS وسكوبس. لا يمكننا إجراء نفس التحليل على جميع المقارنات نظرًا لاختلاف أحجام قواعد البيانات.

الفروق بين عدد المراجع وبيانات المراجع

عند مقارنة الأعداد المبلغ عنها والمعدلة مسبقًا لمجموع المراجع ومراجع المصدر مع نسبة تم حسابها ذاتيًا لجميع المراجع إلى جميع المنشورات، واجهنا تناقضات في Scopus وOpenAlex. في حالة Scopus، فإن أعداد المراجع المبلغ عنها من قبل المزود لا تتطابق دائمًا مع المراجع الفعلية في قاعدة البيانات، وهو ظاهرة أكدت عليها Elsevier في اتصالات غير رسمية على أنها ناتجة عن عدم اتساق عمليات إدخال البيانات من الموردين. في حالة OpenAlex، تشير بعض المراجع إلى عناصر غير موجودة في OpenAlex، أي أنها محذوفة. هذه المراجع الأخيرة غير مدرجة في القيم المعدة مسبقًا. يمكن رؤية التناقضات بين كلا النوعين من الحسابات في الجدول 4.
للمزيد من التحقق، اخترنا المنشورات في سكوبس وأوبن أليكس حيث لم يكن العدد الإجمالي ‘للمراجع’ المحسوب مسبقًا في سكوبس و’عدد المراجع المصدر’ في أوبن أليكس متساويًا مع العدد المقابل من الإدخالات في جدول المراجع في قواعد البيانات. ثم قمنا بحساب متوسطات الأعداد المبلغ عنها/المحسوبة مسبقًا، وقارنا ذلك بالنسبة بين المراجع والمنشورات مع استبعاد في كلا الحالتين المنشورات المحددة حيث لا يتوافق عدد المراجع (في سكوبس) أو عدد المراجع المصدر (في أوبن أليكس) مع العدد الفعلي للمراجع. بمجرد أن يتم
الجدول 4 الفروقات بين سكوبس وأوبن أليكس المبلغ عنها / حسابات المراجع المحسوبة مسبقًا ونسبة المراجع إلى السجلات
WoS سكوبس أوبن أليكس
المجموعة الكاملة
نسبة المراجع لكل سجل ٢٤.٧٦٥ 30.979 7.592
عدد المراجع الإجمالي المبلغ عنه ٢٤.٧٦٥ 31.254
عدد المراجع المصدرية المبلغ عنها 16.867 18.692 7.572
المجموعة الكاملة – المقالات فقط
نسبة المراجع لكل سجل ٣٢.٨٢٦ 32.645 8.155
عدد المراجع المبلغ عنه متوسط ٣٢.٨٢٦ 32.805
عدد المراجع المصدرية المبلغ عنها ٢٢.٤٤٢ ٢٠٫٢٣٠ 8.134
الشكل 2: مخططات التشتت لعدد المراجع المصدرية لكل مجلة بين OpenAlex وWeb of Science وScopus
الشكل 3: مخططات التشتت لعدد المراجع المصدرية لكل مجلة بين OpenAlex وWeb of Science وScopus
تم، وبالتالي فإن المتوسطات الناتجة تختلف فقط في المكان الثاني عشر إلى الرابع عشر بعد الفاصلة. لذلك نستنتج أنه بالنسبة لكلا قاعدتي البيانات، فإن الفروقات بين أعداد المراجع المرجعية والأرقام المرجعية الفعلية تعود إلى بيانات خاطئة. بينما في OpenAlex، فإن كل من أعداد المراجع المرجعية التي حسبناها مسبقًا والتي حسبناها ذاتيًا تتماشى مع مفهومنا حيث نعتبر كمراجع مصدر فقط تلك التي تكون عناصرها المستهدفة موجودة فعليًا في قاعدة البيانات، فإن الوضع أكثر تعقيدًا في حالة Scopus: في متوسطاتنا، نستخدم أولاً أعداد المراجع المقدمة من المزود، والتي لا تتطابق دائمًا (ولكن من المحتمل أن تكون أكثر دقة من) المراجع المقدمة فعليًا، بينما في الجزء الأخير، حيث نحسب
نحن نحصر العد بالاستناد إلى المراجع المحدودة في الفترة الزمنية من 1996 إلى 2022، ولا يمكننا القيام بذلك إلا بناءً على المراجع المقدمة فعليًا.
يجب أخذ الفروقات المكتشفة بين قواعد البيانات البيبلومترية المملوكة والمفتوحة المصدر في الاعتبار عند العمل مع OpenAlex لتحليلات البيبلومترية – حيث قد تختلف متوسطات عدد المراجع بشكل كبير إذا لم يتم تنظيم القواعد البيانات بعناية. نعتقد أن هذه الفروقات تستحق على الأرجح تحليلًا أعمق في OpenAlex مع إصدار نسخ جديدة.

البيانات الوصفية حسب المجلة

استمرارًا في تحليل OpenAlex وWoS وScopus، قمنا بعد ذلك بتفصيل البيانات حسب المجلة. أولاً في الشكل 2، قمنا بمقارنة عدد المراجع المصدرية في كل مجلة في WoS وScopus بتلك الموجودة في OpenAlex، حيث لاحظنا توزيعًا مشابهًا إلى حد كبير في المقارنتين. عند مقارنة هذه مع الشكل 3، نلاحظ أن الكثافة الأكبر تحت تشير الخطوط إلى أن OpenAlex في المتوسط يحدد عددًا أكبر قليلاً من المراجع المصدرية في بعض المجلات، ولكن الكثافة الأقل فوق الخط تشير إلى أن OpenAlex يقلل بشكل كبير من العدد في بعض المجلات مقارنة بـ WoS و Scopus.
تُبرز الشكل 4 نتائج تحليل تغطية البيانات الوصفية بين OpenAlex وقاعدتي البيانات المملوكتين، WoS وScopus، ضمن المجموعة المشتركة. يمثل المحور السيني OpenAlex، بينما يتوافق المحور الصادي مع WoS (يسارًا) وScopus (يمينًا). تمثل النقاط نسبة التغطية للمؤشر ذي الصلة لكل مجلة.
تشير النتائج إلى أن OpenAlex يظهر نمطًا مختلفًا مقارنة بـ WoS و Scopus من حيث الملخصات (الشكل 4أ)، حيث تتمتع قاعدتا البيانات المملوكتان بتوافر أعلى بشكل عام للملخصات. نلاحظ بشكل خاص أن هناك تركيزات بالقرب من أعلى الرسم، مما يشير إلى أن قواعد البيانات المملوكة لديها وصول كامل إلى معلومات الملخصات بينما يمتلك OpenAlex إما وصول جزئي أو لا وصول إلى هذه المعلومات.
عند مراقبة الجزء العلوي الأيمن من الشكل 4أ، نرى أن الغالبية العظمى من المجلات تقع في هذه المنطقة؛ في المجموع، أكثر من من المقالات في WoS و Scopus تحتوي على معلومات الملخص، مقارنة بـ تغطية الملخصات في OpenAlex، مما يعني وجود كثافة في الزاوية العليا اليمنى والتي لا يتم الإشارة إليها بشكل جيد في الرسوم البيانية المتناثرة. علاوة على ذلك، نرى أدناه الخط أن بعض المجلات لديها تغطية ملخصات أعلى في OpenAlex.
على النقيض من ذلك، فإن تغطية ORCID أكثر شمولاً في OpenAlex (الشكل 4ب). نسبة المقالات في OpenAlex التي تحتوي على ORCID واحد على الأقل هي ، ونسبة المقالات التي تحتوي على ORCID واحد على الأقل في WoS هي وفي Scopus . ومع ذلك، عند الفحص اكتشفنا أن OpenAlex يقوم بتفكيك الأسماء بشكل سخي، مما يؤدي إلى تغطية عالية لـ ORCID. بشكل خاص، لوحظ أن بعض المؤلفين ذوي الأسماء الصينية مرتبطون بأكثر من 10,000 منشور.
توزيع معلومات الوصول المفتوح أكثر تشابهًا بين قواعد البيانات (الشكل 4ج)، مع ميل طفيف لصالح OpenAlex، مما يشير إلى تأخر في فهرسة معلومات حالة الوصول المفتوح من Unpaywall في بيانات WoS و Scopus. نسبة معلومات الوصول المفتوح في جميع قواعد البيانات الثلاثة حوالي .
عرض الشكل 4د يظهر أن توفر معلومات التمويل على المقالات يتم تمثيله بشكل أفضل في WoS و Scopus مقارنة بـ OpenAlex. من الجدير بالذكر أن معلومات التمويل المرتبطة بالمقالات في أكثر من 4,100 مجلة يمكن العثور عليها فقط في WoS و Scopus، مما قد يشير إلى نقص في توفير معلومات التمويل من قبل بعض الناشرين الأكاديميين لقواعد البيانات المفتوحة مثل OpenAlex و Crossref.
الشكل 4 الرسوم البيانية المتناثرة لتغطية البيانات الوصفية لكل مجلة بين OpenAlex و Web of Science و Scopus

نقاش

تظهر هذه التقرير أن تغطية مراجع المصدر في OpenAlex قابلة للمقارنة مع تلك الموجودة في WoS و Scopus للسجلات الأحدث نسبيًا التي تقع في تقاطع جميع قواعد البيانات الثلاثة، سواء بشكل عام أو عند تقييدها بالمراجع من عام 1996 فصاعدًا. من ناحية، يمكن اعتبار ذلك مؤشرًا على جودة بيانات بيبليومترية جيدة. من ناحية أخرى، لا تمتلك OpenAlex أعلى تغطية داخلية، على الرغم من أنها أكبر قاعدة بيانات بشكل كبير، لذا سيكون من المعقول أن النسب الأعلى من المنشورات المرجعية هي نفسها جزء من قاعدة البيانات. في هذا الصدد، يبدو أن سياسة تغطية Scopus أكثر فعالية قليلاً. ومع ذلك، يمكن أن يكون أحد العوامل المحتملة هو أن خوارزمية مطابقة المراجع الأقل جودة تفوت كمية ملحوظة من المراجع المصدر الفعلية.
تثير الكمية الكبيرة من سجلات الوثائق في OpenAlex، مقارنة بـ WoS و Scopus، السؤال عما هو هذا المحتوى الإضافي، الذي تغطيه OpenAlex ولكن لا تغطيه أي مزود تجاري راسخ. تظهر نتائجنا ما ليس هذا المحتوى: ليس هو الجزء من الأدبيات العلمية الذي يتم الإشارة إليه من قبل العناصر داخل WoS أو Scopus. إذا كان هذا هو الحال، لوجدنا أن تغطية المراجع الداخلية لـ OpenAlex تتجاوز بوضوح تلك الخاصة بالمصادر الأخرى في المجموعة المشتركة، لأن المزيد من المراجع التي استشهدت بها تلك المنشورات ستكون مفهرسة بواسطة OpenAlex، ولكن ليس WoS و Scopus. كما تظهر الفروق الكبيرة بين متوسط عدد المراجع المصدر في OpenAlex وقاعدتي البيانات الأخريين، إذا تم أخذ قواعد البيانات بالكامل وليس مجموعة المقارنة الثابتة، أن المنشورات التي توجد فقط في OpenAlex وليست في القاعدتين الأخريين تخفض القيم المتوسطة بسبب انخفاض عدد مراجعها. يجب أن تمثل بالتالي طيف نشر مختلف أو أن تكون ذات جودة بيانات أقل بشكل ملحوظ. في أي حال، يشير ذلك إلى أنه يجب تقييد OpenAlex بمجموعة أساسية إذا كانت المقارنة بين التحليلات البيبليومترية المستندة إلى OpenAlex و WoS و Scopus مرغوبة.
من الجدول 3 يمكن استنتاج أنه ضمن المجموعة المشتركة، هناك في المتوسط 6.4 إلى 6.2 مراجع تم التقاطها في العدد الإجمالي للمراجع بواسطة WoS و Scopus (على التوالي) التي لا تلتقطها OpenAlex في عدد مراجعها المصدر. إن حقيقة أن OpenAlex لا تشمل بعد بشكل منهجي المراجع غير المصدر، فضلاً عن سلاسل المراجع الكاملة، تحد من مرونة استخدام واستكشاف مصدر البيانات: لا يسمح للباحثين أو المراكز البيبليومترية بتطبيق خوارزميات مطابقة المراجع الخاصة بهم أو تحليل المراجع غير المصدر على هذا النحو.
كشفت الدراسة أيضًا عن أخطاء بيانات في Scopus و OpenAlex. الأرقام المبلغ عنها لعدد المراجع في Scopus لا تتوافق مع الأعداد الفعلية للمراجع في قاعدة البيانات، و OpenAlex غير متسقة في تعاملها مع المراجع حيث إنها لا تشمل بشكل منهجي جميع المراجع غير المصدر، ولكن المراجع لبعض العناصر المصدر المحذوفة. بالمثل، نلاحظ أن جميع قواعد البيانات، بدرجات متفاوتة، تحتوي على حالات حيث تشير DOIs إلى سجلات متعددة – انظر. Franceschini et al. (2015). نعتقد أنه يستحق مزيدًا من الدراسة والحذر عند تكرار هذه الحسابات. تشير دراسة أخرى أجراها Hauschke و Nazarovets (2025)، في مرحلة ما قبل الطباعة في وقت كتابة هذا التقرير، إلى أنه تم اكتشاف أخطاء بيانات في حقل “is_retracted” في OpenAlex للمنشورات بين 22 ديسمبر 2023 و 19 مارس 2024، مما يبرز المزيد من تقلب جودة البيانات الوصفية في OpenAlex.
باختصار، من منظور تغطية المراجع الداخلية، تعتبر OpenAlex كمصدر لبيانات الاقتباس لدراسات الإنتاج العلمي المعاصر، على قدم المساواة مع قواعد البيانات التجارية
عندما يتم تقييدها بمجموعة أساسية من المنشورات المشابهة لتلك الخاصة بـ WoS و Scopus. ومع ذلك، فإن فائدتها تعوقها عدم تقديم بيانات مرجعية كاملة.
على الرغم من أن تغطية البيانات الوصفية المتعلقة بمعلومات الملخص أقل من تلك الموجودة في WoS و Scopus، إلا أن حصة السجلات التي تحتوي على ملخصات في OpenAlex أعلى من تلك الموجودة في Crossref كما يتضح في مدونة Crossref لعام 2024 بواسطة كرامر https://www.crossref.org/blog/ i4oa-hall-of-fame-2023-edition/. كما يشير كرامر إلى أنه، في وقت كتابة هذا التقرير، لم تشارك الناشرين الكبار مثل Elsevier و Taylor & Francis و IEEE الملخصات بشكل علني عبر Crossref. لكن OpenAlex اعترفت أيضًا بمشكلات قانونية، مما أدى إلى تمثيل الملخصات كفهرس مقلوب بالإضافة إلى إزالة بعض الملخصات.
تحليلنا يكشف أن OpenAlex يظهر مستوى عالٍ بشكل خاص من التغطية لـ ORCID مقارنة بـ WoS و Scopus. أكثر من 90% من المقالات في OpenAlex تم تعيينها على الأقل ORCID واحد. ومع ذلك، لقد لاحظنا أن هذه النسبة مبالغ فيها بعض الشيء. عند الفحص، اكتشفنا أنه في بعض الحالات تم تعيين ORCIDs لأكثر من 10,000 سجل في مجموعتنا، مما يشير إلى مشكلات في طريقة تفكيك المؤلفين في OpenAlex. كما تم تحديث سجلات المؤلفين وسجلات المؤلفين من قبل OpenAlex منذ جمع البيانات، بما في ذلك تنظيف سلاسل المؤلفين، ومزامنة 17.9 مليون سجل عمل مع Crossref، وإزالة 3.9 مليون سجل مؤلف فارغ (مؤلفون ليس لديهم أعمال مخصصة لهم) وتحديث حقول معلومات المؤلف.
في الختام، يبرز تحليلنا للبيانات الوصفية حسب المجلة تحديات جمع البيانات وتنظيمها لـ OpenAlex، التي يتعين عليها تجميع المعلومات من كل من المصادر البيبليومترية وغير البيبليومترية. يتطلب OpenAlex إجراء التمييز والتوحيد بين مصادر البيانات، وهما مهمتان صعبتان، بالإضافة إلى التعامل مع القيود القانونية في جمع ونشر الأعمال الأكاديمية – على سبيل المثال، حقوق الطبع والنشر للملخصات. من المحتمل أن تختلف هذه التحديات عن تلك الموجودة في WoS وScopus في جمعها ورعايتها، لكن تشابه الأرقام التي توضح OpenAlex مقابل WoS وOpenAlex مقابل Scopus يظهر فرقًا واضحًا بين OpenAlex وWoS وScopus. لذلك، نوصي حاليًا بالحذر عند استخدام OpenAlex للدراسات الساينتومترية بسبب التقلبات ومشكلات جودة البيانات التي تم مناقشتها سابقًا في هذا القسم.

القيود وآفاق المستقبل

نؤكد أن بياناتنا تمثل أواخر عام 2023، ومع التقلبات التي تم الإشارة إليها سابقًا في OpenAlex منذ ذلك الحين، قد لا يكون هذا التقرير ممثلاً لحالة OpenAlex، وكذلك Web of Science وScopus، في وقت النشر.
limitation أساسية في إعداد دراستنا هي عدم وجود حقيقة أرضية – نحن لا نحلل ما إذا كانت الأعداد المرجعية المقدمة من WoS و Scopus تتطابق تمامًا مع قوائم المراجع المعنية في المنشورات. ومع ذلك، لقد تحققنا في جميع الحالات الثلاث مما إذا كانت الأعداد المرجعية المقدمة والمحتسبة مسبقًا والمراجع المقدمة تتطابق.
نحن أيضًا لا نتحقق من دقة تطابق قواعد البيانات مع المراجع المنشورة، والتي يمكن اعتبارها شرطًا أساسيًا لمؤشر التغطية الداخلية الذي نستخدمه. بعض الدراسات تحلل دقة خوارزميات تطابق قواعد البيانات إما على أساس تقييمات عينة يدوية و/أو بالمقارنة مع خوارزمياتها الخاصة، على سبيل المثال، في أولنسكي وآخرون (2016).
في إطار أكثر شمولاً، يمكن أن يوفر مقارنة متعمقة للمراجع المصدرية وغير المصدرية لكل منشور في عينة بين قواعد البيانات مؤشرات على
مدى إمكانية تفسير الفروق الصغيرة المكتشفة من خلال ملفات التغطية المختلفة أو نقاط القوة والضعف في خوارزميات المطابقة. يمكن أن يكون أحد التوسعات المحتملة لإعدادنا المنهجي الرئيسي هو تحليل التغطية الداخلية فيما يتعلق بالمستوى التخصصي ومعالجة السؤال إلى أي مدى يتمتع OpenAlex بتغطية أفضل (أو أسوأ) للمجلات غير الإنجليزية الموجهة إقليمياً والتي قد تكون ذات صلة ببعض مواضيع الفنون والعلوم الإنسانية والعلوم الاجتماعية، على سبيل المثال، ولا تفي بسهولة بمعايير تنسيق WoS.
عند دراسة توفر ORCID، يجب ملاحظة أننا لم نتحقق من توفره لجميع المؤلفين المشاركين، بل فقط إذا كان هناك على الأقل ORCID واحد موجود لكل مقال. من المهم إجراء مزيد من التحليل لتأكيد ما إذا كانت أسماء المؤلفين وORCIDs متطابقة بدقة، نظرًا للظاهرة الملحوظة المتمثلة في نسب ORCID واحد بشكل خاطئ إلى عشرات الآلاف من المقالات. إذا لم يكن هذا هو الحال، فقد يظهر ذلك التحدي المستمر في تمييز أسماء المؤلفين في قواعد البيانات الببليوغرافية.
كما تم مناقشته في القسم 2.1، وُجد أن بعض معرفات الكائن الرقمي (DOIs) تحتوي على سجلات مكررة مخصصة لها في كل من قواعد البيانات الثلاث، مما استلزم منا استبعاد 39,481 سجلاً من الفترة 2015-2022 التي تقع في تقاطع قواعد البيانات الثلاث وكان لديها أكثر من سجل مرتبط بالمعرف في واحدة من قواعد البيانات من مجموعة البيانات المشتركة لدينا. قد يكون من المناسب إجراء فحص أكثر تفصيلاً لمعرفات الكائن الرقمي المكررة، لا سيما فيما يتعلق بـ Scopus (كما هو موضح في الجدول 2 ويتفق مع النتائج المبلغ عنها في Vieira وLeta (2024) حول Scopus). وبالمثل، قد يُوصى بإجراء تحقيقات في توزيع المعرفات المكررة أو المفقودة أو غير الصحيحة حسب نوع السجل بين كل قاعدة بيانات للبحث المستقبلي.
لذلك، كما تم تسليط الضوء عليه في فييرا وليتا (2024) ونيكوليć وآخرون (2024)، حيث تم استكشاف إجراءات دمج وإزالة التكرار من مجموعات البيانات الببليوغرافية، نلاحظ أن معرفات DOI ليست مثالية لدمج مجموعات البيانات وغالبًا ما تؤدي، بسبب وجود DOI مكررة أو مفقودة أو غير صحيحة، إلى الحاجة لمقارنات أكثر تطلبًا للعناوين وأسماء المؤلفين من أجل إنتاج مجموعات بيانات ذات جودة أفضل للدراسات المستقبلية.
منذ جهود جمع البيانات لهذه الدراسة، تم إضافة ما لا يقل عن 151 مليون مرجع إلى OpenAlex، اعتبارًا من مايو لقطة من OpenAlex تشير إلى توسيع عدد المراجع بـ مقارنةً بأبريل لقطة. تشير هذه الجهود المستمرة لتحسين جودة البيانات وتوسيع توفر البيانات في OpenAlex إلى الحاجة لدراسات مماثلة في المستقبل، وتبرز تقلب قاعدة البيانات.
تم تمويل الوصول المفتوح من خلال تمويل مُنظّم من قبل مشروع DEAL. تم تمويل هذا العمل من قبل وزارة التعليم والبحث الفيدرالية عبر أرقام التمويل: 16WIK2301B / 16WIK2301E، مشروع OpenBib (شميت وآخرون، 2024). نحن نعترف بالدعم من وزارة التعليم والبحث الفيدرالية في ألمانيا بموجب رقم المنحة 01PQ17001، الشبكة التخصصية للببليومetrics. حصل جاك كولبرت وفيليب ماير على تمويل إضافي من الاتحاد الأوروبي بموجب منحة هورايزن أوروبا OMINO – التغلب على overload المعلومات متعددة المستويات. تحت رقم المنحة 101086321 (هوويست وآخرون، 2024).

الإعلانات

تضارب المصالح: فيليب ماير، المؤلف المشارك في هذه الورقة، لديه تضارب في المصالح لأنه يعمل في هيئة تحرير مجلة Scientometrics.
الإصدار العام السابق تم الإبلاغ عن النتائج المقدمة في هذه الورقة في البداية في نسخة مسبقة على ArXiv (كولبرت وآخرون، 2024). تتضمن تلك النسخة نسخة أطول وأكثر شمولاً من النتائج.
الوصول المفتوح هذه المقالة مرخصة بموجب رخصة المشاع الإبداعي النسب 4.0 الدولية، التي تسمح بالاستخدام والمشاركة والتكيف والتوزيع وإعادة الإنتاج بأي وسيلة أو صيغة، طالما أنك تعطي الائتمان المناسب للمؤلفين الأصليين والمصدر، وتوفر رابطًا لرخصة المشاع الإبداعي، وتوضح ما إذا كانت هناك تغييرات قد أُجريت. الصور أو المواد الأخرى من طرف ثالث في هذه المقالة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة، ما لم يُشار إلى خلاف ذلك في سطر الائتمان للمواد. إذا لم تكن المادة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة وكان استخدامك المقصود غير مسموح به بموجب اللوائح القانونية أو يتجاوز الاستخدام المسموح به، فسيتعين عليك الحصول على إذن مباشرة من صاحب حقوق الطبع والنشر. لعرض نسخة من هذه الرخصة، قم بزيارةhttp://creativecommons.org/licenses/by/4.0/.

References

Alperin, J.P., Portenoy, J., Demes, K., Larivière, V., Haustein, S. (2024). An analysis of the suitability of OpenAlex for bibliometric analyses. arXiv. https://doi.org/10.48550/arXiv.2404.17663 https://arxiv. org/abs/2404.17663
Akbaritabar, A., Theile, T. & Zagheni, E. Bilateral flows and rates of international migration of scholars for 210 countries for the period 1998-2020. Scientific Data, 11, 816 (2024). https://doi.org/10.1038/ s41597-024-03655-9
Culbert, J., Hobert, A., Jahn, N., Haupka, N., Schmidt, M., Donner, P., & Mayr, P. (2024). Reference Coverage Analysis of OpenAlex compared to Web of Science and Scopus. arXiv. https://doi.org/10.48550/ arXiv.2401.16359. https://arxiv.org/abs/2401.16359v1
Céspedes, L., Kozlowski, D., Pradier, C., Sainte-Marie, M. H., Shokida, N. S., Benz, P., Poitras, C., Ninkov, A. B., Ebrahimy, S., Ayeni, P., Filali, S., Li, B., & Larivière, V. (2025). Evaluating the linguistic coverage of OpenAlex: An assessment of metadata accuracy and completeness. Journal of the Association for Information Science and Technology, 1-12. https://doi.org/10.1002/asi. 24979
Delgado-Quirós, L., & Ortega, J. L. (2024). Completeness degree of publication metadata in eight freeaccess scholarly databases. Quantitative Science Studies, 5(1), 31-49. https://doi.org/10.1162/qss_a_ 00286
Else, H. (2018). How Unpaywall is transforming open science. Nature, 560(7718), 290-291. https://doi.org/ 10.1038/d41586-018-05968-3
Färber, M., Braun, C., Popovic, N., Saier, T., & Noullet, K. (2022). Which publications’ metadata are in which bibliographic databases? a system for exploration. In: BIR 2022: 12th International Workshop on Bibliometric-enhanced Information Retrieval at ECIR 2022. CEUR Workshop Proceedings, vol. 3230, pp. 39-44. https://ceur-ws.org/Vol-3230/paper-06.pdf
Franceschini, F., Maisano, D., & Mastrogiacomo, L. (2015). Errors in DOI indexing by bibliometric databases. Scientometrics, 102, 2181-2186. https://doi.org/10.1007/s11192-014-1503-4
Haak, L. L., Fenner, M., Paglione, L., Pentz, E., & Ratner, H. (2012). ORCID: A system to uniquely identify researchers. Learned Publishing, 25(4), 259-264. https://doi.org/10.1087/20120404
Hołyst, J. A., Mayr, P., Thelwall, M., Frommholz, I., Havlin, S., Sela, A., Kenett, Y. N., Helic, D., Rehar, A., Maček, S. R., Kazienko, P., Kajdanowicz, T., Biecek, P., Szymanski, B. K., & Sienkiewicz, J. (2024). Protect our environment from information overload. Nature Human Behaviour. https://doi.org/10. 1038/s41562-024-01833-8
Hauschke, C., & Nazarovets, S. (2025). (Non-)retracted academic papers in OpenAlex. Journal of Information Science, O(0). https://doi.org/10.1177/01655515251322478
Kramer, B., & Jonge, H. (2022). The availability and completeness of open funder metadata: Case study for publications funded by the Dutch Research Council. Quantitative Science Studies, 3(3), 583-599. https://doi.org/10.1162/qss_a_00210
Martín-Martín, A., Orduna-Malea, E., Thelwall, M., & Delgado López-Cózar, E. (2018). Google Scholar, Web of Science, and Scopus: A systematic comparison of citations in 252 subject categories. Journal of Informetrics 12(4), 1160-1177. https://doi.org/10.1016/j.joi.2018.09.002
Martín-Martín, A., Thelwall, M., Orduna-Malea, E., & Delgado López-Cózar, E. (2021). Google Scholar, Microsoft Academic, Scopus, Dimensions, Web of Science, and OpenCitations’ COCI: A multidisciplinary comparison of coverage via citations. Scientometrics, 126(1), 871-906. https://doi.org/10. 1007/s11192-020-03690-4
Moed, H.F. (2005) Citation Analysis in Research Evaluation. Information Science and Knowledge Management, vol. 9. Springer, Berlin/Heidelberg. https://doi.org/10.1007/1-4020-3714-7
Mugabushaka, A.-M., Eck, N. J., & Waltman, L. (2022). Funding covid-19 research: Insights from an exploratory analysis using open data infrastructures. Quantitative Science Studies, 3(3), 560-582. https://doi.org/10.1162/qss_a_00212
Nikolić, D., Ivanović, D. & Ivanović, L. An open-source tool for merging data from multiple citation databases. Scientometrics, 129, 4573-4595 (2024). https://doi.org/10.1007/s11192-024-05076-2
Olensky, M., Schmidt, M., & Eck, N. J. (2016). Evaluation of the citation matching algorithms of CWTS and iFQ in comparison to the Web of science. Journal of the Association for Information Science and Technology, 67(10), 2550-2564. https://doi.org/10.1002/asi. 23590
Priem, J., Piwowar, H., & Orr, R. (2022). OpenAlex: A fully-open index of scholarly works, authors, venues, institutions, and concepts. In: 26th International Conference on Science, Technology and Innovation Indicators (STI 2022). Zenodo. https://doi.org/10.5281/zenodo. 6936226
Raan, A. (2019). Measuring science: Basic principles and application of advanced bibliometrics. In: Glänzel, W., Moed, H.F., Schmoch, U., Thelwall, M. (eds.) Springer Handbook of Science and Technology Indicators, pp. 237-280. Springer, Berlin/Heidelberg. https://doi.org/10.1007/978-3-030-02511-3_10
Simard, M.-A., Basson, I., Hare, M., Lariviere, V., & Mongeon, P. (2024). The open access coverage of OpenAlex, Scopus and Web of Science. arXiv. https://doi.org/10.48550/arXiv.2404.01985. http://arxiv. org/abs/2404.01985
Scheidsteger, T., & Haunschild, R. (2022). Comparison of metadata with relevance for bibliometrics between Microsoft Academic Graph and OpenAlex until 2020. In: 26th International Conference on Science, Technology and Innovation Indicators (STI 2022). Zenodo. https://doi.org/10.5281/zenodo. 6975102
Schmidt, M., Rimmert, C., Stephen, D., Lenke, C., Donner, P., Gärtner, S., Taubert, N., Bausenwein, T., & Stahlschmidt, S. (2024). The Data Infrastructure of the German Kompetenznetzwerk Bibliometrie: An Enabling Intermediary between Raw Data and Analysis. Zenodo. https://doi.org/10.5281/zenodo. 13932928
Singh, V. K., Singh, P., Karmakar, M., Leta, J., & Mayr, P. (2021). The journal coverage of Web of Science, Scopus and Dimensions: A comparative analysis. Scientometrics, 126(6), 5113-5142. https://doi.org/ 10.1007/s11192-021-03948-5
van Eck, N. J., & Waltman, L. (2022). Crossref as a source of open bibliographic metadata. https://doi.org/ 10.31222/osf.io/smxe5
Velez-Estevez, A., Perez, I. J., García-Sánchez, P., Moral-Munoz, J. A., & Cobo, M. J. (2023). New trends in bibliometric APIs: A comparative analysis. Information Processing Management, 60(4), 103385. https://doi.org/10.1016/j.ipm.2023.103385
Vieira, G.A., Leta, J. biblioverlap: an R package for document matching across bibliographic datasets. Scientometrics, 129, 4513-4527 (2024). https://doi.org/10.1007/s11192-024-05065-5
Visser, M., Eck, N. J., & Waltman, L. (2021). Large-scale comparison of bibliographic data sources: Scopus, web of science, dimensions, crossref, and microsoft academic. Quantitative Science Studies, 2(1), 20-41. https://doi.org/10.1162/qss_a_00112
Zhang, L., Cao, Z., Shang, Y. et al. Missing institutions in OpenAlex: possible reasons, implications, and solutions. Scientometrics, 129, 5869-5891 (2024). https://doi.org/10.1007/s11192-023-04923-y
Publisher’s Note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.

  1. Jack H. Culbert
    jack.culbert@gesis.org
    1 GESIS – Leibniz Institute for the Social Sciences, Cologne, Germany
    2 Göttingen State and University Library, University of Göttingen, Göttingen, Germany
    German Center for Higher Education Research and Science Studies (DZHW), Berlin, Germany

Journal: Scientometrics, Volume: 130, Issue: 4
DOI: https://doi.org/10.1007/s11192-025-05293-3
Publication Date: 2025-04-01

Reference coverage analysis of OpenAlex compared to Web of Science and Scopus

Jack H. Culbert (D) ⋅ Anne Hobert (D) ⋅ Najko Jahn (D) ⋅ Nick Haupka (D. Marion Schmidt (D) ⋅ Paul Donner (D) ⋅ Philipp Mayr (D)

Received: 23 February 2024 / Accepted: 25 March 2025 / Published online: 10 April 2025
© The Author(s) 2025

Abstract

OpenAlex is a promising open source of scholarly metadata, and competitor to established proprietary sources, such as the Web of Science and Scopus. As OpenAlex provides its data freely and openly, it permits researchers to perform bibliometric studies that can be reproduced in the community without licensing barriers. However, as OpenAlex is a rapidly evolving source and the data contained within is expanding and also quickly changing, the question naturally arises as to the trustworthiness of its data. In this report, we will study the reference coverage and selected metadata within each database and compare them with each other to help address this open question in bibliometrics. In our large-scale study, we demonstrate that, when restricted to a cleaned dataset of 16.8 million recent publications shared by all three databases, OpenAlex has average source reference numbers and internal coverage rates comparable to both Web of Science and Scopus. We further analyse the metadata in OpenAlex, the Web of Science and Scopus by journal, finding a similarity in the distribution of source reference counts in the Web of Science and Scopus as compared to OpenAlex. We also demonstrate that the comparison of other core metadata covered by OpenAlex shows mixed results when broken down by journal, where OpenAlex captures more ORCID identifiers, fewer abstracts and a similar number of Open Access status indicators per article when compared to both the Web of Science and Scopus.

Keywords Bibliometrics ⋅ Open scholarly metadata ⋅ Citation analysis ⋅ Reference coverage • Scholarly databases • OpenAlex

Introduction

OpenAlex (Priem et al., 2022) was released on January 1st 2022 by OurResearch as a replacement for the discontinued Microsoft Academic Graph (MAG) and is offered as a fully open source of scholarly metadata, with all data, API information and code released to the public. As observed in the comparative study by Scheidsteger and Haunschild (2022), not all aspects of the MAG were reproduced, as patents were not captured in OpenAlex. Aside from this exception, OpenAlex is effectively a continuation and expansion of the MAG.
OpenAlex is a promising alternative to proprietary bibliometric data sources as its permissible licensing creates the potential to support a transformation of research practice towards reproducible bibliometrics. This is being realised in open research policies in academia, for example in December 2023, Sorbonne University has switched from using the Web of Science (WoS) and Clarivate bibliometric tools to OpenAlex and open-source tools. Reproducible bibliometric research is hardly possible with proprietary bibliometric data sources as their licensing terms rule out dissemination of data.
As a widely used open source repository of scholarly metadata, OpenAlex has previously been the subject of research as to its suitability for a variety of bibliometric analyses, such as the review by Velez-Estevez et al. (2023), which comparatively analysed various APIs to bibliometric corpora, including API interoperability, characteristics and their use in research practice, and Akbaritabar et al. (2023) whose paper on the migration of scholars included a comparative study between Scopus and OpenAlex, focusing on the coverage of scholars in Western and non-Western countries.
Although country affiliation metadata accuracy and completeness were found lacking in earlier versions Zhang et al. (2024), OpenAlex was recently considered suitable for countrywide analyses by Alperin et al. (2024). Investigating diamond open access journals indexed in OpenAlex in comparision with both WoS and Scopus, Simard et al. (2024) highlighted that OpenAlex journal indexing is more inclusive than that of WoS and Scopus. However, at this early stage of its development, OpenAlex is a highly dynamic data source whose characteristics change with each release. This paper also follows previous quantitative comparisons of citation coverage of traditional bibliometric databases. One such study examines a dataset of 2.5 thousand documents published in 2006 and approximately 3.1 million citations of these documents, found in the MAG, Google Scholar, WoS, Scopus and OpenCitations’ COCI databases, (Martín-Martín et al., 2021). This study demonstrates relative coverage gaps in some subject areas in the MAG as compared to WoS and Scopus, and also overall that Google Scholar has the largest citation coverage as compared to the other databases.
This concurs with an earlier study also by Martín-Martín et al. (2018), which also compared these databases to Google Scholar, where approximately 2.45 million citations from 2,300 documents covering 252 subjects are compared for similarities in the citation coverage, similarly finding the citations in Google Scholar comprises a superset of those in WoS and Scopus.
Previous work has studied and compared bibliographic databases to better understand the limitations of different data sources. Comparing the MAG, Scopus, WoS and other databases, Visser et al. (2021), argue for combining databases to allow for comprehensive
coverage, taking into account the strengths and weaknesses of the different data sources. Similarly, other studies have focused on a journal coverage analysis of WoS, Scopus and Dimensions, such as the study of Singh et al. (2021). Furthermore tools such as Färber’s tool for comparing author records between databases (Färber et al. 2022), have been created and shared by the academic community to provide insights into the suitability and weaknesses of bibliometric databases for accurate bibliometrics in their current state.
Therefore, to enable bibliometricians to better understand the potentials and current limitations of OpenAlex, we compare OpenAlex with two major proprietary bibliometric data sources, WoS and Scopus. With our study we wish to contribute to the question to what extent OpenAlex can serve as an adequate, (or perhaps better) free alternative to established, proprietary databases for bibliometric research and reporting. Our specific research questions in this report are whether reference coverage of items differs between the three data sources, investigating this for the complete databases as well as for a sub-corpus of items present in all three databases, and whether and to what extent the coverage of some additional metadata fields, specifically abstracts, Open Researcher and Contributor IDs (ORCIDs), and Open Access status of items differ in all three data sources.
We are aware that these initial assessments are likely to change with further developments, as of writing twelve new snapshots of OpenAlex have been released – with new data added or modified regularly, so this report should be understood as reflecting the state as of late 2023. Since then at least 151 million new references have been added which was an increase of while at least 750,000 records were deleted and over 3.4 million records were added.

Reference coverage

References are of central importance for bibliometric databases, as matching them to their target items forms the basis for the calculation of citation metrics. As a first step, we compare average reference counts between the three databases, whereby the basis of the comparison are the complete databases, then subsets of publications with the document type ‘article’, and a shared sub-corpus of publications covered by all three databases. Citation reference data can also be used for an indirect assessment of the coverage, i.e. the proportion of relevant research publications that are included in the database and accessible to users for analysis (Singh et al., 2021). An insufficient or biased coverage of the relevant literature should rule out the use of a database for a particular study.
There are different ways to determine the coverage of a database, for example, the comparison with external lists of relevant sources or publication lists of a sample of representative researchers of the studied fields. However, there is no general gold standard corpus and all external sources therefore bring their own biases and limitations. A relatively simple (and easily replicable and repeatable) way to study literature coverage is calculating the internal reference coverage of a database as a whole or in relation to grouping characteristics, such as disciplines, the literature of particular countries or language communities.
The internal coverage is the proportion of those cited references of a publication set which are themselves covered as source items in the database, out of all cited references in the set. We refer to these as source references and in contrast, to references to items that
Table 1 Sizes of databases and of the Shared Corpus dataset, with the number of references contained in each dataset
WoS Scopus OpenAlex
Whole Corpus
Number of Records 71,280,830 65,642,377 243,053,925
Number of References 1,765,281,799 2,033,522,623 1,845,379,285
Whole Corpus – Articles Only
Number of Records 42,678,632 43,579,595 200,665,940
Number of References 1,400,958,343 1,422,650,789 1,636,497,394
Published 2015-2022
Number of Records 22,609,069 27,620,472 76,836,191
Number of References 786,437,547 1,035,750,923 840,730,834
Shared Corpus (2015-2022)
Number of Records 16,788,282 16,788,282 16,788,282
Number of References 725,008,043 727,056,725 585,616,069
are not themselves indexed in the database as non-source references (or references to nonsource items).
A more comprehensive introduction to this concept and an analysis of the contemporary internal coverage of the WoS is available in Moed (2005, Chapter 7) and van Raan (2019). The great advantage of this type of analysis is that one does not need any external data which may be difficult and costly to collect. This reliance on only the assessed data source itself is also the major disadvantage, as one is limited to the reference data as present in the assessed data source with all its contingencies. Therefore one cannot simply extrapolate from the coverage of cited literature to the coverage of literature segments that were never cited in the source data, possibly as a direct consequence of the source database’s selection criteria. These considerations show why internal reference coverage provides merely a partial and possibly source-biased measurement of coverage.
Nevertheless, when comparing citation index databases, the differences in internal reference collection can be a useful guide. For example, one question that arises due to the much larger dimension of OpenAlex compared to WoS and Scopus is whether it thereby also has a higher internal coverage, i.e. a higher proportion of publications that are referenced and also indexed in the database compared to the other databases. There are no established guidelines for numerical values of coverage proportions required to allow reliable studies to be carried out. But for example, Moed (2005) analysed the combined ISI Citation Indexes (the predecessor of today’s Web of Science) and found that the coverage rate, which is the proportion of references from the 2002 source year that refer to ISI source journals, was highest for Molecular Biology and Biochemistry, at around , followed by human-focused Biological Sciences, Chemistry, Clinical Medicine and Physics and Astronomy. It was vastly lower in the Arts and Humanities and intermediary in the Social Sciences, Mathematics and Engineering.
When using this indicator to compare OpenAlex, WoS and Scopus, we are thus less interested in an evaluation in absolute values, but rather in assessing how OpenAlex performs in comparison to the two established bibliometric databases. Internal reference coverage depends on the size and possibly the disciplinary profile of a database as well as the accuracy of its reference matching procedure. As OpenAlex is actually much larger than
Scopus and WoS (see Table 1) it could be expected that its internal reference coverage is at least not lower than those of the latter databases.

Open metadata

The increasing discussion surrounding the open availability and quality of various types of scholarly metadata in bibliometrics is not limited to reference coverage, but expands to other metadata (van Eck & Waltman, 2023; Delgado-Quiros & Ortega, 2024; Céspedes et al., 2024; Zhang et al., 2024). For instance, the Initiative for Open Abstracts (I4OA) advocates open abstracts of scholarly works and calls on scholarly publishers to submit them to Crossref, a Digital Object Identifier (DOI) registration agency. Similarly, scholarly publishers can use Crossref to share the funding information associated with the articles they publish. However, coverage analyses of Crossref suggest that not all publishers provide open scholarly metadata to Crossref (Mugabushaka et al., 2022; Kramer & de Jonge, 2022). Another example of essential metadata is the use of ORCIDs to persistently identify authors, helping bibliometricians not only to disambiguate author names, but also to interlink different data from different sources based on the ORCID (Haak et al., 2012).
As open data sources are essential for OpenAlex, we will expand our analysis to compare abstracts, funding information and ORCID coverage at the journal level. Moreover, we will assess the coverage of open access status information between OpenAlex and the proprietary databases WoS and Scopus. In contrast to abstract and author information, all three databases use the same source, the open access discovery service Unpaywall, to retrieve open access status information (Else, 2018).

Data and methodology

In this section, we describe the data used in this study, and the reasoning for our choices of restrictions and subsets of this data. To enable a fair comparison between OpenAlex, and WoS and Scopus, we have created a ‘Shared Corpus’ containing records common to all three datasets based on an exact DOI match, which have been published between 2015 and 2022, where the DOI is unique to the record in all three databases, i.e. there are no multiple records with the same DOI. In the course of selecting records from the databases, it is ensured that publications only ever have one DOI assigned to the record. In a further step, the references of the publications in the Shared Corpus are restricted to those published between 1996 to 2022.
The versions of the WoS, Scopus and OpenAlex databases used in this study are as follows. The WoS and Scopus data are snapshots from five indexes of the WoS Core Collection (Science Citation Index Expanded, Social Sciences Citation Index, Arts & Humanities Citation Index, Conference Proceedings Citation Index – Science and Conference Proceedings Citation Index – Social Sciences) starting from publication year 1980 and the Scopus database, both captured in April 2023. The OpenAlex database is the version released in
Fig. 1 Venn diagram of the intersection sizes of unique DOIs based in each database on exact DOI match (without deduplication, i.e. cases of DOIs that have been assigned to multiple papers are now kept in the sets), for records published between 2015 and 2022

OpenAlex

August 2023, due in both cases to the versioning policy of our data host at FIZ Karlsruhe, the Leibniz Institute for Information Infrastructure.
Due to this discrepancy in version dates, we have decided to restrict the items in the Shared Corpus to those published on or before the December 2022 in order to mitigate any bias between the databases, and further refined this corpus to exclude records published before the of January 2015, so the Shared Corpus covers items from publication years 2015 to 2022 inclusive.
As the Scopus database mainly contains items from 1996 onwards (although since 2015, pre-1996 cited references and backfiles of major publishers have been added, ) and WoS and OpenAlex have had no such restriction, to avoid bias in the computation of source reference counts and internal coverage we further restrict references to those items published between 1996 and 2022.
We include a section on articles published 2015-2022 in Table 1 for all three databases, to illustrate the influence of the time restriction to the size of the Shared Corpus, and to give context to the DOI matching and deduplication work described in Sect. 2.1.
In the Scopus and WoS databases, pre-computed total ‘reference counts’, are delivered by the data providers Elsevier and Clarivate, whereas ‘source reference counts’ are calculated for each record by our data provider FIZ Karlsruhe. Both databases are expected to contain all references of a given publication, regardless of whether they refer to items
contained within or not contained within their databases, i.e. whether they are source and non-source references, respectively, and without a fixed time restriction. References may contain duplicates (as introduced by original authors or by the database providers).
In contrast, presently in OpenAlex there only exist source references (see the OpenAlex documentation (Priem et al., 2022) – apart from a smaller segment of references to supposedly deleted items) and a ‘source reference count’ has been calculated by FIZ Karlsruhe in our database. This fact explains the empty values for the average total reference counts in Table 3. We therefore have to relate this number to the source reference counts taken from WoS and Scopus.
In Table 1 we provide a summary of the records available in each data source and in Fig. 1 we provide a diagram of the intersections between the three data sources, based on exact matching of unique DOIs, over the entire corpus, and restricted to records published between 2015 and 2022. Additionally in Table 1, we provide information for the size of each corpus when restricted to records classified as ‘article’ to demonstrate that this does not substantially decrease the relative scale of OpenAlex to WoS and Scopus.
To address the potential bias arising from the number of documents in the databases, we calculated the five-number summaries (median, standard deviation, maximum, minimum and inter-quartile range) in addition to the mean values for the number references per article. Despite the considerable variation in the number of references per article and number of documents in the databases, we did not observe substantial disparities in the distribution across the different data sources examined. Consequently, we have chosen to present the mean value.
It can be calculated from Table 1, that while the Shared Corpus, after DOI deduplication, contains and of all records in WoS and Scopus, and of those in OpenAlex, it contains and of the references in the whole corpora of WoS, Scopus and OpenAlex respectively.
The Shared Corpus, after DOI deduplication, contains 74.3% of the records in WoS published between 2015 and 2022, and 60.8% of the records in Scopus published between 2015 and 2022 and 21.8% of OpenAlex published between 2015 and 2022.
To evaluate the reference and source reference coverage of WoS and Scopus against OpenAlex, we first used the reported reference counts and pre-calculated source reference counts as described in Section 2. The average total reference count and source reference count was computed for: each database, for records marked as ‘article’ (or comprising the document type ‘article’ alongside other type markings, in the case of Scopus and WoS) and for the Shared Corpus resulting from the DOI match (publication years 2015-2022).
These numbers were then checked by an independent calculation where the total number of references and records in each database were counted and the ratio was computed (‘references per record’), as reported in Table 4. Then, for the final results, queries were created to calculate and average the number of references with reference publication year 1996 to 2022, and the number of references that are linked to source items and publication years 1996 to 2022.

DOI match and deduplication

When constructing the Shared Corpus as described in Sect. 2, we relied on the DOI as a unique identifier that we could use to combine the databases. This approach has its limitations, as explored in Vieira and Leta (2024) which highlights the distribution of nonexistent or duplicate DOIs in each corpus may vary by subject in the WoS and Scopus databases.
We excluded records without a DOI and records where more than one publication item is attributed to the same DOI – as we are virtually not able to decide which item is the correct one for a given DOI in the latter case. These duplicate records account for the removal of 39,481 publications (counted as distinct DOI) in addition to those resulting from the restriction to 2015-2022. This accounts for the difference between the size of the Shared Corpus and the nominal intersection of the three databases between 2015 and 2022.

Error margins of the DOI match

Records with a duplicate DOI or without a DOI were excluded from the DOI matching step in the construction of the Shared Corpus. In Table 2, which focuses on all publications in the three databases which are published between 2015 and 2022, it can be seen that Scopus has a significantly larger number of DOIs with multiple records associated with it. Altogether, OpenAlex has the greatest number of records without DOI, followed by WoS and Scopus.
As records without a DOI are not matched in our analyses there is a significant underestimation of the total size of the databases as portrayed in Fig. 1, similarly records which have a shared DOIs are counted once.
Another reason for the exclusion of items in the DOI match, which at the same time restricts to publication years 2015-2022, is the fact that publication years are not always exactly the same between databases, possible due to differences in the handling of early access and print publication dates. We define the time restriction as applying to all three databases at the same time.

Metadata coverage

To determine metadata coverage (as detailed in Sect. 3.3), we also used the Shared Corpus as described at the beginning of Sect. 2. Here, we restrict to publication items published in journals. For this purpose, the publication type categorisations of Web of Science
Table 2 A comparison of erroneous cases in the DOI match between databases
WoS Scopus OpenAlex
Published 2015-2022
DOIs with multiple Records 7,177 76,891 11,074
Records with a shared DOI 14,376 282,893 22,158
Records without DOI
and Scopus were used and the OpenAlex publications were assigned to these via the DOI comparison of the Shared Corpus, so that OpenAlex could be compared bilaterally with the other two databases. We then specifically compared the coverage of abstracts, funding information, ORCIDs and Open Access (OA) status information by assessing whether items have (at least one) of these and aggregated by journal, that is, for each journal, a publication record was counted if the desired metadata property was available. In the case of OA, we counted the item if the OA status was not marked as closed. We have normalised the journal title to lowercase to aggregate the items.

Results

Total and source reference coverage

Table 3, in a naïve averaging of the source reference count, leaves OpenAlex looking comparatively poor at 7.6 references per record to the 16.9 or 18.7 of WoS and Scopus (and well behind the other databases’ average total reference count). However, when restricting to the 2015-2022 corpus shared by the three databases, OpenAlex proves competitive with a higher average source reference count than both WoS and Scopus. The fact that results vary greatly depending on the underlying corpus definition suggests that OpenAlex comprises of many publications with comparatively short reference lists which are not contained by the WoS or Scopus. When focusing on the comparison of the average total reference counts between WoS and Scopus, it initially appears that Scopus outperforms WoS,
Table 3 Comparison of the reference coverage available in each database, including the reported reference counts from the database providers, the pre-calculated source reference counts from FIZ-Karlsruhe, and our computed counts
WoS Scopus OpenAlex
Whole Corpus
Reported Average Reference Count 24.765 31.254
Pre-calculated Average Source Reference Count 16.867 18.692 7.572
Internal Coverage 68.1% 59.8%
Whole Corpus – Articles Only
Reported Average Reference Count 32.826 32.805
Pre-calculated Average Source Reference Count 22.442 20.230 8.134
Internal Coverage 68.4% 61.7%
Shared Corpus (2015-2022)
All References
Reported Average Reference Count 43.185 43.320
Pre-calculated Average Source Reference Count 33.416 33.363 34.863
Internal Coverage 77.4% 77.0%
References 1996-2022
Calculated Average Reference Count 38.226 38.062
Calculated Average Source Reference Count 31.207 33.359 31.823
Internal Coverage 81.6% 87.6%
however when considering records marked as articles they perform more comparably. This trend continues when observing the Shared Corpus and the Shared Corpus with references from 1996 to 2022. Notably, here the difference between the source reference count and total reference count decreases as the restrictions are added. The results suggest that Scopus still has a small disadvantage due to its initial indexing start in 1996. Consequently, the slight advantage for OpenAlex is reversed when references are restricted to reference publication years 1996-2022, with Scopus outperforming OpenAlex, and WoS performing worst – however, differences are very small.
The internal coverage of OpenAlex cannot be computed for Table 3 as it does not contain all references, respectively a total reference count. However, we can infer OpenAlex’ internal coverage in the Shared Corpus by assuming either Scopus or WoS contain a definitive reference count. In this case, the internal coverage for the last segment (comprising the 1996-2022 restriction to reference publication years) for OpenAlex would be when related to WoS’ total reference count, or when related to Scopus’ reference count, notably these values lie between those of WoS and Scopus. We cannot perform the same analysis on all comparisons given the differing database sizes.

Discrepancies between reference counts and reference data

When comparing the reported and pre-calculated average total and source reference counts to an alternatively self-calculated ratio of all references to all publications, we came across discrepancies in Scopus and OpenAlex. In case of Scopus, reference counts reported by the provider do not always correspond to the actual references in the database, a phenomenon confirmed by Elsevier in informal communication as being caused by inconsistent supplier ingestions. In case of OpenAlex, some references refer to items that do not exist in OpenAlex, i.e. are deleted. The latter references are not included in the pre-calculated values. The discrepancies between both types of calculation can be seen in Table 4.
For further verification, we selected the publications in Scopus and OpenAlex where either the pre-calculated total ‘reference count’ in Scopus and ‘source reference count’ in OpenAlex were not equal to the respective number of entries in the databases’ reference table. We then computed the averages of the reported/pre-calculated counts, and compared this to the ratio of references to publications while excluding in both cases the identified publications where reference count (in Scopus) or source reference count (in OpenAlex) do not correspond to the actual number of references. Once this has been
Table 4 Discrepancies between Scopus and OpenAlex reported / pre-calculated reference counts and the ratio of references to records
WoS Scopus OpenAlex
Whole Corpus
Ratio of References per Record 24.765 30.979 7.592
Reported Average Total Reference Count 24.765 31.254
Reported Average Source Reference Count 16.867 18.692 7.572
Whole Corpus – Articles Only
Ratio of References per Record 32.826 32.645 8.155
Reported Average Reference Count 32.826 32.805
Reported Average Source Reference Count 22.442 20.230 8.134
Fig. 2 Scatter diagrams of the count of source references per journal between OpenAlex and the Web of Science and Scopus
Fig. 3 Scatter diagrams of the count of source references per journal between OpenAlex and the Web of Science and Scopus
done, the resulting averages then only differ at the 12th to 14th decimal place. We therefore conclude that for both databases discrepancies between reference counts and actual reference numbers are due to erroneous data. While in OpenAlex both our pre- and selfcalculated source reference counts are consistent to our concept as we only count as source references those whose target items are actually in the database, the situation is more complicated in the case of Scopus: In our averages, we first use the reference counts supplied by the provider, which do not always match (but are probably more correct than) the references actually supplied, while in the last segment, where we calculate
the count ourselves with references restricted to the 1996-2022 time window, we can only do this on the basis of the references actually supplied.
The detected discrepancies between both proprietary and open source bibliometric databases should be considered when working with OpenAlex for bibliometric analyses – as averages of reference counts may differ significantly if the databases are not judiciously curated. We believe this discrepancy likely merits a deeper analysis in OpenAlex as new versions are released.

Metadata by journal

Continuing the analysis of OpenAlex, WoS and Scopus, we then broke down the data by journal. Firstly in Fig. 2, we compared the counts of source references in each journal in the WoS and Scopus to those in OpenAlex, spotting a fairly similar distribution in the two comparisons. Comparing these to Fig. 3, we observe that the greater density under the line indicates OpenAlex is on average identifying slightly more source references in some journals, but the lesser density above the line indicates OpenAlex significantly undercounts on some journals as compared to WoS and Scopus.
Fig. 4 then highlights the metadata coverage analysis results between OpenAlex and the two proprietary databases, WoS and Scopus, within the Shared Corpus. The x -axis represents OpenAlex, while the y-axis corresponds to WoS (left) and Scopus (right). The points represent the percentage coverage of the relevant indicator per journal.
The results indicate that OpenAlex depicts a different pattern compared to WoS and Scopus in terms of abstracts (Fig. 4a), with the two proprietary databases having a higher overall availability of abstracts. In particular we note that there are concentrations near the top of the plot, indicating that the proprietary databases have full access to abstract information where OpenAlex has either partial or no access to this information.
Observing the top right of Fig. 4a, we see that the majority of journals reside in this area; in total, over of the articles in WoS and Scopus have abstract information, compared to a coverage of abstracts in OpenAlex, which implies a density in the top right hand corner which is not well indicated in the scatter diagrams. Furthermore we see below the line that for some journals OpenAlex has a higher abstract coverage.
In contrast, the ORCID coverage is more comprehensive in OpenAlex (Fig. 4b). The proportion of articles in OpenAlex with at least one ORCID present is , and the proportion of articles with at least one ORCID in WoS is and in Scopus . However, upon inspection we discovered that OpenAlex performs a generous disambiguation of authors, resulting in a high ORCID coverage. In particular, some authors with Chinese names were observed to be linked to more than 10,000 publications.
The distribution of open access information is more similar between the databases (Fig. 4c), with a tendency slightly in favour of OpenAlex, suggesting an indexing lag of Unpaywall’s open access status information in the WoS and Scopus data. The proportion of open access information in all three databases is around .
Viewing Fig. 4d shows that the availability of funding information on articles is better represented in WoS and Scopus than in OpenAlex. Notably, funding information associated with articles in over 4,100 journals can only be found in WoS and Scopus, which could indicate a lack of provision of funding information by some scholarly publishers for open databases such as OpenAlex and Crossref.
Fig. 4 Scatter diagrams of the coverage of metadata per journal between OpenAlex and the Web of Science and Scopus

Discussion

This report demonstrates the source reference coverage in OpenAlex to be comparable to that in WoS and Scopus for comparatively newer records which lie in the intersection of all three databases, both in general and when restricting to references from 1996 onwards. On the one hand, this can be seen as an indicator of good quality bibliometric core data. On the other hand, OpenAlex does not have the highest internal coverage, although it is by far the largest database, so it would actually be plausible that higher proportions of the referenced publications are themselves part of the database. In this respect, the Scopus coverage policy seems to be a bit more effective. However, one possible factor could also be that a comparatively poorer reference-matching algorithm misses a noticeable amount of actual source references.
The vastly greater corpus of document records in OpenAlex, compared to WoS and Scopus, raises the question of what this additional content is, which is covered by OpenAlex but by neither established commercial provider. Our findings demonstrate what this content is not: it is not that part of the scientific literature which is referenced by items within WoS or Scopus. If that were the case, we would have found that OpenAlex internal reference coverage clearly exceeding that of the other to data sources in the Shared Corpus, because more references cited by those publications would be indexed by OpenAlex, but not WoS and Scopus. The substantially larger differences between the mean source reference counts of OpenAlex and the other two databases, if the entire databases and not the fixed comparison corpus are taken, also shows that the publications that are only in OpenAlex and not in the other two databases pull down the mean values due to their lower reference counts. They must therefore represent a different publication spectrum or have a significantly lower data quality. In any case, this suggests that OpenAlex should be limited to a core corpus if comparability of bibliometric analyses based on OpenAlex to WoS and Scopus is desired.
From Table 3 it can be inferred that within the Shared Corpus, there are on average 6.4 to 6.2 references captured in the total reference count by WoS and Scopus (respectively) that OpenAlex does not capture in its source reference count. The fact that OpenAlex does not yet systematically include non-source references, as well as complete reference strings, limits the flexibility of using and exploring the data source: It does not allow researchers or bibliometric centers to apply their own reference matching algorithms or to analyse non-source references as such.
The study also revealed data errors in Scopus and OpenAlex. The reported figures for reference counts in Scopus do not correspond to the actual numbers of references in the database, and OpenAlex is inconsistent in its handling of references as it does not systematically comprise all non-source references, but references to some deleted source items. Similarly, we note that all databases, to a different degree, comprise cases where DOIs refer to multiple records-cf. Franceschini et al. (2015). We believe it merits further study and caution when replicating these computations. Another study by Hauschke and Nazarovets (2025), in preprint at time of writing, indicates that data errors have been discovered in the “is_retracted” field of OpenAlex for publications between 22 December 2023 and 19 March 2024, further highlighting the volatility of the metadata quality in OpenAlex.
In summary, from an internal reference coverage perspective, OpenAlex as a source for citation data for studies of contemporary scientific output, is on par with commercial
databases when restricted to a core corpus of publications similar to that of WoS and Scopus. However, its utility is hampered by not yet providing full cited reference data.
Although metadata coverage relating to abstract information is lower than in WoS and Scopus, the share of records with abstracts in OpenAlex is nevertheless higher than in Crossref as evidenced in a 2024 Crossref blog by Kramer https://www.crossref.org/blog/ i4oa-hall-of-fame-2023-edition/. Kramer also notes that, at the time of writing, the large publishers Elsevier, Taylor & Francis and IEEE did not openly share abstracts via Crossref. But OpenAlex also acknowledged legal issues, which resulted in the representation of abstracts as inverted index as well as in the removal of some abstracts.
Our analysis reveals that OpenAlex demonstrates a particularly high level of coverage for ORCID in comparison to WoS and Scopus. Over 90% of articles in OpenAlex had been assigned at least one ORCID. However, we have observed that this percentage is somewhat excessive. Upon inspection, we discovered that in some cases ORCIDs were assigned to more than 10,000 records in our corpus, suggesting issues with OpenAlex’s author disambiguation method. The authorships and author records have also been subject to updates by OpenAlex since data collection, including cleaning of author strings, syncing 17.9 million work records with Crossref, removing 3.9 million empty author records (authors with no works assigned to them) and updating author information fields.
In conclusion, our analysis of the metadata by journal highlights data collection and curation challenges for OpenAlex, having to collate information from both bibliometric and non-bibliometric sources requires OpenAlex to perform disambiguation and standardisation between data sources, both challenging tasks, as well as deal with legal constraints in collecting and publishing academic works – for example, the copyright of the abstracts. These challenges likely differ from those of WoS and Scopus in their collection and curation, but the similarity of the figures plotting OpenAlex against WoS and OpenAlex against Scopus demonstrate a stark difference between OpenAlex, and WoS and Scopus. Therefore, we currently recommend caution when utilising OpenAlex for scientometric studies due to the volatility and data quality issues discussed earlier in this section.

Limitations and outlook

We restate that our data is representative of late 2023, with the hitherto noted volatility of OpenAlex in the time since, this report may not be representative of the state of OpenAlex, and also the Web of Science and Scopus, at time of publishing.
A fundamental limitation of our study setting is the lack of ground truth-we do not analyse whether the reference counts provided by WoS and Scopus correspond exactly to the respective reference lists in the publications. However, we have checked in all three cases whether delivered and pre-calculated reference counts and delivered references correspond.
We also do not check the accuracy with which the databases match references to publications, which can be seen as the prerequisite for the internal coverage indicator we use. Some studies analyse the accuracy of the database matching algorithms either on the basis of manual sample evaluations and/or in comparison with their own algorithms for example, in Olensky et al. (2016).
In a more extensive setting, an in-depth comparison of source and non-source references of each publication in a sample between the databases could provide indications of
the extent to which the detected smaller differences can be explained by different coverage profiles or strengths and weaknesses of the matching algorithms. A possible extension of our main methodological setting could analyse the internal coverage with respect to the disciplinary level and address the question to what extent OpenAlex has a better (or worse) coverage of non-English, regionally-oriented journals which might be relevant to some arts & humanities and social sciences subjects, for example, and do not easily fulfil WoS curation criteria.
When studying ORCID availability, it must be noted that we did not check for the availability for all co-authors, but just if there was at least one ORCID present per article. It is important to conduct further analysis to confirm whether the author names and ORCIDs are accurately matched, given the observed phenomenon of a single ORCID being erroneously attributed to tens of thousands of articles. If this is not the case then this may demonstrate the ongoing challenge of author name disambiguation in bibliographic databases.
As discussed in Sect. 2.1, some DOIs were found to have duplicate records assigned to them in each of the three databases, requiring us to deselect the 39,481 records from 2015-2022 which lay in the intersection of the three databases and had more than one record associated with the DOI in one of the databases from our Shared Corpus. A more detailed examination of duplicate DOIs may be merited, in particular with respect to Scopus (as demonstrated by Table 2 and agreeing with findings in reported in Vieira and Leta (2024) on Scopus.) Similarly investigations into the distribution of duplicated, missing or incorrect DOI by record type between each database may be recommended for future research.
Therefore as highlighted in Vieira and Leta (2024) and Nikolić et al. (2024), where procedures for merging and deduplicating bibliographic datasets are explored, we note that DOIs are not perfect identifiers for combining datasets and often, due to duplicated, missing or incorrect DOIs, lead to the requirement for more demanding title and author name comparisons for generation of better quality datasets for future study.
Since the data collection effort of this study, at least 151 million references have been added to OpenAlex, as of the May snapshot of OpenAlex reportedly expanding the number of references by compared to the April snapshot. This and other ongoing efforts to improve data quality and expand data availability in OpenAlex indicate the need for future similar studies, and highlight the volatility of the database.
Funding Open Access funding enabled and organized by Projekt DEAL. This work was funded by the Federal Ministry of Education and Research via funding numbers: 16WIK2301B / 16WIK2301E, The OpenBib project (Schmidt et al.,2024). We acknowledge support by Federal Ministry of Education and Research, Germany under grant number 01PQ17001, the Competence Network for Bibliometrics. Jack Culbert and Philipp Mayr received additional funding by the European Union under the Horizon Europe grant OMINO – Overcoming Multilevel INformation Overload under grant number 101086321 (Hołyst et al.,2024).

Declarations

Conflict of interest Philipp Mayr, the co-author of this paper, has a conflict of interest because he serves on the editorial board of the journal Scientometrics.
Prior Public Release The findings presented in this paper were initially reported in a preprint on ArXiv (Culbert et al., 2024). That version includes a longer and more extensive version of the results.
Open Access This article is licensed under a Creative Commons Attribution 4.0 International License, which permits use, sharing, adaptation, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if changes were made. The images or other third party material in this article are included in the article’s Creative Commons licence, unless indicated otherwise in a credit line to the material. If material is not included in the article’s Creative Commons licence and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this licence, visit http://creativecommons.org/licenses/by/4.0/.

References

Alperin, J.P., Portenoy, J., Demes, K., Larivière, V., Haustein, S. (2024). An analysis of the suitability of OpenAlex for bibliometric analyses. arXiv. https://doi.org/10.48550/arXiv.2404.17663 https://arxiv. org/abs/2404.17663
Akbaritabar, A., Theile, T. & Zagheni, E. Bilateral flows and rates of international migration of scholars for 210 countries for the period 1998-2020. Scientific Data, 11, 816 (2024). https://doi.org/10.1038/ s41597-024-03655-9
Culbert, J., Hobert, A., Jahn, N., Haupka, N., Schmidt, M., Donner, P., & Mayr, P. (2024). Reference Coverage Analysis of OpenAlex compared to Web of Science and Scopus. arXiv. https://doi.org/10.48550/ arXiv.2401.16359. https://arxiv.org/abs/2401.16359v1
Céspedes, L., Kozlowski, D., Pradier, C., Sainte-Marie, M. H., Shokida, N. S., Benz, P., Poitras, C., Ninkov, A. B., Ebrahimy, S., Ayeni, P., Filali, S., Li, B., & Larivière, V. (2025). Evaluating the linguistic coverage of OpenAlex: An assessment of metadata accuracy and completeness. Journal of the Association for Information Science and Technology, 1-12. https://doi.org/10.1002/asi. 24979
Delgado-Quirós, L., & Ortega, J. L. (2024). Completeness degree of publication metadata in eight freeaccess scholarly databases. Quantitative Science Studies, 5(1), 31-49. https://doi.org/10.1162/qss_a_ 00286
Else, H. (2018). How Unpaywall is transforming open science. Nature, 560(7718), 290-291. https://doi.org/ 10.1038/d41586-018-05968-3
Färber, M., Braun, C., Popovic, N., Saier, T., & Noullet, K. (2022). Which publications’ metadata are in which bibliographic databases? a system for exploration. In: BIR 2022: 12th International Workshop on Bibliometric-enhanced Information Retrieval at ECIR 2022. CEUR Workshop Proceedings, vol. 3230, pp. 39-44. https://ceur-ws.org/Vol-3230/paper-06.pdf
Franceschini, F., Maisano, D., & Mastrogiacomo, L. (2015). Errors in DOI indexing by bibliometric databases. Scientometrics, 102, 2181-2186. https://doi.org/10.1007/s11192-014-1503-4
Haak, L. L., Fenner, M., Paglione, L., Pentz, E., & Ratner, H. (2012). ORCID: A system to uniquely identify researchers. Learned Publishing, 25(4), 259-264. https://doi.org/10.1087/20120404
Hołyst, J. A., Mayr, P., Thelwall, M., Frommholz, I., Havlin, S., Sela, A., Kenett, Y. N., Helic, D., Rehar, A., Maček, S. R., Kazienko, P., Kajdanowicz, T., Biecek, P., Szymanski, B. K., & Sienkiewicz, J. (2024). Protect our environment from information overload. Nature Human Behaviour. https://doi.org/10. 1038/s41562-024-01833-8
Hauschke, C., & Nazarovets, S. (2025). (Non-)retracted academic papers in OpenAlex. Journal of Information Science, O(0). https://doi.org/10.1177/01655515251322478
Kramer, B., & Jonge, H. (2022). The availability and completeness of open funder metadata: Case study for publications funded by the Dutch Research Council. Quantitative Science Studies, 3(3), 583-599. https://doi.org/10.1162/qss_a_00210
Martín-Martín, A., Orduna-Malea, E., Thelwall, M., & Delgado López-Cózar, E. (2018). Google Scholar, Web of Science, and Scopus: A systematic comparison of citations in 252 subject categories. Journal of Informetrics 12(4), 1160-1177. https://doi.org/10.1016/j.joi.2018.09.002
Martín-Martín, A., Thelwall, M., Orduna-Malea, E., & Delgado López-Cózar, E. (2021). Google Scholar, Microsoft Academic, Scopus, Dimensions, Web of Science, and OpenCitations’ COCI: A multidisciplinary comparison of coverage via citations. Scientometrics, 126(1), 871-906. https://doi.org/10. 1007/s11192-020-03690-4
Moed, H.F. (2005) Citation Analysis in Research Evaluation. Information Science and Knowledge Management, vol. 9. Springer, Berlin/Heidelberg. https://doi.org/10.1007/1-4020-3714-7
Mugabushaka, A.-M., Eck, N. J., & Waltman, L. (2022). Funding covid-19 research: Insights from an exploratory analysis using open data infrastructures. Quantitative Science Studies, 3(3), 560-582. https://doi.org/10.1162/qss_a_00212
Nikolić, D., Ivanović, D. & Ivanović, L. An open-source tool for merging data from multiple citation databases. Scientometrics, 129, 4573-4595 (2024). https://doi.org/10.1007/s11192-024-05076-2
Olensky, M., Schmidt, M., & Eck, N. J. (2016). Evaluation of the citation matching algorithms of CWTS and iFQ in comparison to the Web of science. Journal of the Association for Information Science and Technology, 67(10), 2550-2564. https://doi.org/10.1002/asi. 23590
Priem, J., Piwowar, H., & Orr, R. (2022). OpenAlex: A fully-open index of scholarly works, authors, venues, institutions, and concepts. In: 26th International Conference on Science, Technology and Innovation Indicators (STI 2022). Zenodo. https://doi.org/10.5281/zenodo. 6936226
Raan, A. (2019). Measuring science: Basic principles and application of advanced bibliometrics. In: Glänzel, W., Moed, H.F., Schmoch, U., Thelwall, M. (eds.) Springer Handbook of Science and Technology Indicators, pp. 237-280. Springer, Berlin/Heidelberg. https://doi.org/10.1007/978-3-030-02511-3_10
Simard, M.-A., Basson, I., Hare, M., Lariviere, V., & Mongeon, P. (2024). The open access coverage of OpenAlex, Scopus and Web of Science. arXiv. https://doi.org/10.48550/arXiv.2404.01985. http://arxiv. org/abs/2404.01985
Scheidsteger, T., & Haunschild, R. (2022). Comparison of metadata with relevance for bibliometrics between Microsoft Academic Graph and OpenAlex until 2020. In: 26th International Conference on Science, Technology and Innovation Indicators (STI 2022). Zenodo. https://doi.org/10.5281/zenodo. 6975102
Schmidt, M., Rimmert, C., Stephen, D., Lenke, C., Donner, P., Gärtner, S., Taubert, N., Bausenwein, T., & Stahlschmidt, S. (2024). The Data Infrastructure of the German Kompetenznetzwerk Bibliometrie: An Enabling Intermediary between Raw Data and Analysis. Zenodo. https://doi.org/10.5281/zenodo. 13932928
Singh, V. K., Singh, P., Karmakar, M., Leta, J., & Mayr, P. (2021). The journal coverage of Web of Science, Scopus and Dimensions: A comparative analysis. Scientometrics, 126(6), 5113-5142. https://doi.org/ 10.1007/s11192-021-03948-5
van Eck, N. J., & Waltman, L. (2022). Crossref as a source of open bibliographic metadata. https://doi.org/ 10.31222/osf.io/smxe5
Velez-Estevez, A., Perez, I. J., García-Sánchez, P., Moral-Munoz, J. A., & Cobo, M. J. (2023). New trends in bibliometric APIs: A comparative analysis. Information Processing Management, 60(4), 103385. https://doi.org/10.1016/j.ipm.2023.103385
Vieira, G.A., Leta, J. biblioverlap: an R package for document matching across bibliographic datasets. Scientometrics, 129, 4513-4527 (2024). https://doi.org/10.1007/s11192-024-05065-5
Visser, M., Eck, N. J., & Waltman, L. (2021). Large-scale comparison of bibliographic data sources: Scopus, web of science, dimensions, crossref, and microsoft academic. Quantitative Science Studies, 2(1), 20-41. https://doi.org/10.1162/qss_a_00112
Zhang, L., Cao, Z., Shang, Y. et al. Missing institutions in OpenAlex: possible reasons, implications, and solutions. Scientometrics, 129, 5869-5891 (2024). https://doi.org/10.1007/s11192-023-04923-y
Publisher’s Note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.

  1. Jack H. Culbert
    jack.culbert@gesis.org
    1 GESIS – Leibniz Institute for the Social Sciences, Cologne, Germany
    2 Göttingen State and University Library, University of Göttingen, Göttingen, Germany
    German Center for Higher Education Research and Science Studies (DZHW), Berlin, Germany