تحليل تغطية بيانات الببليوغرافيا والاستشهادات لجامعة بولونيا في مجموعات OpenCitations
Analysing the coverage of the University of Bologna’s bibliographic and citation metadata in OpenCitations collections

المجلة: Scientometrics، المجلد: 131، العدد: 2
DOI: https://doi.org/10.1007/s11192-026-05540-1
تاريخ النشر: 2026-02-01
المؤلف: Erica Andreose وآخرون
الموضوع الرئيسي: النشر الأكاديمي والوصول المفتوح

نظرة عامة

تستقصي هذه الدراسة تغطية بيانات النشر من نظام معلومات البحث الحالي بجامعة بولونيا (UNIBO IRIS) ضمن إطار OpenCitations. تقوم التحليل بت quantifying نسبة منشورات UNIBO IRIS المضمنة في OpenCitations، وتقييم أنواع المنشورات، وتقييم روابط الاقتباس المرتبطة بهذه المنشورات. تشير النتائج إلى أن 36% فقط من منشورات IRIS ممثلة في OpenCitations، مع وجود أعلى تغطية للمقالات العلمية. تم تحديد ما مجموعه 5,129,406 روابط اقتباس لمنشورات UNIBO IRIS، ووجدت مقاييس التغطية أنها قابلة للمقارنة مع تلك الخاصة بقواعد البيانات المملوكة مثل Scopus وWeb of Science.

تخلص الدراسة إلى أن جزءًا كبيرًا من الموارد الببليوغرافية لـ IRIS مضمن في OpenCitations، مما يشير إلى إمكانية أن تحل أنظمة المعلومات البحثية المفتوحة محل الأنظمة المغلقة، لا سيما داخل جامعة بولونيا. يُقترح إجراء أبحاث مستقبلية لاستكشاف كفاية المعلومات البحثية المفتوحة للانتقال من الأنظمة المغلقة إلى المفتوحة، كما هو متصور في إعلان برشلونة. يخطط المؤلفون لتعزيز إمكانية الوصول إلى مجموعة بيانات UNIBO IRIS وتوافقها مع OpenCitations، بينما يتعاونون أيضًا مع مؤسسات أخرى لتوسيع تحليل التغطية الببليوغرافية عبر مختلف التخصصات الأكاديمية. يهدف هذا الجهد المستمر إلى دعم أهداف العلوم المفتوحة وتحسين توفر البيانات الوصفية للمجتمع الأكاديمي.

مقدمة

تؤكد مقدمة هذه الورقة البحثية على الدور الحاسم للمعلومات البحثية المفتوحة في تعزيز الشفافية وتسهيل اتخاذ القرارات الاستراتيجية داخل المؤسسات البحثية ومنظمات التمويل. تبرز الدعوة المتزايدة للوصول المفتوح إلى بيانات البحث، المدفوعة بمبادرات مثل توصية اليونسكو بشأن العلوم المفتوحة وإعلان برشلونة حول المعلومات البحثية المفتوحة. يحدد الإعلان أربعة التزامات رئيسية: الانفتاح، التعاون، الاستدامة، والانتقال، بهدف تعزيز استخدام المعلومات البحثية المفتوحة بدلاً من الأنظمة المملوكة.

تركز الورقة بشكل خاص على جهود جامعة بولونيا للتوافق مع هذه الالتزامات من خلال تحليل تغطية منشوراتها في OpenCitations، مزود المعلومات البحثية المفتوحة. تتناول أسئلة البحث مدى تمثيل منشورات UNIBO وروابط الاقتباس ضمن OpenCitations. تؤكد الدراسة على ضرورة الوصول إلى البيانات الوصفية الببليوغرافية بموجب تراخيص مفتوحة واستخدام مصادر موثوقة لضمان الامتثال لمبادئ الإعلان. تهدف النتائج إلى تقديم رؤى حول الحالة الحالية لاعتماد المعلومات البحثية المفتوحة في UNIBO وإبلاغ المبادرات المستقبلية لتحسين جودة البيانات وتغطيتها بما يتماشى مع أهداف العلوم المفتوحة.

الطرق

في قسم الطرق، يحدد المؤلفون المواد والبروتوكولات المستخدمة في تحليلهم، مع التأكيد على توفر جميع المواد المنتجة (Zilli et al., 2025a, b, c, d, e, f, g) عبر الإنترنت لتسهيل إعادة الإنتاج. يتم تقديم مزيد من المعلومات حول هذه الموارد في “بيان توفر البيانات”.

تتضمن المنهجية التي تم تطويرها لمعالجة أسئلة البحث تحليلًا مقارنًا للبيانات الببليوغرافية من IRIS وOpenCitations، باستخدام مجموعتين من البيانات كمدخلات. يتم توضيح هذه العملية في مخطط سير العمل (الشكل 3)، الذي يحدد خمس خطوات متميزة، يتم إدارتها بواسطة أداة محددة تمثلها دائرة مع أيقونة محرك. يقدم المخطط أيضًا النتائج العددية المرتبطة بكل خطوة. يتم تقديم شرح مفصل خطوة بخطوة لسير العمل، يوضح العمليات والمخرجات في كل مرحلة من مراحل التحليل.

النتائج

في هذا القسم، نقدم النتائج الرئيسية من تحليل أربع مجموعات بيانات تم إنشاؤها من خلال منهجيتنا: Iris No ID، Iris in Meta، Iris Not in Meta، وIris in Index. تعتبر هذه النتائج حاسمة في معالجة أسئلة البحث RQ1 وRQ2 الموضحة في المقدمة. يكشف تحليل هذه المجموعات عن رؤى مهمة تساهم في فهمنا للظواهر الأساسية وتدعم الأهداف العامة للدراسة.

النقاش

في هذا القسم، يناقش المؤلفون المنهجية والنتائج المتعلقة بإعادة استخدام البيانات الببليوغرافية من مصدرين رئيسيين: نظام معلومات البحث المؤسسي (IRIS) بجامعة بولونيا وبنية OpenCitations. يعمل نظام IRIS، الذي تم تطويره بواسطة CINECA، كمستودع شامل للبيانات الوصفية الببليوغرافية للنتائج العلمية من الجامعات الإيطالية، بينما يوفر OpenCitations فهرسًا عالميًا للبيانات الببليوغرافية وبيانات الاقتباس. يكشف التحليل أنه من بين 402,505 سجلات ببليوغرافية (BRs) في مجموعة بيانات IRIS، تم تضمين 145,143 (36%) في OpenCitations Meta، مما يشير إلى تداخل كبير ولكنه غير مكتمل بين المجموعتين من البيانات.

يبرز المؤلفون التحديات في تحقيق التكامل الكامل، مشيرين إلى أن العديد من إدخالات IRIS تفتقر إلى معرفات دائمة (PIDs) مثل DOIs، ISBNS، أو PMIDs، والتي تعتبر ضرورية للربط بـ OpenCitations. على وجه التحديد، 34.5% من سجلات IRIS لا تمتلك أي من هذه المعرفات، مع انتشار ملحوظ للمعرفات المفقودة في المنشورات من 2004 إلى 2008، على الأرجح بسبب الانتقال من نظام ببليوغرافي قديم. تحدد الدراسة أيضًا مشكلات التكرار داخل مجموعة بيانات IRIS، حيث قد تشترك إدخالات متعددة في نفس PID، مما يعقد مشهد البيانات. تؤكد النتائج على الحاجة إلى تحسين إدارة البيانات الوصفية واستراتيجيات التفريق لتعزيز التوافق والموثوقية للبيانات الببليوغرافية عبر الأنظمة.

Journal: Scientometrics, Volume: 131, Issue: 2
DOI: https://doi.org/10.1007/s11192-026-05540-1
Publication Date: 2026-02-01
Author(s): Erica Andreose et al.
Primary Topic: Academic Publishing and Open Access

Overview

This study investigates the coverage of publication metadata from the University of Bologna’s Current Research Information System (UNIBO IRIS) within the OpenCitations framework. The analysis quantifies the proportion of UNIBO IRIS publications included in OpenCitations, assesses the types of publications, and evaluates the citation links associated with these publications. The findings indicate that only 36% of IRIS publications are represented in OpenCitations, with journal articles having the highest coverage. A total of 5,129,406 citation links to UNIBO IRIS publications were identified, and the coverage metrics were found to be comparable to those of proprietary databases like Scopus and Web of Science.

The study concludes that a significant portion of IRIS bibliographic resources is included in OpenCitations, suggesting the potential for open research information systems to replace closed systems, particularly within the University of Bologna. Future research is proposed to explore the sufficiency of open research information for transitioning from closed to open systems, as envisioned by the Barcelona Declaration. The authors plan to enhance the UNIBO IRIS dataset’s accessibility and interoperability with OpenCitations, while also collaborating with other institutions to expand the analysis of bibliographic coverage across different scholarly disciplines. This ongoing effort aims to support the goals of open science and improve the availability of metadata for the academic community.

Introduction

The introduction of this research paper emphasizes the critical role of open research information in enhancing transparency and facilitating strategic decision-making within research institutions and funding organizations. It highlights the growing advocacy for open access to research metadata, driven by initiatives such as UNESCO’s Recommendation on Open Science and the Barcelona Declaration on Open Research Information. The Declaration outlines four key commitments: openness, collaboration, sustainability, and transition, aimed at promoting the use of open research information over proprietary systems.

The paper specifically focuses on the University of Bologna’s efforts to align with these commitments by analyzing the coverage of its publications in OpenCitations, an open research information provider. The research questions address the extent of UNIBO’s publication representation and citation links within OpenCitations. The study underscores the necessity of accessing bibliographic metadata under open licenses and utilizing authoritative sources to ensure compliance with the Declaration’s principles. The findings aim to provide insights into the current state of open research information adoption at UNIBO and to inform future initiatives for enhancing data quality and coverage in alignment with open science objectives.

Methods

In the Methods section, the authors outline the materials and protocols utilized for their analysis, emphasizing the availability of all produced materials (Zilli et al., 2025a, b, c, d, e, f, g) online to facilitate reproducibility. Further information regarding these resources is provided in the “Data Availability Statement.”

The methodology developed to address the research questions involves a comparative analysis of bibliographic data from IRIS and OpenCitations, utilizing two datasets as inputs. This process is illustrated in a workflow diagram (Fig. 3), which delineates five distinct steps, each managed by a specific tool represented by a circle with an engine icon. The diagram also presents the numerical outcomes associated with each step. A detailed, step-by-step explanation of the workflow is provided, outlining the processes and outputs at each stage of the analysis.

Results

In this section, we present the key findings from the analysis of four datasets generated through our methodology: Iris No ID, Iris in Meta, Iris Not in Meta, and Iris in Index. These results are pivotal in addressing the research questions RQ1 and RQ2 outlined in the Introduction. The analysis of these datasets reveals significant insights that contribute to our understanding of the underlying phenomena and support the overall objectives of the study.

Discussion

In this section, the authors discuss the methodology and findings related to the reuse of bibliographic data from two primary sources: the Institutional Research Information System (IRIS) of the University of Bologna and the OpenCitations infrastructure. The IRIS system, developed by CINECA, serves as a comprehensive repository for bibliographic metadata of scientific outputs from Italian universities, while OpenCitations provides a global index of bibliographic and citation data. The analysis reveals that out of 402,505 bibliographic records (BRs) in the IRIS dataset, 145,143 (36%) are included in OpenCitations Meta, indicating a significant but incomplete overlap between the two datasets.

The authors highlight the challenges in achieving full integration, noting that many IRIS entries lack persistent identifiers (PIDs) such as DOIs, ISBNS, or PMIDs, which are crucial for linking to OpenCitations. Specifically, 34.5% of the IRIS records do not possess any of these identifiers, with a notable prevalence of missing PIDs in publications from 2004 to 2008, likely due to a transition from an older bibliographic system. The study also identifies issues of duplication within the IRIS dataset, where multiple entries may share the same PID, complicating the data landscape. The findings underscore the need for improved metadata management and disambiguation strategies to enhance the interoperability and reliability of bibliographic data across systems.