DOI: https://doi.org/10.1007/s11192-023-04894-0
تاريخ النشر: 2024-01-08
المؤلف: Chun‐Kai Huang وآخرون
الموضوع الرئيسي: البحث في علم القياسات العلمية والبيبلومetrics
نظرة عامة
تبحث ورقة البحث في تأثير الوصول المفتوح (OA) على تنوع مصادر الاقتباس لمخرجات البحث، مع معالجة فجوة معرفية كبيرة تتعلق بمن يستخدم مواد الوصول المفتوح وتوزيعهم الجغرافي. من خلال تحليل البيانات الببليوغرافية من 2010 إلى 2019، وجد المؤلفون علاقة قوية بين حالة الوصول المفتوح ونطاق أوسع من مصادر الاقتباس، بما في ذلك المؤسسات والدول والمناطق الفرعية والمناطق وحقول البحث. من الجدير بالذكر أن الوصول المفتوح المقدم من خلال المستودعات التخصصية أو المؤسسية أظهر تأثيرًا أكثر وضوحًا مقارنةً بتلك التي تأتي من منصات الناشرين. تسهم هذه الدراسة في فهم دور الوصول المفتوح في تعزيز إمكانية الوصول إلى البحث وتظهر إمكانيته في جذب جمهور أكثر تنوعًا.
في الختام، تتماشى النتائج مع المبادئ الموضحة في مبادرة بودابست للوصول المفتوح، مما يبرز الوصول المفتوح كسلعة عامة تعزز تبادل المعرفة العالمية وتسريع البحث. على الرغم من أن قياس استخدام البحث من خلال الاقتباسات له قيوده، تبرز هذه الدراسة قيمة فحص تنوع الاقتباسات كبديل. من خلال تحويل التركيز من مجرد عدد الاقتباسات إلى تنوع مصادر الاقتباس، يكشف المؤلفون أن مخرجات الوصول المفتوح تصل إلى مجموعة أوسع من المستخدمين، مما يوفر رؤى يمكن أن تُعلم السياسات التي تهدف إلى تعزيز تنفيذ الوصول المفتوح وتعزيز الوصول العادل إلى البحث في جميع أنحاء العالم.
مقدمة
تناقش مقدمة هذه الورقة البحثية التأثير التحويلي لحركة الوصول المفتوح (OA) على إمكانية الوصول إلى المخرجات الأكاديمية. وتبرز زيادة كبيرة في نسبة الأبحاث المتاحة، من حوالي 27% في 2011 إلى أكثر من 49% في 2020. على الرغم من هذا التقدم، تشير الورقة إلى التحديات المستمرة في إثبات الفوائد الملموسة للوصول المفتوح، خاصة في إقامة علاقة سببية بين الوصول المفتوح وزيادة الاستخدام أو الاقتباس لمخرجات البحث. أشارت دراسات متنوعة إلى وجود علاقة بين الوصول المفتوح وزيادة عدد الاقتباسات، ومع ذلك، تعقد العوامل المربكة هذه الادعاءات.
يجادل المؤلفون بأن التركيز التقليدي على مقاييس الاقتباس لا يعكس بشكل كافٍ الأهداف الأساسية للوصول المفتوح، والتي تشمل توسيع الوصول لمستخدمي البحث المتنوعين. يقترحون نهجًا جديدًا لتقييم تأثير الوصول المفتوح من خلال فحص تنوع المستخدمين الذين يصلون إلى المحتوى الأكاديمي، مستفيدين من التقدمات الحديثة في معالجة البيانات لتحليل الانتماءات والتوزيع الجغرافي للمؤلفين المقتبسين. يهدف هذا النهج، المسمى “تنوع الاقتباس”، إلى تقديم فهم أكثر شمولاً لتأثير الوصول المفتوح على إمكانية الوصول إلى البحث واستخدامه.
الطرق
في هذا القسم، يحدد المؤلفون منهجية تحليلهم، مع التركيز على تنوع الانتماءات المرتبطة بالاقتباسات لمخرجات الأكاديمية. تُعرف وحدة التحليل على أنها رابط الانتماء أو مجال البحث المرتبط بالمراجع الواردة إلى مخرج معين. لقياس التنوع، يستخدم المؤلفون مقياسين: إنتروبيا شانون ومؤشر جيني-سيمبسون، اللذان يقيسان عدم اليقين في تخصيص المجموعة واحتمالية انتماء رابطين إلى نفس المجموعة، على التوالي. يتم تطبيق هذه المقاييس على الانتماءات المجمعة حسب المؤسسات والدول والمناطق الفرعية والمناطق وحقول البحث، المشار إليها باسم “روابط المخرج إلى الفاعل المقتبس”.
يتم إجراء التحليل باستخدام استعلامات SQL ضمن إطار تقارير آلي في بايثون، معالجة البيانات من مجموعة بيانات كبيرة تضم 37 مليون مخرج و424 مليون رابط اقتباس. يتم استبعاد المخرجات التي تحتوي على أقل من اقتباسين من حسابات التنوع، مما يؤدي إلى التركيز على 19 مليون مخرج. يؤكد المؤلفون على أهمية هذا التصفية لقياس التنوع بشكل ذي مغزى ويقدمون تفاصيل عن خط أنابيب معالجة البيانات، والذي يتضمن تخزين النتائج في BigQuery من Google وتوليد ملفات CSV محلية لمزيد من التحليل باستخدام مكتبة Pandas. بالإضافة إلى ذلك، تصنف الدراسة المخرجات إلى أربعة أنواع—OPEN وGOLD وGREEN وCLOSED—وتقارن تنوع الاقتباس عبر هذه الفئات، مستخدمة النسب المئوية والتغيرات في إجمالي الاقتباسات لتقييم تأثير الوصول المفتوح على تنوع الاقتباس عبر مناطق مختلفة.
النتائج
في هذا القسم، يقيم المؤلفون قوة نتائجهم من خلال إجراء تحليلات عبر مجموعات بيانات متنوعة، بما في ذلك التغيرات الزمنية، مقاييس التنوع المتنوعة، عدد الاقتباسات، فئات الوصول المفتوح (OA)، والانتماءات الجغرافية. يسمح هذا النهج الشامل بإجراء فحص دقيق للنتائج، مما يضمن أنها ليست مرتبطة بطريقة واحدة فقط لتصنيف البيانات. يتم تلخيص النتائج الرئيسية في النص، بينما تتوفر النتائج التفصيلية في المواد التكميلية، مما يعزز من صحة وموثوقية استنتاجات الدراسة.
المناقشة
تسلط قسم المناقشة في ورقة البحث الضوء على الأدبيات المحدودة الموجودة حول العلاقة بين الوصول المفتوح (OA) وتنوع الاقتباس، مع الإشارة إلى دراسات رئيسية تشير إلى أن مخرجات الوصول المفتوح تميل إلى تلقي اقتباسات أكثر تنوعًا مقارنةً بالمخرجات المغلقة. وجدت دراسة Young وBrandes (2020) أن مقالات الوصول المفتوح كانت لها معدل اقتباس بين التخصصات أعلى، بينما أظهرت دراسة Neylon وآخرون (2021) أن الكتب المفتوحة جذبت جمهورًا أوسع جغرافيًا. تهدف الدراسة الحالية إلى سد الفجوة في فهم كيفية تأثير الوصول المفتوح على تنوع الاقتباس من خلال تحليل الانتماءات الجغرافية للمؤلفين وحقول البحث للمخرجات المقتبسة، مستفيدة من مجموعة بيانات تضم 19 مليون مخرج بحث و420 مليون رابط اقتباس.
تكشف النتائج عن ميزة مستمرة لمخرجات الوصول المفتوح من حيث تنوع الاقتباس عبر مقاييس مختلفة وسنوات النشر. على وجه الخصوص، جذبت مخرجات الوصول المفتوح اقتباسات من مجموعة أوسع من المؤسسات والمناطق الجغرافية، مع ملاحظات ملحوظة بناءً على نوع الوصول المفتوح (مثل GREEN مقابل GOLD). تشير الدراسة أيضًا إلى أنه بينما تستفيد مخرجات الوصول المفتوح عمومًا من زيادة تنوع الاقتباس، فإن مراكز البحث التقليدية ذات السمعة الجيدة تستفيد أكثر من هذه الميزة، مما يشير إلى تفاعل معقد بين إمكانية الوصول إلى الوصول المفتوح وسمعة المؤسسات. يؤكد المؤلفون على الحاجة إلى مزيد من البحث لاستكشاف الآليات السببية وراء هذه العلاقات والآثار المترتبة على ممارسات النشر الأكاديمي.
القيود
في هذا القسم، يعترف المؤلفون بعدة قيود تتعلق بالبيانات المستخدمة في تحليلهم. أولاً، المخرجات البحثية التي تم تحليلها هي فقط تلك التي تم تعيين معرفات الكائنات الرقمية (DOIs) لها بواسطة Crossref، مما قد يؤدي إلى تغطية غير كاملة، خاصة في مناطق مثل آسيا وأفريقيا جنوب الصحراء الكبرى، وكذلك في مجالات مثل الفن والعلوم السياسية حيث استخدام DOI أقل شيوعًا. بالإضافة إلى ذلك، قد يتأثر تصنيف المخرجات البحثية إلى مجالات بالاتجاهات الثقافية والمنهجية المتطورة، مما يؤدي إلى احتمالية حدوث أخطاء في التخصيص بمرور الوقت.
علاوة على ذلك، يشير المؤلفون إلى أن تحليلهم يعتمد على بيانات مستخرجة من Microsoft Academic Graph (MAG)، التي استخدمت التعلم الآلي لتصنيف المخرجات البحثية في هيكل هرمي من المفاهيم. نظرًا لأن MAG قد تم إيقافه، سيتطلب العمل المستقبلي استخدام مصادر بيانات بديلة، مثل OpenAlex. يناقش المؤلفون أيضًا تعريفهم لتنوع الاقتباس، الذي يعتمد على توزيع “روابط المخرج إلى الفاعل المقتبس.” بينما قد يؤدي هذا النهج إلى تمثيل عدة انتماءات لمخرج مقتبس واحد، تشير فحوصاتهم للجودة إلى أن مثل هذه الحالات نادرة ولا تؤثر بشكل كبير على النتائج العامة. يعترف المؤلفون بإمكانية وجود تعريفات بديلة لتنوع الاقتباس التي يمكن أن تأخذ في الاعتبار هذه التعقيدات.
DOI: https://doi.org/10.1007/s11192-023-04894-0
Publication Date: 2024-01-08
Author(s): Chun‐Kai Huang et al.
Primary Topic: scientometrics and bibliometrics research
Overview
The research paper investigates the impact of open access (OA) on the diversity of citation sources for research outputs, addressing a significant knowledge gap regarding who utilizes OA materials and their geographical distribution. By analyzing bibliographic data from 2010 to 2019, the authors found a strong correlation between OA status and a broader range of citing sources, including institutions, countries, subregions, regions, and research fields. Notably, OA provided through disciplinary or institutional repositories exhibited a more pronounced effect compared to that from publisher platforms. This study contributes to the understanding of OA’s role in enhancing research accessibility and demonstrates its potential to engage a more diverse audience.
In conclusion, the findings align with the principles outlined in the Budapest Open Access Initiative, emphasizing OA as a public good that fosters global knowledge sharing and accelerates research. While the measurement of research usage through citations has its limitations, this study highlights the value of examining citation diversity as an alternative metric. By shifting focus from mere citation counts to the variety of citing sources, the authors reveal that OA outputs are reaching a wider array of users, thereby providing insights that can inform policies aimed at enhancing OA implementation and promoting equitable access to research across the globe.
Introduction
The introduction of this research paper discusses the transformative impact of the open access (OA) movement on the accessibility of scholarly outputs. It highlights a significant increase in the proportion of accessible research, from approximately 27% in 2011 to over 49% in 2020. Despite this progress, the paper notes the ongoing challenges in demonstrating the tangible benefits of OA, particularly in establishing a causal relationship between OA and increased usage or citation of research outputs. Various studies have indicated a correlation between OA and higher citation counts, yet confounding factors complicate these claims.
The authors argue that the traditional focus on citation metrics does not adequately capture the fundamental objectives of OA, which include broadening access for diverse research users. They propose a novel approach to evaluate OA’s impact by examining the diversity of users accessing scholarly content, leveraging recent advancements in data processing to analyze the affiliations and geographic distribution of citing authors. This approach, termed “citation diversity,” aims to provide a more comprehensive understanding of OA’s influence on research accessibility and utilization.
Methods
In this section, the authors outline their analysis methodology, focusing on the diversity of affiliations linked to citations of academic outputs. The unit of analysis is defined as the affiliation link or field of research associated with incoming references to a given output. To quantify diversity, the authors employ two metrics: Shannon Entropy and the Gini-Simpson Index, which measure uncertainty in group assignment and the probability of two links belonging to the same group, respectively. These metrics are applied to affiliations grouped by institutions, countries, subregions, regions, and fields of research, referred to as “output-to-citing actor” links.
The analysis is conducted using SQL queries within an automated reporting framework in Python, processing data from a large dataset comprising 37 million outputs and 424 million citation links. Outputs with fewer than two citations are excluded from diversity calculations, resulting in a focus on 19 million outputs. The authors emphasize the importance of this filtering for meaningful diversity measurement and detail the data processing pipeline, which includes storing results in Google’s BigQuery and generating local CSV files for further analysis using the Pandas library. Additionally, the study categorizes outputs into four types—OPEN, GOLD, GREEN, and CLOSED—and compares citation diversity across these categories, utilizing percentage ratios and changes in total citations to assess the impact of open access on citation diversity across various regions.
Results
In this section, the authors assess the robustness of their findings by conducting analyses across various data groupings, including temporal variations, diverse metrics of diversity, citation counts, open access (OA) categories, and geographic affiliations. This comprehensive approach allows for a thorough examination of the results, ensuring that they are not contingent on a single method of data categorization. The main findings are summarized in the text, while detailed results are available in the Supplementary material, reinforcing the validity and reliability of the study’s conclusions.
Discussion
The discussion section of the research paper highlights the limited existing literature on the relationship between open access (OA) and citation diversity, with key studies indicating that OA outputs tend to receive more diverse citations compared to closed outputs. Young and Brandes (2020) found that OA articles had a higher interdisciplinary citation rate, while Neylon et al. (2021) demonstrated that OA books attracted a broader audience geographically. The current study aims to fill the gap in understanding how OA influences citation diversity by analyzing the geographic affiliations of authors and the fields of research of citing outputs, utilizing a dataset comprising 19 million research outputs and 420 million citation links.
The findings reveal a consistent advantage for OA outputs in terms of citation diversity across various measures and publication years. Specifically, OA outputs attracted citations from a wider range of institutions and geographic regions, with notable differences observed based on the type of OA (e.g., GREEN vs. GOLD). The study also indicates that while OA outputs generally benefit from increased citation diversity, traditionally prestigious research centers gain the most from this advantage, suggesting a complex interplay between OA accessibility and institutional prestige. The authors emphasize the need for further research to explore the causal mechanisms behind these relationships and the implications for academic publishing practices.
Limitations
In this section, the authors acknowledge several limitations related to the data utilized in their analysis. Firstly, the research outputs analyzed are exclusively those assigned Digital Object Identifiers (DOIs) by Crossref, which may lead to incomplete coverage, particularly in regions such as Asia and Sub-Saharan Africa, as well as in fields like Art and Political Science where DOI usage is less prevalent. Additionally, the classification of research outputs into fields may be affected by evolving cultural and methodological trends, resulting in potential misassignments over time.
Furthermore, the authors note that their analysis relies on data extracted from the Microsoft Academic Graph (MAG), which employed machine learning to categorize research outputs into a hierarchical structure of concepts. Given that MAG has been discontinued, future work will necessitate the use of alternative data sources, such as OpenAlex. The authors also discuss their definition of citation diversity, which is based on the distribution of “output-to-citation actor links.” While this approach may lead to multiple affiliations being represented for a single citing output, their quality checks indicate that such instances are rare and do not significantly influence the overall findings. The authors acknowledge the potential for alternative definitions of citation diversity that could account for these complexities.
