تحديد الظهور بين التخصصات في علم العلوم: دمج تحليل الشبكات وBERTopic
Identifying interdisciplinary emergence in the science of science: combination of network analysis and BERTopic

المجلة: Humanities and Social Sciences Communications، المجلد: 11، العدد: 1
DOI: https://doi.org/10.1057/s41599-024-03044-y
تاريخ النشر: 2024-05-10
المؤلف: Keungoui Kim وآخرون
الموضوع الرئيسي: البحث في علم القياسات العلمية والبيبلومetrics

نظرة عامة

تتناول الدراسة النمو الأسي للإنتاج العلمي العالمي وضرورة فهم أعمق لكيفية تطور المجالات العلمية من خلال العمليات الناشئة. تستخدم تقنيات نمذجة الموضوعات المدمجة لتحليل بيانات نشر الأبحاث، تحديدًا من قاعدة بيانات مجموعة ويب أوف ساينس الأساسية، لتحديد مجالات جديدة من العلوم الناشئة المدفوعة بإعادة تركيب المعرفة. يتم إنشاء مجموعة بيانات لإنشاء خريطة عالمية لشبكة التداخل العلمي الفئوي، حيث يتميز البحث بين التخصصات بإدراج فئات علمية متعددة.

تشمل التحليل مقارنة شبكات التداخل عبر فترات زمنية مختلفة لملاحظة التحولات في التأثيرات بين التخصصات. يسهل استخدام نمذجة الموضوعات المدمجة التصنيف غير المراقب لهذه المجالات بين التخصصات. تكشف النتائج عن ظهور علوم عالمية بين التخصصات، ويتم إجراء تحقق نوعي لتتبع أصول هذه المجالات الناشئة. تختتم الدراسة بمناقشة حول التطبيقات المحتملة لهذه المنهجية في التعرف على تقارب المجالات العلمية العالمية بين التخصصات في البحث العلمي.

مقدمة

ت outlines مقدمة ورقة البحث تعقيدًا متزايدًا في إنتاجية البحث المدفوع بالعلوم وعمليات الابتكار، مع تسليط الضوء على زيادة كبيرة في الإنتاج العلمي، حيث تم نشر أكثر من 2.6 مليون مقال في عام 2018. على الرغم من هذا النمو، انخفضت الإنتاجية الناتجة عن الإنتاج العلمي، ويعزى ذلك إلى زيادة التخصص، وفرق البحث الأكبر، وارتفاع تكاليف البحث والتطوير. يؤكد المؤلفون على ضرورة فهم ديناميات إنتاج المعرفة العلمية، خاصة مع تلاشي الحدود التخصصية وأهمية البحث بين التخصصات في مواجهة التحديات العالمية.

تقترح الدراسة نهجًا جديدًا يستخدم تحليل الشبكات البيبليومترية ونمذجة الموضوعات المدمجة لتحديد مواضيع العلوم بين التخصصات الناشئة. من خلال استخدام الخوارزميات غير المراقبة، تهدف الدراسة إلى رسم تطور المعرفة العلمية وتوقع مسارات الابتكار الناتجة عن التقنيات المتقاربة. تشمل المنهجية تطوير مقياس جديد للمواضيع الناشئة بناءً على مركزية الشبكة، إلى جانب تطبيق BERTopic للحصول على رؤى حول الملفات الشخصية بين التخصصات. الهدف العام هو تعزيز مجموعة أدوات التحليل البيبليومتري وإلقاء الضوء على المشهد المتغير للاستفسار العلمي، مما يسهم في فهم أعمق لكيفية دفع البحث بين التخصصات للابتكار.

الطرق

تدمج منهجية هذه الدراسة تحليل الشبكات مع BERTopic، وهي تقنية نمذجة موضوعات تستخدم متجهات التضمين وc-TF-IDF لإنشاء مجموعات قابلة للتفسير من مجموعات بيانات نصية كبيرة. غالبًا ما تتجاهل الأساليب التقليدية المعتمدة على الترددات في نمذجة الموضوعات، مثل التحليل الدلالي الكامن وتخصيص ديريشليت الكامن، الفروق السياقية من خلال الاعتماد فقط على ترددات المصطلحات. بالمقابل، يسمح BERTopic بفهم أكثر دقة للمواضيع من خلال مراعاة المعلومات السياقية، مما يجعله مناسبًا لتحليل بيانات بيبليومترية واسعة، مثل قاعدة بيانات ويب أوف ساينس (WoS) التي تحتوي على أكثر من 63 مليون سجل نشر.

تنقسم عملية البحث إلى مرحلتين رئيسيتين: جمع البيانات والمعالجة المسبقة، تليها تحليل الشبكة ونمذجة الموضوعات. في البداية، تجمع الدراسة بيانات وصفية من قاعدة بيانات WoS، مع التركيز على المقالات العلمية لضمان الاتساق والجودة. يتم تصفية مجموعة البيانات لتشمل المنشورات بين التخصصات، والتي تُعرف بأنها تلك التي تمتد عبر عنوانين علميين على الأقل. تم تحديد ما مجموعه 1,194,332 منشورًا ذا صلة من 1,137 مجلة للتحليل. تتضمن المرحلة الأولى بناء شبكة علوم بين التخصصات لتحديد الموضوعات الفئوية ذات المركزية العالية، مما يشير إلى إمكانية إعادة تركيب المعرفة. تساعد هذه التحليلات الشبكية في اختيار مجالات العلوم الناشئة والمهيمنة لمزيد من الاستكشاف. في المرحلة الثانية، يتم استخدام BERTopic لاشتقاق مواضيع كامنة من مجموعة البيانات المصفاة، مع إجراء تحقق نوعي على المنشورات التمثيلية لتوضيح المواضيع ذات الاهتمام ضمن كل فئة بين التخصصات. تشير النتائج إلى اتجاه كبير نحو تقارب التكنولوجيا في العلوم بين التخصصات، وخاصة ضمن مجالات العلوم الفيزيائية والتكنولوجيا.

المناقشة

تسلط قسم المناقشة في ورقة البحث الضوء على تطور وأهمية رسم الخرائط العلمية في فهم ديناميات الأدبيات العلمية. تعمل خرائط العلوم كتمثيلات شبكية تسهل التعرف على المواضيع الناشئة، ومعدلات النمو، والاتجاهات بين التخصصات ضمن المجالات العلمية. تشير الأدبيات إلى تحول من تحليل الاقتباسات التقليدي إلى طرق أكثر تطورًا، بما في ذلك نمذجة الموضوعات وتحليل الشبكات، مما يسمح بفهم أكثر دقة لكيفية تطور التخصصات العلمية وتداخلها. من الجدير بالذكر أن ظهور مواضيع علمية جديدة غالبًا ما يتميز بجديدها، والذي يمكن تقييمه من خلال دمج مجاري البحث التي كانت متميزة سابقًا.

تؤكد الورقة على قيود الدراسات الحالية التي غالبًا ما تركز على الخرائط المحلية أو المجالات الدراسية المحددة مسبقًا، والتي قد تتجاهل السياق الأوسع بين التخصصات. من خلال استخدام تحليل شبكة تداخل الموضوعات الفئوية العلمية، يقترح المؤلفون طريقة لتحديد العلوم المهيمنة والمتنامية بناءً على مركزية المتجه الذاتية (EIG) ومعدل نموها (EIG.GR). يسمح هذا النهج بتمثيل أكثر دقة لتأثير وتطور المجالات العلمية، خاصة في السياقات بين التخصصات. تدعو الدراسة إلى استخدام خرائط العلوم العالمية للتخفيف من التحيز الكنسي وتعزيز اكتشاف المواضيع الناشئة، مما يسهم في فهم أعمق للطبيعة المترابطة للبحث العلمي المعاصر.

Journal: Humanities and Social Sciences Communications, Volume: 11, Issue: 1
DOI: https://doi.org/10.1057/s41599-024-03044-y
Publication Date: 2024-05-10
Author(s): Keungoui Kim et al.
Primary Topic: scientometrics and bibliometrics research

Overview

The study addresses the exponential growth of global scientific output and the necessity for a deeper understanding of how scientific fields evolve through emergent processes. It employs embedded topic modeling techniques to analyze research publication metadata, specifically from the Web of Science Core Collection database, to identify new areas of emerging science driven by knowledge recombination. A dataset is constructed to create a global map of a categorical scientific co-occurrence network, where interdisciplinary research fields are characterized by the inclusion of multiple scientific categories.

The analysis involves comparing co-occurrence networks across different time periods to observe shifts in interdisciplinary influences. The use of embedded topic modeling facilitates the unsupervised classification of these interdisciplinary domains. The findings reveal the emergence of global interdisciplinary sciences, and qualitative validation is performed to trace the origins of these emergent areas. The study concludes with a discussion on the potential applications of this methodology for recognizing the convergence of global interdisciplinary domains in scientific research.

Introduction

The introduction of the research paper outlines the increasing complexity of science-driven research productivity and innovation processes, highlighting a significant rise in scientific output, with over 2.6 million articles published in 2018. Despite this growth, the productivity derived from scientific output has declined, attributed to heightened specialization, larger research teams, and escalating research and development costs. The authors emphasize the necessity of understanding the dynamics of scientific knowledge production, particularly as disciplinary boundaries blur and interdisciplinary research becomes crucial for addressing global challenges.

The study proposes a novel approach utilizing bibliometric network analysis and embedded topic modeling to identify emerging interdisciplinary science topics. By employing unsupervised algorithms, the research aims to map the evolution of scientific knowledge and predict innovation trajectories stemming from converging technologies. The methodology includes the development of a new measure for emergent topics based on network centrality, alongside the application of BERTopic for insights into interdisciplinary profiles. The overarching goal is to enhance the bibliometric analysis toolkit and illuminate the changing landscape of scientific inquiry, ultimately contributing to a deeper understanding of how interdisciplinary research can drive innovation.

Methods

The methodology of this study integrates network analysis with BERTopic, a topic modeling technique that utilizes embedding vectors and c-TF-IDF to generate interpretable clusters from large text datasets. Traditional frequency-based approaches to topic modeling, such as Latent Semantic Analysis and Latent Dirichlet Allocation, often overlook contextual nuances by relying solely on term frequencies. In contrast, BERTopic allows for a more nuanced understanding of topics by considering contextual information, making it suitable for analyzing extensive bibliometric data, such as the Web of Science (WoS) database, which contains over 63 million publication records.

The research process is divided into two main stages: data collection and pre-processing, followed by network analysis and topic modeling. Initially, the study collects metadata from the WoS database, focusing on journal articles to ensure consistency and quality. The dataset is filtered to include interdisciplinary publications, defined as those spanning at least two scientific subheadings. A total of 1,194,332 relevant publications from 1,137 journals are identified for analysis. The first stage involves constructing an interdisciplinary science network to identify category-subjects with high centrality, indicating potential for knowledge recombination. This network analysis helps in selecting emerging and dominant science fields for further exploration. In the second stage, BERTopic is employed to derive latent topics from the filtered dataset, with qualitative validation conducted on representative publications to elucidate the topics of interest within each interdisciplinary category. The findings indicate a significant trend towards technology convergence in interdisciplinary science, particularly within the physical sciences and technology domains.

Discussion

The discussion section of the research paper highlights the evolution and significance of science mapping in understanding the dynamics of scientific literature. Science maps serve as network representations that facilitate the identification of emerging topics, growth rates, and interdisciplinary trends within scientific fields. The literature indicates a shift from traditional citation analysis to more sophisticated methods, including topic modeling and network analysis, which allow for a nuanced understanding of how scientific disciplines evolve and intersect. Notably, the emergence of new scientific topics is often characterized by their novelty, which can be assessed through the integration of previously distinct research streams.

The paper emphasizes the limitations of existing studies that often focus on local maps or predefined areas of study, which may overlook the broader interdisciplinary context. By employing a science category-subject co-occurrence network analysis, the authors propose a method to identify dominant and growing sciences based on Eigenvector centrality (EIG) and its growth rate (EIG.GR). This approach allows for a more accurate representation of the influence and evolution of scientific fields, particularly in interdisciplinary contexts. The study advocates for the use of global science maps to mitigate canonical bias and enhance the detection of emergent topics, ultimately contributing to a deeper understanding of the interconnected nature of contemporary scientific research.