DOI: https://doi.org/10.1108/jd-09-2023-0183
تاريخ النشر: 2024-04-18
المؤلف: Joseph Nockels وآخرون
الموضوع الرئيسي: إدارة الأرشيفات الرقمية والتقليدية
نظرة عامة
تبحث هذه الورقة في دور التعرف على النصوص المكتوبة بخط اليد (HTR) في معالجة المخطوطات من الصورة إلى النص، مع التأكيد على تداعياتها على المعرفة التاريخية وبيئات المعلومات المستقبلية. باستخدام طريقة نظرية مؤصلة (GTM)، حدد المؤلفون الفجوات في الأدبيات الموجودة وشاركوا في رسم خرائط مفاهيمية تكرارية من خلال ورش عمل تعاونية. يكشف تحليلهم، المدعوم بـ 120 نصًا منشورًا، أن HTR يعزز دقة النسخ وتنظيف مجموعات البيانات، مما يحسن الوصول إلى المواد التاريخية. ومع ذلك، تم الإشارة إلى تحديات مثل الاعتماد على عمليات الرقمنة، والتحيزات المحتملة، ومشكلات الإغفال الأرشيفي.
تؤكد النتائج على الإمكانات التحولية لـ HTR في إنشاء أرشيف رقمي يتطور باستمرار ويعيد تشكيل فهمنا للماضي. يقترح المؤلفون توصيات لأفضل الممارسات للباحثين والمؤسسات، مع تسليط الضوء على الحاجة إلى الوصول المفتوح، والاعتبارات الأخلاقية المتعلقة بحقوق الطبع والنشر، والأثر البيئي لتقنيات HTR. يدعون إلى نهج منظم لدمج أدوات الذكاء الاصطناعي في البحث التاريخي، مع التأكيد على أهمية الممارسات المتمحورة حول المستخدم والمسؤولية الأخلاقية في تطوير أنظمة HTR. تسهم هذه الأبحاث في النقاش المستمر حول تقاطع الذكاء الاصطناعي وعلوم البيانات والدراسات التاريخية، بهدف ضمان توافق التطورات المستقبلية مع قيم الشفافية وسهولة الوصول.
مقدمة
تتناول مقدمة هذه الورقة البحثية الإمكانات التحولية للتعرف على النصوص المكتوبة بخط اليد (HTR) في سياق تحليل الوثائق التاريخية. قبل HTR، كان تحويل المخطوطات إلى نصوص قابلة للقراءة آليًا مهمة مكلفة، لكن التقدم في HTR قد حسّن بشكل كبير من الدقة، مما أتاح وصولًا أوسع إلى المواد التاريخية. يستكشف المؤلفون كيف يمكن أن يولد HTR، عند دمجه مع جهود الرقمنة الجماعية للمعارض والمكتبات والأرشيفات والمتاحف (GLAM)، رؤى جديدة حول الماضي ويعيد تشكيل مشهد المعلومات. ينتقدون الفكرة السائدة بأن HTR سيعزز فقط سرعة وكفاءة الدراسات الأرشيفية، داعين إلى فهم أكثر دقة لتداعياته.
تسلط النتائج الضوء على أن HTR لا ينتج فقط نسخًا دقيقة، بل يعزز أيضًا مجموعات البيانات الموجودة، ويسهل الوصول إلى الأصوات المهمشة سابقًا، ويدعم رقمنة اللغات المهددة بالانقراض. ومع ذلك، يحدد المؤلفون التحديات، بما في ذلك اعتماد HTR على الرقمنة، والتحيزات المحتملة في مصادر البيانات، والاعتبارات القانونية والأخلاقية المحيطة بحقوق الطبع والنشر والخصوصية. يؤكدون على ضرورة التعاون بين المؤرخين وعلماء المعلومات وعلماء البيانات لمعالجة هذه التحديات وتعزيز مبادئ محو الأمية البيانات، والمشاركة، وإعادة الاستخدام. في النهاية، تؤكد الورقة على أهمية فهم تأثير HTR على بيئة المعلومات كجانب حاسم من التطورات التكنولوجية المستقبلية.
طرق البحث
في هذا القسم، يصف المؤلفون منهجيتهم لإجراء تحليل موضوعي لتأثير التعرف على النصوص التاريخية (HTR) ضمن البحث وبيئة المعلومات الأوسع. استخدموا طريقة نظرية مؤصلة (GTM) لتحديد الأسئلة غير المجابة بشأن تداعيات HTR المستقبلية بشكل منهجي، مستندين إلى الأدبيات الموجودة كقاعدة أدلة أساسية. وفقًا للمبادئ التي وضعها غلاسر وستراوس (1967)، اعتمد المؤلفون نهجًا بنائيًا لتحديد الفجوات في الأدبيات، مع التأكيد على “الحساسية النظرية” في تحليلهم (غلاسر وهولتون، 2004). شمل عملية الترميز مراحل تكرارية متعددة، culminating in thematic saturation, واستفادوا من مجموعة من 131 نصًا منشورًا، بما في ذلك أعمال أساسية مثل مقال روزنزوغ (2003) حول الحفظ الرقمي.
أجرى المؤلفون أخذ عينات هادفة وتحليل حالات سلبية، مما أدى إلى تحسين فهم تأثير HTR على المجتمع. نظموا مراجعهم باستخدام زوتيرو وشاركوا في تمرين رسم خرائط مفاهيمية تعاونية خلال ورش عمل في مركز باييس بجامعة إدنبرة. سهلت هذه العملية التكرارية، التي استمرت من مايو 2022 إلى أبريل 2023، تحديد وتأكيد الموضوعات الناشئة من خلال المناقشات الجماعية واستجواب الأدبيات. في النهاية، أنتج التحليل الموضوعي خارطة طريق شاملة لفهم تداعيات HTR على مدى العقد المقبل.
النتائج
تناقش قسم النتائج من الورقة البحثية التأثير التحولي للتعرف على النصوص المكتوبة بخط اليد (HTR) على بيئة المعلومات، وخاصة في البحث التاريخي والممارسات الأرشيفية. يعزز HTR بشكل كبير دقة النسخ من النصوص المكتوبة بخط اليد، متجاوزًا طرق التعرف على الأحرف البصرية التقليدية (OCR)، التي غالبًا ما تنتج مخرجات غير موثوقة. يسمح هذا التقدم للمؤرخين باستخدام مجموعات بيانات كبيرة مستمدة من الوثائق المكتوبة بخط اليد، مما يسهل اكتشاف رؤى جديدة حول السكان التاريخيين والروابط الثقافية. على سبيل المثال، أظهرت مشاريع مثل مبادرة النسخ الجماعية لأرشيف مدينة أمستردام إمكانية HTR في توليد موارد دقيقة وقابلة للبحث من مواد أرشيفية واسعة.
علاوة على ذلك، يمكّن HTR من تنظيف وتعزيز مجموعات البيانات الموجودة، وخاصة تلك التي تحتوي على نصوص معقدة، مما يحسن الوصول وقابلية الاستخدام. استخدمت مؤسسات مثل مكتبة مدينة فيينا والمكتبة الوطنية في فنلندا HTR بنجاح لإعادة معالجة الوثائق التاريخية، مما يبرز قدرتها على تعديل سير العمل الأرشيفي. يسلط القسم أيضًا الضوء على دور HTR في ديمقراطية الوصول إلى مجموعة أوسع من اللغات والمواد الشخصية، التي كانت غير مستغلة سابقًا بسبب تحديات النسخ. ومع ذلك، يحذر المؤلفون من أنه بينما يقدم HTR العديد من الفرص لإثراء البحث التاريخي، فإنه يثير أيضًا قضايا حاسمة تتعلق بأخلاقيات البيانات وحقوق الطبع والنشر وإمكانية تعزيز التحيزات الموجودة ضمن المجموعات الأرشيفية. يجب التعامل مع دمج HTR في البنى التحتية الرقمية بعناية مع مراعاة هذه التعقيدات لضمان الوصول العادل والتمثيل في السرديات التاريخية.
المناقشة
تسلط قسم المناقشة من الورقة الضوء على العلاقة المتطورة بين المكتبات والمجموعات والتقنيات الرقمية، وخاصة في سياق التعرف على النصوص المكتوبة بخط اليد (HTR). يؤكد على ضرورة رؤية الكائنات الرقمية كبيانات وأهمية تفكيك الصوامع التنظيمية التقليدية لتعزيز الوصول وقابلية استخدام المجموعات. يشير المؤلفون إلى أنه بينما يمتلك HTR إمكانات كبيرة لتحويل فهمنا للوثائق التاريخية ودمجها في أنظمة الذكاء الاصطناعي، فإن تداعياته على البحث واستخدام البيانات لا تزال غير مستكشفة بشكل كاف. تشمل الاعتبارات الرئيسية تطوير منهجيات البحث والأدوات ومجموعات البيانات التي تدعم HTR، بالإضافة إلى الأبعاد الأخلاقية لاستخدام الذكاء الاصطناعي لاستخراج البيانات من النصوص المكتوبة بخط اليد.
تقترح الورقة عدة ممارسات أفضل للجهات المعنية المشاركة في HTR، داعية إلى التعاون بين التخصصات في تطوير الأدوات وإنشاء مفردات وسير عمل مشتركة. تؤكد على الحاجة إلى التدريب المستمر لتزويد المستخدمين بالمهارات اللازمة للتنقل في تعقيدات HTR، بما في ذلك فهم قيوده وضمان دقة البيانات. علاوة على ذلك، تدعو إلى دمج مجموعات بيانات HTR في أنظمة إدارة المحتوى وزيادة محو الأمية المعلوماتية بين المستخدمين لتسهيل المشاركة المسؤولة مع هذه الموارد. يتناول المؤلفون أيضًا الآثار الأخلاقية لـ HTR، داعين المطورين إلى مراعاة الشمولية والشفافية في تطبيقاتهم، ويوصون بالالتزام بمبادئ FAIR وCARE لحوكمة البيانات. في النهاية، تؤكد الورقة على أهمية الاستراتيجيات الاستباقية لاستغلال إمكانات HTR مع تقليل المخاطر المرتبطة بنشره في المشهد الرقمي.
DOI: https://doi.org/10.1108/jd-09-2023-0183
Publication Date: 2024-04-18
Author(s): Joseph Nockels et al.
Primary Topic: Digital and Traditional Archives Management
Overview
This paper investigates the role of Handwritten Text Recognition (HTR) in processing image-to-text manuscripts, emphasizing its implications for historical knowledge and future information environments. Utilizing a Grounded Theory Method (GTM), the authors identified gaps in existing literature and engaged in iterative concept mapping through collaborative workshops. Their analysis, supported by 120 published texts, reveals that HTR enhances transcription accuracy and dataset cleaning, thereby improving access to historical materials. However, challenges such as reliance on digitization processes, potential biases, and issues of archival omission are noted.
The findings underscore the transformative potential of HTR in creating a continuously evolving digital archive that reshapes our understanding of the past. The authors propose best practice recommendations for researchers and institutions, highlighting the need for open access, ethical considerations regarding copyright, and the environmental impact of HTR technologies. They advocate for a structured approach to integrating AI tools in historical research, emphasizing the importance of user-centered practices and moral responsibility in developing HTR systems. This research contributes to the ongoing discourse on the intersection of AI, data science, and historical scholarship, aiming to ensure that future developments align with values of transparency and accessibility.
Introduction
The introduction of this research paper addresses the transformative potential of Handwritten Text Recognition (HTR) in the context of historical document analysis. Prior to HTR, converting manuscripts into machine-readable text was a costly endeavor, but advancements in HTR have significantly improved accuracy, enabling broader access to historical materials. The authors explore how HTR, when integrated with the mass digitization efforts of galleries, libraries, archives, and museums (GLAM), can generate new insights into the past and reshape the information landscape. They critique the prevailing notion that HTR will merely enhance the speed and efficiency of archival scholarship, advocating for a more nuanced understanding of its implications.
The findings highlight that HTR not only produces accurate transcriptions but also enhances existing datasets, facilitates access to previously marginalized voices, and supports the digitization of endangered languages. However, the authors identify challenges, including HTR’s reliance on digitization, potential biases in data sources, and legal and ethical considerations surrounding copyright and privacy. They emphasize the necessity for collaboration among historians, information scientists, and data scientists to address these challenges and promote data literacy, sharing, and reuse principles. Ultimately, the paper underscores the importance of understanding HTR’s impact on the information environment as a critical aspect of future technological developments.
Methods
In this section, the authors describe their methodology for conducting a thematic analysis of the impact of Historical Text Recognition (HTR) within research and the broader information environment. They employed a Grounded Theory Method (GTM) to systematically identify unanswered questions regarding HTR’s future implications, drawing upon existing literature as a foundational evidence base. Following the principles established by Glaser and Strauss (1967), the authors adopted a constructivist approach to identify gaps in the literature, emphasizing “theoretical sensitivity” in their analysis (Glaser and Holton, 2004). The coding process involved multiple iterative stages, culminating in thematic saturation, and utilized a corpus of 131 published texts, including foundational works such as Rosenzweig’s (2003) article on digital preservation.
The authors conducted purposive sampling and negative case analysis, refining their corpus to enhance the understanding of HTR’s societal impact. They organized their references using Zotero and engaged in a collaborative concept mapping exercise during workshops at the University of Edinburgh’s Bayes Centre. This iterative process, which spanned from May 2022 to April 2023, facilitated the identification and confirmation of emerging themes through group discussions and literature interrogation. Ultimately, the thematic analysis produced a comprehensive roadmap for understanding the implications of HTR over the next decade.
Results
The results section of the research paper discusses the transformative impact of Handwritten Text Recognition (HTR) on the information environment, particularly in historical research and archival practices. HTR significantly enhances the accuracy of transcriptions from handwritten texts, surpassing traditional Optical Character Recognition (OCR) methods, which often produce unreliable outputs. This advancement allows historians to utilize large datasets derived from handwritten documents, facilitating the discovery of new insights into historical populations and cultural connections. For instance, projects like the Amsterdam City Archives’ crowdsourced transcription initiative have demonstrated the potential of HTR to generate accurate, searchable resources from extensive archival materials.
Moreover, HTR enables the cleaning and enhancement of existing datasets, particularly those with complex scripts, thereby improving accessibility and usability. Institutions like the Vienna City Library and the National Library of Finland have successfully employed HTR to reprocess historical documents, showcasing its capability to revise archival workflows. The section also highlights HTR’s role in democratizing access to a broader range of languages and personal materials, which were previously underutilized due to transcription challenges. However, the authors caution that while HTR presents numerous opportunities for enriching historical research, it also raises critical issues regarding data ethics, copyright, and the potential reinforcement of existing biases within archival collections. The integration of HTR into digital infrastructures must be approached with careful consideration of these complexities to ensure equitable access and representation in historical narratives.
Discussion
The discussion section of the paper highlights the evolving relationship between libraries, collections, and digital technologies, particularly in the context of Handwritten Text Recognition (HTR). It emphasizes the necessity of viewing digital objects as data and the importance of dismantling traditional organizational silos to enhance accessibility and usability of collections. The authors note that while HTR has significant potential to transform our understanding of historical documents and their integration into AI systems, its implications for research and data utilization remain underexplored. Key considerations include the development of research methodologies, tools, and datasets that support HTR, as well as the ethical dimensions of using AI to derive data from handwritten texts.
The paper proposes several best practices for stakeholders involved in HTR, advocating for interdisciplinary collaboration in tool development and the establishment of shared vocabularies and workflows. It stresses the need for ongoing training to equip users with the skills necessary to navigate the complexities of HTR, including understanding its limitations and ensuring data accuracy. Furthermore, it calls for the integration of HTR datasets into content management systems and the cultivation of information literacy among users to facilitate responsible engagement with these resources. The authors also address the moral implications of HTR, urging developers to consider inclusivity and transparency in their applications, and recommending adherence to FAIR and CARE principles for data governance. Ultimately, the paper underscores the importance of proactive strategies to harness the potential of HTR while mitigating risks associated with its deployment in the digital landscape.
