تراثنا، قصصنا: تطوير أدوات الذكاء الاصطناعي لربط ودعم التراث الثقافي الرقمي الذي تنتجه المجتمعات
Our Heritage, Our Stories: developing AI tools to link and support community-generated digital cultural heritage

المجلة: Journal of Documentation، المجلد: 80، العدد: 5
DOI: https://doi.org/10.1108/jd-03-2024-0057
تاريخ النشر: 2024-06-01
المؤلف: Ewan D Hannaford وآخرون
الموضوع الرئيسي: إدارة الأرشيفات الرقمية والتقليدية

نظرة عامة

يحدد قسم ورقة البحث المبادرة “تراثنا، قصصنا” (OHOS)، التي تهدف إلى معالجة التهديد الحرج للمحتوى الرقمي الذي تنتجه المجتمعات (CGDC) في المملكة المتحدة. هذا المحتوى مهمش حاليًا بسبب التحديات التكنولوجية والتنظيمية التي تعيق دمجه في الأرشيفات الوطنية، مما يؤدي إلى إسكات أصوات المجتمعات المتنوعة. تسعى OHOS إلى الاستفادة من المناهج متعددة التخصصات من التراث الثقافي والعلوم الإنسانية وعلوم الكمبيوتر لجعل CGDC الذي كان غير متاح سابقًا قابلاً للاكتشاف ضمن مجموعة وطنية افتراضية.

يقترح المشروع حلولًا مبتكرة تستخدم أدوات الذكاء الاصطناعي وعملية التصميم المشترك لتعزيز قابلية اكتشاف CGDC، مما يسمح للمؤرخين والباحثين غير المحترفين بالوصول إلى وجهات نظر فريدة من الداخل حول التاريخ البريطاني الحديث. تشمل المخرجات الرئيسية مرصدًا عامًا لـ CGDC، والذي سيربط المواد المكتشفة حديثًا بالمجموعات الموجودة في الأرشيفات الوطنية، ومجموعة أدوات “ريمكس” التي تمكن المستخدمين من وضع سياق وإنشاء روايات جديدة من CGDC. بالإضافة إلى ذلك، تؤكد OHOS على تطوير نماذج ما بعد الحفظ لدعم استدامة CGDC ضمن مجموعات المجتمع، وتعزيز التعاون وبناء شبكة قوية بين أرشيفات المجتمع والشركاء المؤسسيين. تهدف هذه الإطار التعاوني إلى ضمان تمثيل عادل ومشاركة مستمرة بين المجموعات المعزولة سابقًا، مما يثري في النهاية فهم التراث المشترك.

الطرق

يحدد القسم المنهجيات المستخدمة في المشروع الذي يهدف إلى تعزيز قابلية اكتشاف واستخدام المحتوى الرقمي الذي تنتجه المجتمعات (CGDC) من خلال تقنيات معالجة اللغة الطبيعية المتقدمة (NLP) وتقنيات التعلم الآلي. يعترف المشروع بالاستثمار الكبير في CGDC، خاصة في المملكة المتحدة، حيث دعمت التمويلات العامة العديد من المبادرات التاريخية المجتمعية. على الرغم من ذلك، لا يزال الكثير من CGDC غير مستغل بسبب التحديات في قابلية الاكتشاف والاستدامة، كما أبرزت الدراسات السابقة. يقترح المشروع نموذجًا مستدامًا يدمج التصميم المشترك والمنهجيات التشاركية، مستفيدًا من الذكاء الاصطناعي لإنشاء رسوم بيانية معرفية مترابطة تسهل استكشاف CGDC.

تشمل سلسلة معالجة اللغة الطبيعية الموصوفة عدة مراحل: التعرف على الكيانات المسماة (NER) يحدد الكيانات الرئيسية داخل النص، وربط الكيانات يوضح هذه الكيانات باستخدام قواعد المعرفة الخارجية، واستخراج العلاقات يستنتج العلاقات بينها. يعترف المشروع بالتحديات الفريدة التي تطرحها CGDC، مثل تنوع اللغة وعدم انتظام تنسيقات البيانات. لمعالجة هذه التحديات، سيستخدم المشروع تضمينات متعددة اللغات ونماذج التعلم القليل لضمان شمولية اللهجات الإقليمية واللغات ذات الموارد المحدودة. سيتم التحقق من فعالية الطرق المطورة من خلال تقييمات قائمة على المقاييس وأخرى قائمة على المستخدمين، بهدف تحقيق توازن بين الدقة والاسترجاع في استخراج المعلومات لتلبية احتياجات المستخدمين المتنوعة. بشكل عام، تهدف المنهجيات إلى تحويل CGDC إلى مورد أكثر سهولة وترابطًا للباحثين والجمهور على حد سواء.

النتائج

تشير النتائج إلى أن هناك كمية كبيرة من التراث الذي تنتجه المجتمعات غير متصل وهش، مما يجعله غير ممثل بشكل كافٍ ويعرضه لخطر متزايد من الفقدان. يبرز هذا الحاجة الملحة لمبادرات تهدف إلى الحفاظ على هذه الموارد الثقافية الهامة وضمان بقائها. تم وضع مبادرة OHOS لمعالجة هذه القضية من خلال التركيز على حماية هذه الأصول التراثية المهمة على المستوى الوطني، مما يساهم في المجموعة الوطنية المشتركة للأجيال القادمة.

المناقشة

يهدف مشروع “تراثنا، قصصنا” (OHOS) إلى تعزيز إمكانية الوصول ودمج المحتوى الرقمي الذي تنتجه المجتمعات (CGDC) ضمن إطار التراث الوطني في المملكة المتحدة. بتمويل من مجلس أبحاث الفنون والعلوم الإنسانية، تسعى هذه المبادرة إلى حل الحواجز بين مجموعات المجتمع المتنوعة والمؤسسات الأرشيفية الرئيسية، مما يثري السرد الوطني بأصوات وقصص غير ممثلة. من خلال الاستفادة من تقنيات الذكاء الاصطناعي المتقدمة ومعالجة اللغة الطبيعية (NLP)، ستسهل OHOS استخراج وربط البيانات الوصفية من CGDC، الذي غالبًا ما يتميز بتنسيقات غير قياسية وقابلية اكتشاف محدودة. لا يحافظ هذا النهج على تعقيد السرد المجتمعي فحسب، بل يتيح أيضًا الوصول الديمقراطي إلى الموارد التاريخية، مما يسمح بتمثيل أكثر شمولاً للتراث الثقافي في المملكة المتحدة.

يؤكد المشروع على التعاون الأخلاقي مع أرشيفات المجتمع، مما يضمن أن تحتفظ هذه المجموعات بملكية وسيطرة على موادها. من خلال تطوير مرصد عام، سيتمكن المستخدمون من استكشاف ومقارنة CGDC جنبًا إلى جنب مع المجموعات الموجودة من الأرشيفات الوطنية. تهدف المبادرة أيضًا إلى إنشاء مجتمع من الممارسات التي تعالج التحديات التي تواجه أرشيفات المجتمع، مع التركيز على الاستدامة والشمولية. من خلال إنتاج إرشادات ودراسات حالة، ستدعم OHOS المجتمعات في إنشاء CGDC قابل للاكتشاف والربط، مما يحول في النهاية منهجيات البحث ويعزز تفسيرات جديدة للتاريخ البريطاني. تشمل النتائج المتوقعة ثروة من الروايات المتنوعة التي تعكس تعقيدات المجتمع المعاصر، مما يثري كل من البحث الأكاديمي وفهم الجمهور للتراث.

Journal: Journal of Documentation, Volume: 80, Issue: 5
DOI: https://doi.org/10.1108/jd-03-2024-0057
Publication Date: 2024-06-01
Author(s): Ewan D Hannaford et al.
Primary Topic: Digital and Traditional Archives Management

Overview

The research paper section outlines the initiative “Our Heritage, Our Stories” (OHOS), which aims to address the critical endangerment of community-generated digital content (CGDC) in the UK. This content is currently marginalized due to technological and organizational challenges that hinder its integration into national archives, thereby silencing diverse community voices. OHOS seeks to leverage interdisciplinary approaches from cultural heritage, humanities, and computer science to make previously inaccessible CGDC discoverable within a virtual national collection.

The project proposes innovative solutions that utilize AI tools and a co-design process to enhance the discoverability of CGDC, allowing non-professional historians and researchers to access unique insider perspectives on modern British history. Key outputs include a public-facing Observatory for CGDC, which will connect newly uncovered materials to existing collections at The National Archives, and a Remixer suite that enables users to contextualize and create new narratives from the CGDC. Additionally, OHOS emphasizes the development of post-custodial models to support the sustainability of CGDC within community groups, fostering collaboration and building a robust network among community archives and institutional partners. This collaborative framework aims to ensure equitable representation and ongoing engagement among previously isolated groups, ultimately enriching the understanding of shared heritage.

Methods

The section outlines the methodologies employed in the project aimed at enhancing the discoverability and usability of Community-Generated Digital Content (CGDC) through advanced Natural Language Processing (NLP) and machine learning techniques. The project recognizes the significant investment in CGDC, particularly in the UK, where public funding has supported numerous community history initiatives. Despite this, much of the CGDC remains underutilized due to challenges in discoverability and sustainability, as highlighted by previous studies. The project proposes a sustainable model that integrates co-design and participatory methodologies, leveraging AI to create interconnected Knowledge Graphs that facilitate the exploration of CGDC.

The NLP pipeline described involves several stages: Named Entity Recognition (NER) identifies key entities within the text, Entity Linking disambiguates these entities using external knowledge bases, and Relation Extraction infers relationships between them. The project acknowledges the unique challenges posed by CGDC, such as the diversity of language and the irregularity of data formats. To address these, the project will utilize cross-lingual embeddings and few-shot learning approaches to ensure inclusivity of regional dialects and low-resourced languages. The effectiveness of the developed methods will be validated through both metric-based and user-based evaluations, aiming to balance precision and recall in information extraction to cater to diverse user needs. Overall, the methodologies aim to transform CGDC into a more accessible and interconnected resource for researchers and the public alike.

Results

The findings indicate that there is a significant amount of disconnected and fragile community-generated heritage that remains under-represented and is at an escalating risk of loss. This highlights the urgent need for initiatives aimed at the preservation and survival of these culturally significant resources. The OHOS initiative is positioned to address this issue by focusing on the safeguarding of these nationally important heritage assets, thereby contributing to the collective national collection for future generations.

Discussion

The “Our Heritage, Our Stories” (OHOS) project aims to enhance the accessibility and integration of Community-Generated Digital Content (CGDC) within the UK’s national heritage framework. Funded by the Arts and Humanities Research Council, this initiative seeks to dissolve barriers between diverse community collections and mainstream archival institutions, thereby enriching the national narrative with underrepresented voices and stories. By leveraging advanced Artificial Intelligence and Natural Language Processing (NLP) techniques, OHOS will facilitate the extraction and linking of metadata from CGDC, which is often characterized by non-standard formats and limited discoverability. This approach not only preserves the complexity of community narratives but also democratizes access to historical resources, allowing for a more comprehensive representation of the UK’s cultural heritage.

The project emphasizes ethical collaboration with community archives, ensuring that these groups retain ownership and control over their materials. Through the development of a public-facing Observatory, users will be able to explore and compare CGDC alongside existing collections from The National Archives. The initiative also aims to establish a community of practice that addresses the challenges faced by community archives, focusing on sustainability and inclusivity. By producing guidelines and case studies, OHOS will support communities in creating findable and linkable CGDC, ultimately transforming research methodologies and fostering new interpretations of British history. The anticipated outcomes include a wealth of diverse narratives that reflect the complexities of contemporary society, thereby enriching both academic inquiry and public understanding of heritage.