DOI: https://doi.org/10.1007/s00146-025-02349-z
تاريخ النشر: 2025-04-29
المؤلف: Anna Foka وآخرون
الموضوع الرئيسي: الأخلاقيات والآثار الاجتماعية للذكاء الاصطناعي
نظرة عامة
تتناول هذه الورقة البحثية قضية التحيز في مجموعات التراث الثقافي المدفوعة بالذكاء الاصطناعي، مع تسليط الضوء على كيفية استمرار التقنيات الرقمية في تعزيز التحيزات الاجتماعية والتاريخية الموجودة في السجلات التناظرية. يحدد المؤلفون التحيز كمشكلة متعددة الأوجه تنشأ في مراحل مختلفة من سلسلة الذكاء الاصطناعي، بما في ذلك اختيار البيانات، والتعليق، وتصميم الخوارزميات، وتفاعل المستخدم. من خلال مراجعة نقدية للأدبيات ودراسات حالة عملية، وخاصة في تصنيف الصور، تقيم الورقة استراتيجيات تقنية لتخفيف التحيز، مثل زيادة البيانات وإزالة التحيز العدائي. تشير النتائج إلى أنه بينما يمكن أن تعزز تقنيات مثل حقن الضوضاء وتغيير الألوان توازن مجموعة البيانات وعدالة النموذج، فإن تخفيف التحيز الفعال يتطلب التعاون بين التخصصات بين محترفي التراث، وخبراء الموضوع، وعلماء البيانات.
في الختام، يقدم المؤلفون منهجية تجمع بين تقنيات مختلفة، بما في ذلك زيادة البيانات والعينات العشوائية، لتقليل التحيزات في عمليات التعلم الآلي. يؤكدون على أهمية مجموعات البيانات التدريبية المعلّمة بشكل جيد لتخفيف التحيز بنجاح ويدعون إلى تشكيل فرق متعددة التخصصات تضم محترفي التراث الثقافي مع علماء البيانات وعلماء الاجتماع. هذه المقاربة التعاونية ضرورية لتحديد ومعالجة التحيزات طوال عملية تنفيذ الذكاء الاصطناعي، من إنشاء مجموعة البيانات إلى نشر النموذج. يجادل المؤلفون بأن وجهة نظر شاملة حول التحيز، تشمل كل من الأساليب التقنية والإنسانية، ضرورية لتحقيق تمثيلات أكثر شمولية وأخلاقية للتراث الثقافي.
مقدمة
تناقش مقدمة هذه الورقة البحثية التأثير التحويلي للتكنولوجيا الرقمية على مجموعات التراث الثقافي، مع التأكيد على الحاجة إلى تمثيل شامل للثقافات المتنوعة خلال عملية الرقمنة. تسلط الضوء على التعقيدات المرتبطة بتنظيم القطع الأثرية، حيث تتداخل السياقات التاريخية، والملكية، وتواريخ الاستحواذ، وغالبًا ما تعكس روايات الاستعمار والاضطهاد. تضع الورقة دراسات التراث النقدية كإطار لفهم العمليات الاجتماعية والسياسية التي تشكل التراث، داعية إلى إعادة بناء معاصرة لممارسات التراث.
يتناول المؤلفون التحديات التي تطرحها التعلم الآلي والذكاء الاصطناعي في تفسير التراث الثقافي، خاصة فيما يتعلق بالتحيز المتأصل في مجموعات البيانات. يجادلون بأنه بينما يمكن للذكاء الاصطناعي تعزيز التصنيف والتفسير، فإنه قد يكرر أو يعزز التحيزات الموجودة. توضح الورقة أهمية التعاون بين مختلف أصحاب المصلحة لتطوير استراتيجيات فعالة لتخفيف التحيز. تركز على أدوات التعلم الآلي التنبؤية، خاصة في تصنيف الصور، وتقدم دراسات حالة باستخدام مجموعة بيانات عناصر التراث المعماري ومجموعات من المتاحف الوطنية للثقافة العالمية. يختتم المؤلفون بالتأكيد على ضرورة وجود إرشادات وسياسات تعالج التحيز طوال دورة حياة البيانات، بهدف تعزيز تنظيم ذو مغزى يعكس تنوع وتعقيد التراث الثقافي.
الطرق
في هذه الدراسة، استخدمنا مجموعة من تقنيات زيادة البيانات لتعزيز أداء نماذج التعلم الآلي لتصنيف الصور. استخدمنا طريقتين معروفتين على نطاق واسع – قلب الصورة وتغيير الألوان – بالإضافة إلى ثلاث تقنيات أقل تقليدية: حقن الضوضاء، والترجمة، والإزالة العشوائية. تم تطبيق كل تقنية زيادة بشكل فردي على مجموعات البيانات التدريبية الأصلية، مما أسفر عن ست نسخ متميزة لتدريب النموذج. لضمان توازن أحجام الفئات الفرعية، اتبعنا النهج الذي اقترحه بودا وآخرون (2018) واستخدمنا العينة الطبقية أثناء تقسيم مجموعة البيانات، مما خفف من التحيز المحتمل في العينة.
بالنسبة لمهام التصنيف، قمنا بتنفيذ شبكة الأعصاب التلافيفية ResNet18، التي تم اختيارها لفعاليتها وسهولة استخدامها في تطبيقات رؤية الكمبيوتر. يسمح تصميم ResNet18، الذي يتميز بالاتصالات المتبقية، بالحفاظ على المعلومات الحيوية أثناء انتقال البيانات عبر طبقات الشبكة، مما يجعله مناسبًا لبياناتنا المستندة إلى العلوم الإنسانية. تم تقييم أداء النموذج باستخدام مقياس F1، الذي يوفر مقياسًا متوازنًا للدقة والاسترجاع، وبالتالي يقدم انعكاسًا أكثر دقة لفعالية النموذج، خاصة في السيناريوهات ذات البيانات الموزعة بشكل غير متساوٍ. يضمن هذا الاختيار من المقياس أن تظل تقييماتنا غير متحيزة وتمثل الأداء الحقيقي عبر جميع الفئات.
النتائج
في تحليل مجموعة بيانات AHE، تم تحديد تحيز تمثيلي كبير، حيث تتكون فئة “العمود” من 2,124 صورة، بينما كانت فئة “الدعامة الطائرة” تحتوي على 477 صورة فقط. استمر هذا التحيز في مجموعة التدريب، ولكن تطبيق خمس تقنيات لزيادة البيانات ساهم بشكل فعال في تحقيق توازن في توزيعات الفئات، كما هو موضح في النتائج. وبالمثل، في مجموعة بيانات SVM، هيمنت فئة “الإناث” بـ 5,710 صورة مقارنة بـ 2,768 لفئة “الذكور”؛ ومع ذلك، فإن معالجة البيانات وزيادتها ساهمت في تساوي الأعداد في مجموعات البيانات التدريبية.
كشفت تقييمات الأداء للمصنفات المدربة على هذه المجموعات المتوازنة أن كل من تغيير الألوان والقلب حسنت النتائج بشكل كبير مقارنة بالخط الأساسي، حيث تفوق تغيير الألوان على القلب. عززت الإزالة العشوائية أداء المصنف لفئة AHE ولكن لم تفد مجموعة بيانات SVM، على الأرجح بسبب تعقيد الأخيرة. من الجدير بالذكر أن حقن الضوضاء قدم أكبر تحسين في الأداء مع الحفاظ على تصنيف متوازن، مما يتحدى النتائج السابقة التي فضلت القلب كأفضل تقنية زيادة.
المناقشة
في مناقشة التحيز داخل مجموعات البيانات التراثية، تسلط الورقة الضوء على الطبيعة متعددة الأوجه للتحيز، الذي يمكن أن يظهر كتحيز، أو تشويه، أو عدم عدالة في جمع البيانات وتفسيرها. يمكن أن يكون التحيز متعمدًا وغير متعمد، وغالبًا ما يعكس التحيزات الاجتماعية المتعلقة بالعرق، والجنس، وهويات أخرى. إن تداعيات بيانات التدريب المتحيزة في تطبيقات الذكاء الاصطناعي للتراث الثقافي كبيرة، حيث يمكن أن تؤدي إلى تمثيل خاطئ وتبسيط المحتوى التاريخي الحساس. يؤكد المؤلفون على أن عملية الرقمنة نفسها تقدم تحيزات إضافية، تتأثر بالممارسات المؤسسية والأدوات المستخدمة، والتي قد تستمر في تعزيز الروايات القديمة وتستبعد المجموعات المهمشة.
تصنف الورقة التحيز إلى ثلاثة أنواع رئيسية داخل سلسلة الذكاء الاصطناعي: من البيانات إلى الخوارزمية، ومن الخوارزمية إلى المستخدم، ومن المستخدم إلى البيانات. تشمل كل فئة أنواعًا فرعية مختلفة من التحيز، مثل تحيز القياس، وتمثيل، وتحامل العينة، والتي تنشأ من اختيار ومعالجة البيانات. يجادل المؤلفون بأن فهم هذه التحيزات أمر حاسم لتطوير استراتيجيات تخفيف فعالة. يقترحون أساليب غير تقنية وتقنية لمعالجة التحيز، بما في ذلك إنشاء فرق متنوعة وتنفيذ تقنيات إزالة التحيز العدائي. علاوة على ذلك، يدعو المؤلفون إلى منهجيات تشاركية تشمل المجتمعات المتأثرة في الإشراف على أنظمة الذكاء الاصطناعي، مما يعزز من صلة وجاذبية مجموعات التراث الثقافي مع معالجة التحيزات المتأصلة.
DOI: https://doi.org/10.1007/s00146-025-02349-z
Publication Date: 2025-04-29
Author(s): Anna Foka et al.
Primary Topic: Ethics and Social Impacts of AI
Overview
This research paper examines the issue of bias in AI-driven cultural heritage collections, highlighting how digital technologies can perpetuate existing societal and historical prejudices found in analogue records. The authors identify bias as a multifaceted problem that arises at various stages of the AI pipeline, including data selection, annotation, algorithmic design, and user interaction. Through a critical review of literature and practical case studies, particularly in image classification, the paper evaluates technical strategies for bias mitigation, such as data augmentation and adversarial debiasing. The findings suggest that while techniques like noise injection and color jittering can enhance dataset balance and model fairness, effective bias mitigation necessitates interdisciplinary collaboration among heritage professionals, subject experts, and data scientists.
In the conclusion, the authors present a methodology that combines various techniques, including data augmentation and random sampling, to reduce biases in machine learning processes. They emphasize the importance of well-annotated training datasets for successful bias mitigation and advocate for the formation of interdisciplinary teams that integrate cultural heritage professionals with data scientists and social scientists. This collaborative approach is essential for identifying and addressing biases throughout the AI implementation process, from dataset creation to model deployment. The authors argue that a holistic perspective on bias, encompassing both technical and humanistic approaches, is crucial for achieving more inclusive and ethically sound representations of cultural heritage.
Introduction
The introduction of this research paper discusses the transformative impact of digital technology on cultural heritage collections, emphasizing the need for inclusive representation of diverse cultures during the digitalization process. It highlights the complexities involved in curating artifacts, where historical contexts, ownership, and acquisition histories intertwine, often reflecting narratives of colonization and oppression. The paper positions critical heritage studies as a framework for understanding the socio-political processes that shape heritage, advocating for a contemporary reconstruction of heritage practices.
The authors address the challenges posed by machine learning and AI in interpreting cultural heritage, particularly concerning bias inherent in datasets. They argue that while AI can enhance classification and interpretation, it may also replicate or amplify existing biases. The paper outlines the importance of collaboration among various stakeholders to develop effective bias mitigation strategies. It focuses on predictive machine learning tools, especially in image classification, and presents case studies using the Architectural Heritage Elements Dataset and collections from the National Museums of World Culture. The authors conclude by stressing the necessity for guidelines and policies that address bias throughout the data lifecycle, aiming to foster meaningful curation that reflects the diversity and complexity of cultural heritage.
Methods
In this study, we employed a combination of data augmentation techniques to enhance the performance of machine learning models for image classification. We utilized two widely recognized methods—image flipping and color jittering—as well as three less conventional techniques: noise injection, translation, and random erasing. Each augmentation technique was applied individually to the original training datasets, resulting in six distinct versions for model training. To ensure balanced subclass sizes, we followed the approach by Buda et al. (2018) and employed stratified sampling during dataset division, which mitigated potential sampling bias.
For classification tasks, we implemented the ResNet18 convolutional neural network, chosen for its effectiveness and ease of use in computer vision applications. ResNet18’s architecture, characterized by residual connections, allows for the preservation of critical information as data traverses through the network layers, making it suitable for our humanities-based data. Model performance was evaluated using the F1-score, which provides a balanced measure of precision and recall, thus offering a more accurate reflection of model efficacy, especially in scenarios with unevenly distributed data. This choice of metric ensures that our evaluations remain unbiased and representative of true performance across all classes.
Results
In the analysis of the AHE dataset, significant representation bias was identified, with the ‘column’ class comprising 2,124 images, while the ‘flying buttress’ class had only 477 images. This bias persisted in the training subset, but the application of five data augmentation techniques effectively balanced the class distributions, as shown in the results. Similarly, in the SVM dataset, the ‘female’ class dominated with 5,710 images compared to 2,768 for the ‘male’ class; however, data processing and augmentation equalized the counts in the training datasets.
Performance evaluations of classifiers trained on these balanced datasets revealed that both color jittering and flipping significantly improved outcomes relative to the baseline, with color jittering outperforming flipping. Random erasing enhanced classifier performance for the AHE dataset but did not benefit the SVM dataset, likely due to the latter’s complexity. Notably, noise injection provided the most considerable performance improvement while maintaining balanced classification, challenging previous findings that favored flipping as the superior augmentation technique.
Discussion
In the discussion of bias within heritage datasets, the paper highlights the multifaceted nature of bias, which can manifest as prejudice, distortion, or unfairness in data collection and interpretation. Bias can be both intentional and unintentional, often reflecting societal prejudices related to race, gender, and other identities. The implications of biased training data in AI applications for cultural heritage are significant, as they can lead to misrepresentation and trivialization of sensitive historical content. The authors emphasize that the digitization process itself introduces additional biases, influenced by institutional practices and the tools employed, which may perpetuate outdated narratives and exclude marginalized groups.
The paper categorizes bias into three main types within the AI pipeline: data-to-algorithm, algorithm-to-user, and user-to-data. Each category encompasses various subtypes of bias, such as measurement, representation, and sampling biases, which arise from the selection and processing of data. The authors argue that understanding these biases is crucial for developing effective mitigation strategies. They propose both non-technical and technical approaches to address bias, including the establishment of diverse teams and the implementation of adversarial debiasing techniques. Furthermore, the authors advocate for participatory methodologies that involve affected communities in the oversight of AI systems, thereby enhancing the relevance and accessibility of cultural heritage collections while addressing inherent biases.
