مجموعة بيانات الطيف فوق الطيفي للوثائق التاريخية والنماذج من 400 إلى 1700 نانومتر (HYPERDOC)
Hyperspectral dataset of historical documents and mock-ups from 400 to 1700 nm (HYPERDOC)

المجلة: Scientific Data، المجلد: 12، العدد: 1
DOI: https://doi.org/10.1038/s41597-025-05599-0
PMID: https://pubmed.ncbi.nlm.nih.gov/40670399
تاريخ النشر: 2025-07-16
المؤلف: Ana Belén López-Baldomero وآخرون
الموضوع الرئيسي: تحليل مواد التراث الثقافي

نظرة عامة

مجموعة بيانات HYPERDOC هي مورد شامل للتصوير الطيفي عالي الدقة يهدف إلى تعزيز البحث في تحديد المواد ضمن قطاع التراث الثقافي. تشمل نماذج من أحبار تاريخية متنوعة—مثل أحبار الميتالو-جالات، والأحبار السابيا، والأحبار القائمة على الكربون—المطبقة على دعائم مختلفة، بما في ذلك المواد التي تم تعتيقها بشكل مصطنع، إلى جانب وثائق أصلية من القرن الخامس عشر إلى السابع عشر. تحتوي مجموعة البيانات على صور انعكاسية طيفية تم التقاطها باستخدام كاميرات مسح خطي عبر نطاقات VNIR (400-1000 نانومتر) وSWIR (900-1700 نانومتر)، مع تسجيل مكاني وتعليقات حقيقية على مستوى البكسل لمناطق صغيرة تُسمى “مكعبات صغيرة”. بالإضافة إلى ذلك، يتم توفير صور RGB بألوان زائفة وبيانات وصفية، مما يسهل تطبيقات متنوعة مثل تصنيف الأحبار من خلال التعلم الآلي، وفصل الطيف، والتحليل اللوني.

تكمن أهمية HYPERDOC في قدرتها على تعزيز تحليل الوثائق التاريخية، التي تعتبر حيوية للحفاظ على التراث الثقافي والعلمي. بينما تم تطوير أكثر من 60 مجموعة بيانات من الصور الرقمية لمهام معالجة الصور المختلفة، يعتمد معظمها على التصوير RGB التقليدي، مما يحد من قدراتها في التحليل الطيفي. على النقيض من ذلك، يلتقط التصوير الطيفي عالي الدقة معلومات طيفية واسعة، مما يمكّن من تحديد المواد ورسم الخرائط بشكل أفضل. لقد أثبتت هذه التقنية فائدتها في تحليل الوثائق، خاصة في مهام مثل التحويل إلى ثنائي والتحقيقات الجنائية، حيث تساعد في اكتشاف عدم تطابق الأحبار وتحديد التعديلات أو التزوير. تعزز التوافر العام لمجموعة بيانات HYPERDOC التعاون بين التخصصات وتدعم دمج التصوير الطيفي عالي الدقة في جهود الحفظ.

الطرق

يستعرض قسم “الطرق” في ورقة البحث التصميم التجريبي والتقنيات التحليلية المستخدمة للتحقيق في أسئلة البحث. استخدمت الدراسة نهجًا كميًا، يتضمن تحليلات إحصائية لتقييم البيانات التي تم جمعها من عينة السكان. شملت المنهجيات المحددة تجارب محكومة، واستطلاعات، ودراسات ملاحظة، مما يضمن فهمًا شاملاً للظواهر قيد التحقيق.

تم تحليل البيانات باستخدام برامج إحصائية مناسبة، مع تحديد مستويات الدلالة عند p < 0.05. استخدم الباحثون اختبارات إحصائية متنوعة، مثل اختبارات t وANOVA، لمقارنة متوسطات المجموعات وتقييم العلاقات بين المتغيرات. بالإضافة إلى ذلك، تم إجراء تحليل الانحدار لتحديد المتنبئين المحتملين للنتائج المقاسة. تم تصميم الطرق بدقة لتقليل التحيز وتعزيز موثوقية النتائج، مما يساهم في صحة استنتاجات البحث بشكل عام.

المناقشة

يستعرض قسم المناقشة في ورقة البحث إعداد وتحليل عينات نموذجية من الأحبار التاريخية، التي تم إنشاؤها باستخدام وصفات من القرنين الثالث عشر إلى السابع عشر. تشمل هذه الأحبار أحبار الميتالو-جالات (أحبار الجال الحديدي)، وأحبار السابيا، والأحبار القائمة على الكربون، والأحبار المختلطة، وكلها مطبقة على دعائم تاريخية ذات صلة مثل الأوراق اليدوية والرق. تؤكد الدراسة على التوثيق الدقيق لتركيبات الأحبار، بما في ذلك نسب المكونات، وتقنيات التطبيق المستخدمة، والتي تم تصميمها لتسهيل فحص التغيرات الطيفية فيما يتعلق بإيداع الحبر وأدوات الكتابة.

بالإضافة إلى ذلك، تستخدم البحث تقنيات تصوير متقدمة، وبشكل خاص التصوير الطيفي عالي الدقة، لالتقاط الخصائص الطيفية لكل من النماذج والوثائق التاريخية. تتضمن مجموعة البيانات بيانات وصفية مفصلة لكل عينة، بما في ذلك معلومات عن تركيب الحبر، ونوع الدعامة، وحالة التعتيق. تظهر النتائج الإمكانية لتصنيف الأحبار من خلال خوارزميات التعلم الآلي بناءً على بياناتها الطيفية، محققة معدلات دقة عالية. تعتبر هذه القدرة على التصنيف حاسمة لإبلاغ ممارسات الحفظ واختيار مواد الترميم المناسبة للوثائق التاريخية، مما يعزز الفهم لمواد الكتابة التاريخية وتطبيقاتها.

Journal: Scientific Data, Volume: 12, Issue: 1
DOI: https://doi.org/10.1038/s41597-025-05599-0
PMID: https://pubmed.ncbi.nlm.nih.gov/40670399
Publication Date: 2025-07-16
Author(s): Ana Belén López-Baldomero et al.
Primary Topic: Cultural Heritage Materials Analysis

Overview

The HYPERDOC dataset is a comprehensive hyperspectral imaging resource aimed at advancing research in material identification within the cultural heritage sector. It encompasses mock-ups of various historical inks—such as metallo-gallate, sepia, and carbon-based inks—applied to different supports, including artificially aged materials, alongside authentic documents from the 15th to 17th centuries. The dataset features hyperspectral reflectance images captured using line-scan cameras across the VNIR (400-1000 nm) and SWIR (900-1700 nm) ranges, with spatial registration and pixel-level ground truth annotations for small regions termed ‘minicubes.’ Additionally, false-color RGB images and metadata are provided, facilitating diverse applications such as ink classification through machine learning, spectral unmixing, and colorimetric analysis.

The significance of HYPERDOC lies in its ability to enhance the analysis of historical documents, which are critical for preserving cultural and scientific heritage. While over 60 datasets of digital images have been developed for various image processing tasks, most rely on conventional RGB imaging, limiting their spectral analysis capabilities. In contrast, hyperspectral imaging captures extensive spectral information, enabling superior material identification and mapping. This technique has proven advantageous in document analysis, particularly in tasks like binarization and forensic investigations, where it aids in detecting ink mismatches and identifying alterations or forgeries. The public availability of the HYPERDOC dataset promotes interdisciplinary collaboration and supports the integration of hyperspectral imaging in conservation efforts.

Methods

The “Methods” section of the research paper outlines the experimental design and analytical techniques employed to investigate the research questions. The study utilized a quantitative approach, incorporating statistical analyses to evaluate the data collected from the sample population. Specific methodologies included controlled experiments, surveys, and observational studies, ensuring a comprehensive understanding of the phenomena under investigation.

Data were analyzed using appropriate statistical software, with significance levels set at p < 0.05. The researchers employed various statistical tests, such as t-tests and ANOVA, to compare group means and assess the relationships between variables. Additionally, regression analysis was conducted to identify potential predictors of the outcomes measured. The methods were rigorously designed to minimize bias and enhance the reliability of the findings, contributing to the overall validity of the research conclusions.

Discussion

The discussion section of the research paper outlines the preparation and analysis of mock-up samples of historical inks, created using recipes from the 13th to 17th centuries. These inks include metallo-gallate (iron gall) inks, sepia inks, carbon-based inks, and mixed inks, each applied to various historically relevant supports such as handcrafted papers and parchment. The study emphasizes the meticulous documentation of ink formulations, including the ratios of ingredients, and the application techniques used, which were designed to facilitate the examination of spectral changes in relation to ink deposition and writing instruments.

Additionally, the research employs advanced imaging techniques, specifically hyperspectral imaging, to capture the spectral characteristics of both mock-ups and historical documents. The dataset comprises detailed metadata for each sample, including information on ink composition, support type, and aging status. The findings demonstrate the potential for machine learning algorithms to classify inks based on their spectral data, achieving high accuracy rates. This classification capability is crucial for informing conservation practices and selecting appropriate restoration materials for historical documents, thereby enhancing the understanding of historical writing materials and their applications.