DOI: https://doi.org/10.1038/s41598-025-91671-z
PMID: https://pubmed.ncbi.nlm.nih.gov/40025126
تاريخ النشر: 2025-03-01
المؤلف: Weiwei Li
الموضوع الرئيسي: الإدراك الجمالي والتحليل
نظرة عامة
تدرس هذه الدراسة استخدام شبكة عصبية تلافيفية معدلة (CNN) تحت إشراف لتصنيف وتنظيم الفن بشكل آلي، مع معالجة قيود الطرق التقليدية التي تعتمد على الخبرة البشرية. تم تدريب الشبكة العصبية المعدلة على مجموعة بيانات مخصصة تضم 5,000 عمل فني عبر خمسة أنماط رئيسية: الانطباعية، التكعيبية، الواقعية، التجريدية، والسريالية. حقق النموذج دقة تصنيف متوسطة مثيرة للإعجاب بلغت 93.0%، متفوقًا على النماذج المعروفة مثل ResNet50 و VGG16 من حيث الدقة (93.5%)، والاسترجاع (92.8%)، ودرجة F1 (93.1%). أظهرت تقنيات تصور الميزات، مثل t-SNE و PCA، قدرة النموذج على تجميع أنماط الفن المتميزة بشكل فعال، على الرغم من ظهور تحديات في تمييز الأنماط المتداخلة مثل التجريدية والسريالية.
تسلط النتائج الضوء على إمكانيات الشبكة العصبية المعدلة كأداة قابلة للتوسع لتصنيف الفن، حيث تقدم كفاءة مقارنة بالمنظمين البشريين بينما تعالج مجموعات بيانات كبيرة بشكل أسرع. ومع ذلك، فإن أداء النموذج معوق بسبب التحيزات في بيانات التدريب، ونقص القابلية للتفسير، والحساسية لعمليات المعالجة المسبقة. تهدف الأبحاث المستقبلية إلى تحسين النموذج من خلال توسيع مجموعة البيانات لتشمل مجموعة متنوعة من أنماط الفن، ودمج المدخلات متعددة الوسائط، وتحسين شفافية القرار من خلال تقنيات الذكاء الاصطناعي القابلة للتفسير. يمكن أن تعزز هذه التطورات بشكل كبير من تطبيقات النموذج في التنظيم الرقمي، وتعليم الفن، والحفاظ على الثقافة، مع ضمان بقائه ذا صلة بمؤرخي الفن والسياقات الثقافية.
طرق
تستعرض هذه القسم الطرق التقليدية لتصنيف الفن، مع التأكيد على أهميتها التاريخية وقيودها الجوهرية. كانت الأساليب التقليدية، مثل التحليل الأسلوبي، والتحليل الأيقوني، والتحليل السياقي، أساسية في فهم تطور الفن. ومن الجدير بالذكر أن الثنائيات التي اقترحها هاينريش وولفلين وطريقة إروين بانوفسكي الأيقونية ذات الثلاثة مستويات كانت لها دور حاسم في تمييز الحركات الفنية وتفسير المحتوى الرمزي. ومع ذلك، تواجه هذه الطرق انتقادات بسبب طبيعتها الذاتية وإمكانية إغفالها للسياقات الاجتماعية والثقافية، خاصة في تحليل الفن غير الغربي والأشكال المعاصرة التي تقاوم التصنيف التقليدي.
تسعى المنهجية المقترحة إلى معالجة هذه القيود من خلال دمج التقنيات الحديثة، وبشكل خاص التعلم الآلي (ML)، مع المنهجيات التاريخية الفنية التقليدية. يبدأ هذا الإطار بجمع ومعالجة مجموعة بيانات فنية مخصصة، حيث يتم تغيير حجم الصور، وتطبيعها، وزيادتها لضمان القوة. يتم استخدام شبكة عصبية تلافيفية معدلة تحت إشراف لاستخراج الميزات عالية المستوى وأداء مهام التصنيف، باستخدام تقسيم 80:20 للتدريب والتحقق. يتم تقييم أداء النموذج من خلال مقاييس قياسية مثل الدقة، والدقة، والاسترجاع، ودرجة F1، بهدف إنشاء تصنيف فني أكثر دقة وشمولية يعكس كل من الممارسات الفنية التاريخية والمعاصرة.
نتائج
تشير نتائج الدراسة إلى أن التحسينات المطبقة على نموذج الشبكة العصبية المعدلة تحت إشراف قد عززت بشكل كبير من قدرته على تصنيف أنماط وحركات الفن المختلفة. تم تحقيق تحسينات رئيسية من خلال ضبط المعلمات الفائقة، وتقنيات زيادة البيانات المتقدمة، واستخدام مجموعة بيانات أكبر. على وجه التحديد، حددت عملية البحث الشبكي معدل تعلم مثالي قدره $0.001$ وحجم دفعة قدره $32$، مما ساعد على تحقيق توازن بين سرعة التقارب والتعميم. أدى زيادة عدد المرشحات في الطبقات الأعمق إلى تحسين بنسبة 3% في درجة F1، بينما ساعدت تقنيات الإسقاط والتنظيم L2 بشكل فعال في تقليل الإفراط في التكيف، مما أدى إلى زيادة بنسبة 1.8% في الدقة.
ساهمت استراتيجيات زيادة البيانات، بما في ذلك التدوير العشوائي، والانقلابات، وتعديلات السطوع، في زيادة إجمالية بنسبة 2.5% في الدقة. بالإضافة إلى ذلك، قدم تنفيذ جدولة ديناميكية لمعدل التعلم وإيقاف مبكر زيادة إضافية تتراوح بين 1-2% في مقاييس الأداء. تم تقييم أداء النموذج بشكل كمي عبر خمسة أنماط فنية – الانطباعية، التكعيبية، الواقعية، التجريدية، والسريالية – حيث حققت الانطباعية أعلى دقة بنسبة 95.0%، بينما تأخرت تصنيفات الفن التجريدي قليلاً عند 90.0%. بشكل عام، أظهرت الشبكة العصبية المعدلة دقة متوسطة بلغت 93.0%، مما يبرز فعالية تقنيات التحسين في تسهيل تصنيف الفن الآلي الدقيق، وهو أمر أساسي لتنظيم وتحليل مجموعات الفن.
نقاش
تسلط قسم النقاش في ورقة البحث الضوء على التأثير التحويلي للتعلم الآلي (ML) على تحليل الفن، خاصة من خلال تطبيق الشبكات العصبية التلافيفية (CNNs). لقد مكنت دمج التعلم الآلي الباحثين من تصنيف أنماط الفن، وتحديد الفنانين، وتحليل العناصر البصرية بدقة غير مسبوقة من خلال استخدام مجموعات بيانات واسعة. تلتقط الشبكة العصبية المعدلة المقترحة في هذه الدراسة الميزات المحددة لمختلف أنماط الفن، محققة دقة متوسطة تبلغ 93.0%. إنها تتفوق في تمييز الأنماط بناءً على أنماط الألوان وميزات القوام، متفوقة على المنظمين البشريين في بعض الفئات مثل الانطباعية والواقعية. ومع ذلك، لا تزال هناك تحديات، خاصة في تصنيف الأنماط المتداخلة مثل التجريدية والسريالية، حيث تؤدي العناصر الجمالية المشتركة إلى أخطاء في التصنيف.
على الرغم من نقاط قوتها، فإن أداء النموذج يعتمد على جودة وتمثيل بيانات التدريب، التي تتركز بشكل أساسي على الغرب. تثير هذه القيود مخاوف بشأن قابلية تعميم النموذج وقدرته على تصنيف الفن غير الغربي بدقة. بالإضافة إلى ذلك، فإن الاعتماد على خطوط معالجة البيانات يجعل الشبكة العصبية حساسة للتغيرات في بيانات الإدخال. تؤكد النتائج على إمكانيات التعلم الآلي في تنظيم الفن بينما تؤكد أيضًا على الحاجة إلى مجموعات بيانات متنوعة وعالية الجودة لتقليل التحيزات وتعزيز فعالية النموذج في التقاط الجوانب الثقافية والسياقية الدقيقة للفن.
DOI: https://doi.org/10.1038/s41598-025-91671-z
PMID: https://pubmed.ncbi.nlm.nih.gov/40025126
Publication Date: 2025-03-01
Author(s): Weiwei Li
Primary Topic: Aesthetic Perception and Analysis
Overview
This study investigates the use of a supervised Modified Convolutional Neural Network (CNN) for the automated classification and curation of art, addressing the limitations of traditional methods that rely on human expertise. The Modified CNN was trained on a custom dataset of 5,000 artworks across five major styles: Impressionism, Cubism, Realism, Abstract, and Surrealism. The model achieved an impressive average classification accuracy of 93.0%, outperforming established models like ResNet50 and VGG16 in precision (93.5%), recall (92.8%), and F1-score (93.1%). Feature visualization techniques, such as t-SNE and PCA, demonstrated the model’s capability to effectively cluster distinct art styles, although challenges arose in differentiating overlapping styles like Abstract and Surrealism.
The findings highlight the Modified CNN’s potential as a scalable tool for art classification, offering efficiency comparable to human curators while processing large datasets more rapidly. However, the model’s performance is hindered by biases in the training data, a lack of interpretability, and sensitivity to preprocessing. Future research aims to enhance the model by expanding the dataset to include a wider variety of art styles, integrating multimodal inputs, and improving decision transparency through explainable AI techniques. These advancements could significantly bolster the model’s applicability in digital curation, art education, and cultural preservation, while also ensuring that it remains relevant to art historians and cultural contexts.
Methods
The section outlines traditional methods of art classification, emphasizing their historical significance and inherent limitations. Conventional approaches, such as stylometric, iconographic, and contextual analyses, have been foundational in understanding artistic evolution. Notably, Heinrich Wölfflin’s binary oppositions and Erwin Panofsky’s three-tiered iconographic method have been instrumental in differentiating art movements and interpreting symbolic content. However, these methods face criticism for their subjective nature and potential neglect of socio-cultural contexts, particularly in the analysis of non-Western art and contemporary forms that resist conventional categorization.
The proposed methodology seeks to address these limitations by integrating modern technologies, specifically machine learning (ML), with traditional art historical methodologies. This framework begins with the collection and preprocessing of a custom art dataset, where images are resized, normalized, and augmented to ensure robustness. A supervised Modified Convolutional Neural Network (CNN) is employed to extract high-level features and perform classification tasks, utilizing an 80:20 training-validation split. Model performance is evaluated through standard metrics such as accuracy, precision, recall, and F1-score, aiming to create a more nuanced and comprehensive art taxonomy that reflects both historical and contemporary artistic practices.
Results
The results of the study indicate that optimizations applied to the supervised Modified CNN model significantly enhanced its ability to classify various art styles and movements. Key improvements were achieved through hyperparameter tuning, advanced data augmentation techniques, and the use of a larger dataset. Specifically, a grid search identified an optimal learning rate of $0.001$ and a batch size of $32$, which facilitated a balance between convergence speed and generalization. The increase in the number of filters in deeper layers led to a 3% improvement in the F1-score, while dropout and L2 regularization techniques effectively mitigated overfitting, resulting in a 1.8% increase in precision.
Data augmentation strategies, including random rotations, flips, and brightness adjustments, contributed to a 2.5% increase in overall accuracy. Additionally, the implementation of dynamic learning rate scheduling and early stopping provided a further 1-2% boost in performance metrics. The model’s performance was quantitatively assessed across five art styles—Impressionism, Cubism, Realism, Abstract, and Surrealism—with Impressionism achieving the highest accuracy at 95.0%, while Abstract art classification lagged slightly at 90.0%. Overall, the Modified CNN demonstrated an average accuracy of 93.0%, underscoring the effectiveness of the optimization techniques in facilitating accurate automated art classification, which is essential for art collection organization and analysis.
Discussion
The discussion section of the research paper highlights the transformative impact of machine learning (ML) on art analysis, particularly through the application of Convolutional Neural Networks (CNNs). The integration of ML has enabled researchers to classify art styles, identify artists, and analyze visual elements with unprecedented accuracy by utilizing extensive datasets. The Modified CNN proposed in this study effectively captures defining features of various art styles, achieving an average accuracy of 93.0%. It excels in distinguishing styles based on color patterns and texture features, outperforming human curators in certain categories like Impressionism and Realism. However, challenges remain, particularly in classifying overlapping styles such as Abstract and Surrealism, where shared aesthetic elements lead to misclassifications.
Despite its strengths, the model’s performance is contingent on the quality and representativeness of the training data, which is predominantly Western-centric. This limitation raises concerns about the model’s generalizability and its ability to accurately classify non-Western art. Additionally, the reliance on preprocessing pipelines makes the CNN sensitive to variations in input data. The findings underscore the potential of ML in art curation while also emphasizing the need for diverse and high-quality datasets to mitigate biases and enhance the model’s effectiveness in capturing the nuanced cultural and contextual aspects of art.
