إطار عمل قائم على محول الرؤية لاكتشاف الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي في تصميم الديكور الداخلي
Vision Transformer-Based Framework for AI-Generated Image Detection in Interior Design

المجلة: Informatica، المجلد: 49، العدد: 16
DOI: https://doi.org/10.31449/inf.v49i16.7979
تاريخ النشر: 2025-03-11
المؤلف: Hui Wang
الموضوع الرئيسي: إدارة التراث الثقافي والحفاظ عليه

نظرة عامة

تبحث هذه الدراسة في تطبيق محولات الرؤية (ViTs) للكشف عن الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي في تصميم الديكور الداخلي، مع معالجة قيود الشبكات العصبية التلافيفية (CNNs) في التقاط الاعتمادات بعيدة المدى والأنماط العالمية. قامت الدراسة بضبط وتقييم أربعة نماذج من ViT—ViT-B16، ViT-B32، ViT-L16، وViT-L32—باستخدام مجموعة بيانات تتكون من 1,000 عينة لكل فئة. تم استخدام مقاييس الأداء مثل الدقة، الدقة، الاسترجاع، درجة F1، والكفاءة الحسابية للتقييم. تشير النتائج إلى أن النماذج ذات أحجام القطع الأصغر (16×16) تتفوق على تلك ذات الأحجام الأكبر (32×32)، حيث حققت ViT-B16 وViT-L16 أعلى دقة (96.25%) ودرجة F1 (0.9625) في تحديد التناقضات الطفيفة في الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي. على العكس، أظهرت ViT-B32 وViT-L32 كفاءة حسابية أفضل ولكن دقة أقل (80.00% و81.25%، على التوالي).

تخلص الدراسة إلى أن ViTs فعالة في تمييز الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي عن التصاميم البشرية، مما يبرز التوازن بين الدقة والكفاءة الحسابية. تظهر ViT-B16 كنموذج مثالي للتطبيقات الواقعية بسبب دقتها العالية ومتطلبات الحوسبة المعقولة. تهدف الأبحاث المستقبلية إلى تعزيز الكفاءة الحسابية، وتنويع مجموعة البيانات بمجموعة واسعة من الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي، واستكشاف دمج النماذج التلافيفية والنماذج المعتمدة على المحولات. بالإضافة إلى ذلك، ستبحث الدراسة في القوة ضد الهجمات لتعزيز النموذج ضد تقنيات التوليد المتطورة، مما يحسن الكشف عن صور الذكاء الاصطناعي للتحقق من المحتوى الرقمي في تصميم الديكور الداخلي.

مقدمة

تسلط مقدمة هذه الورقة البحثية الضوء على التأثير التحويلي للذكاء الاصطناعي (AI) على الصناعات الإبداعية، لا سيما في تصميم الديكور الداخلي، حيث مكنت أدوات مثل الشبكات التنافسية التوليدية (GANs) ونماذج الانتشار من إنشاء صور عالية الجودة وواقعية. ومع ذلك، فإن هذا التيسير في التصميم يثير قضايا حاسمة تتعلق بالأصالة، والاستخدام الأخلاقي، وحقوق الملكية الفكرية. تستخدم طرق الكشف الحالية عن الذكاء الاصطناعي بشكل أساسي الشبكات العصبية التلافيفية (CNNs)، والتي تقتصر على قدرتها على نمذجة الاعتمادات بعيدة المدى في بيانات الصور. تقترح هذه الدراسة تطبيق محولات الرؤية (ViTs)، وهي بنية متطورة، لتعزيز الكشف عن صور تصميم الديكور الداخلي التي تم إنشاؤها بواسطة الذكاء الاصطناعي، وبالتالي معالجة تحديات القابلية للتوسع والكفاءة الحسابية.

تهدف الأبحاث إلى سد فجوة كبيرة في مجال التحقق من أصالة صور الذكاء الاصطناعي من خلال تطوير نهج كشف محدد المجال مصمم لتصميم الديكور الداخلي. يتضمن ذلك ضبط تكوينات مختلفة من ViT (ViT-B16، ViT-B32، ViT-L16، وViT-L32) على مجموعة بيانات متوازنة وتقييم أدائها باستخدام مقاييس مثل الدقة، الدقة، الاسترجاع، ودرجة F1. تشير النتائج إلى أن ViTs تتفوق في التقاط التناقضات الطفيفة في الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي، حيث تحقق دقة كشف تبلغ 96.25%. لا تسهم هذه الأعمال فقط في فهم الكشف عن المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي، ولكنها أيضًا تؤسس أساسًا للأبحاث المستقبلية في هذا المجال الناشئ، مما يبرز الحاجة إلى تحسين الكفاءة الحسابية والمعايير القياسية في مجال تصميم الديكور الداخلي.

طرق

في هذه الدراسة، قام المؤلفون بتحسين محولات الرؤية (ViTs) لتصنيف صور التصاميم الداخلية التي أنشأها البشر مقابل تلك التي تم إنشاؤها بواسطة الذكاء الاصطناعي. تضمنت إعدادات التجربة اختبار متغيرات مختلفة من ViT، والتي تم ضبطها من حيث سعة النموذج وأحجام القطع المختلفة. تم تجميع مجموعة بيانات متوازنة من صور تصميم الديكور الداخلي، وتم تنفيذ خطوات المعالجة المسبقة لضمان سلامة كل من مراحل التدريب والاختبار. مجموعة البيانات، التي تتكون من صور تم إنشاؤها بواسطة الذكاء الاصطناعي وصور أنشأها البشر، متاحة للجمهور على الرابط المقدم في كاجل.

تم ضبط المعلمات الرئيسية، بما في ذلك معدل التعلم، حجم الدفعة، ومعايير التقييم، بدقة لتعزيز موثوقية النتائج، كما هو موضح في الجدول 3. تؤكد هذه المعايرة الدقيقة للظروف التجريبية على صرامة المنهجية المستخدمة في الدراسة.

نتائج

في هذا القسم، تم تقييم أداء أربعة نماذج من محولات الرؤية (ViT)—ViT-B16، ViT-B32، ViT-L16، وViT-L32—لتمييز بين الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي والصور الأصلية لتصميم الديكور الداخلي. تم تقييم النماذج بناءً على مقاييس مثل الدقة، درجة F1، الدقة، الاسترجاع، الخسارة، وقت التشغيل، والكفاءة الحسابية. من الجدير بالذكر أن ViT-B16 حققت أعلى دقة بلغت 96.25% ودرجة F1 بلغت 0.9625، مما يظهر أداءً متفوقًا مع أحجام قطع أصغر (16×16) مقارنة بالأحجام الأكبر (32×32)، مما أدى إلى دقة أقل بشكل ملحوظ (80.00% لـ ViT-B32 و81.25% لـ ViT-L32). أبرز التحليل وجود توازن بين الدقة والكفاءة الحسابية، حيث قدمت ViT-B16 نهجًا متوازنًا، بينما كانت ViT-L16، على الرغم من دقتها، تتطلب تكاليف حسابية أعلى.

كما أشارت النتائج إلى أن ViT-B16 وViT-L16 أظهرتا أداءً قويًا من حيث الدقة والاسترجاع، حيث تجاوزت كلاهما 96%، مما يجعلها مناسبة للمهام عالية الدقة. على العكس، أظهرت ViT-B32 وViT-L32، على الرغم من كفاءتها من حيث وقت التشغيل، دقة واسترجاع أقل (حوالي 80-81%)، مما يحد من قابليتها للتطبيق في السيناريوهات عالية الدقة. أكدت تجارب إضافية مع مجموعات بيانات غير متوازنة ومدخلات ضوضائية على قوة ViT-B16، التي حافظت على دقة عالية (94.2% في ظل ظروف غير متوازنة و93.5% مع الضوضاء)، بينما واجهت النماذج ذات القطع الأكبر صعوبة. بشكل عام، تشير النتائج إلى أن ViT-B16 هو النموذج الأكثر فعالية للكشف عن الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي في تصميم الديكور الداخلي، حيث يقدم توازنًا ملائمًا بين الدقة والكفاءة الحسابية. يتم اقتراح مزيد من الأبحاث لتعزيز مرونة النموذج من خلال تقنيات التدريب ضد الهجمات.

مناقشة

تستفيد الطريقة المقترحة من التعلم العميق، وتحديدًا نماذج محولات الرؤية (ViT)، للتفريق بفعالية بين الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي وتلك التي أنشأها البشر في تصميم الديكور الداخلي. تستخدم الدراسة نهجًا منظمًا لمعالجة البيانات، بما في ذلك توازن العينات الموحد، وتغيير حجم الصور إلى 224×224 بكسل، وتطبيق تقنيات تعزيز البيانات المختلفة لتعزيز قوة النموذج. تظهر تكوينات ViT المستكشفة—الأساسية (ViT-B) والكبيرة (ViT-L)—توازنًا بين الدقة والكفاءة الحسابية، حيث حققت ViT-B16 دقة مثيرة للإعجاب بلغت 96.25% ودرجة F1 عالية بلغت 0.9625. تشير النتائج إلى أن أحجام القطع الأصغر (16×16) أكثر فعالية في التقاط التفاصيل الدقيقة الضرورية لتمييز الآثار الطفيفة النموذجية للصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي.

تؤكد النتائج على الأداء المتفوق لـ ViTs مقارنة بالنماذج التقليدية المعتمدة على CNN، لا سيما في قدرتها على استخدام آليات الانتباه الذاتي لاستخراج الميزات بشكل شامل عبر الصور بالكامل. ومع ذلك، تعترف الدراسة بالقيود، مثل التحيزات المحتملة في مجموعة البيانات والمتطلبات الحسابية للنماذج، والتي قد تعيق النشر في البيئات ذات الموارد المحدودة. تشمل اتجاهات البحث المستقبلية تعزيز كفاءة النموذج، وتوسيع مجموعة البيانات بصور متنوعة تم إنشاؤها بواسطة الذكاء الاصطناعي، واستكشاف الهياكل الهجينة لتحسين قدرات الكشف ضد تقنيات التوليد المتطورة. بشكل عام، تؤسس هذه الأعمال أساسًا لاستخدام ViTs في التحقق من أصالة الذكاء الاصطناعي ضمن تصميم الديكور الداخلي وربما مجالات إبداعية أخرى.

القيود

تواجه الدراسة قيودًا بسبب محدودية العينة، التي تحد من عدد العينات إلى حد أقصى قدره 1000 لكل فئة ضمن كل فئة. قد تؤثر هذه القيود على قابلية تعميم النتائج، حيث يمكن أن يوفر حجم عينة أكبر قوة إحصائية أكثر قوة وتمثيلًا أفضل للسكان الأساسيين. وبالتالي، يجب تفسير الاستنتاجات المستخلصة من الدراسة بحذر، مع الاعتراف بأن حجم العينة قد يؤثر على موثوقية وملاءمة النتائج عبر سياقات مختلفة.

Journal: Informatica, Volume: 49, Issue: 16
DOI: https://doi.org/10.31449/inf.v49i16.7979
Publication Date: 2025-03-11
Author(s): Hui Wang
Primary Topic: Cultural Heritage Management and Preservation

Overview

This research investigates the application of Vision Transformers (ViTs) for detecting AI-generated images in interior design, addressing the limitations of Convolutional Neural Networks (CNNs) in capturing long-range dependencies and global patterns. The study fine-tuned and evaluated four ViT models—ViT-B16, ViT-B32, ViT-L16, and ViT-L32—using a dataset of 1,000 samples per class. Performance metrics such as accuracy, precision, recall, F1-score, and computational efficiency were employed for assessment. The findings indicate that models with smaller patch sizes (16×16) outperform those with larger sizes (32×32), with ViT-B16 and ViT-L16 achieving the highest accuracy (96.25%) and F1-score (0.9625) in identifying subtle inconsistencies in AI-generated images. Conversely, ViT-B32 and ViT-L32 demonstrated better computational efficiency but lower accuracy (80.00% and 81.25%, respectively).

The study concludes that ViTs are effective for distinguishing AI-generated images from human designs, highlighting a tradeoff between accuracy and computational efficiency. ViT-B16 emerges as the optimal model for real-world applications due to its high accuracy and reasonable computational demands. Future research aims to enhance computational efficiency, diversify the dataset with a broader range of AI-generated images, and explore the integration of convolutional and transformer-based models. Additionally, the study will investigate adversarial robustness to strengthen the model against evolving generative techniques, thereby improving AI image detection for digital content verification in interior design.

Introduction

The introduction of this research paper highlights the transformative impact of Artificial Intelligence (AI) on creative industries, particularly in interior design, where tools like Generative Adversarial Networks (GANs) and diffusion models have enabled the generation of high-quality, photo-realistic images. However, this democratization of design raises critical issues regarding authenticity, ethical use, and intellectual property rights. Current AI detection methods predominantly utilize Convolutional Neural Networks (CNNs), which are limited in their ability to model long-range dependencies in image data. This study proposes the application of Vision Transformers (ViTs), a state-of-the-art architecture, to enhance the detection of AI-generated interior design images, thereby addressing scalability and computational efficiency challenges.

The research aims to fill a significant gap in the field of AI image authenticity verification by developing a domain-specific detection approach tailored to interior design. It involves fine-tuning various ViT configurations (ViT-B16, ViT-B32, ViT-L16, and ViT-L32) on a balanced dataset and evaluating their performance using metrics such as accuracy, precision, recall, and F1-score. The findings indicate that ViTs excel at capturing subtle inconsistencies in AI-generated images, achieving a detection accuracy of 96.25%. This work not only contributes to the understanding of AI-generated content detection but also establishes a foundation for future research in this emerging area, emphasizing the need for improved computational efficiency and standardized benchmarks in the domain of interior design.

Methods

In this study, the authors refined Vision Transformers (ViTs) to classify images of human-created indoor designs against those generated by AI. The experimental setup involved testing various ViT variants, which were adjusted for model capacity and different patch sizes. A balanced dataset of interior design images was compiled, and preprocessing steps were implemented to ensure the integrity of both training and testing phases. The dataset, comprising AI-generated and human-created images, is publicly accessible at the provided Kaggle link.

Key hyperparameters, including learning rate, batch size, and evaluation criteria, were meticulously tuned to enhance the reliability of the results, as detailed in Table 3. This careful calibration of experimental conditions underscores the rigor of the methodology employed in the study.

Results

In this section, the performance of four Vision Transformer (ViT) models—ViT-B16, ViT-B32, ViT-L16, and ViT-L32—was evaluated for distinguishing between AI-generated and authentic interior design images. The models were assessed based on metrics such as accuracy, F1 score, precision, recall, loss, runtime, and computational efficiency. Notably, ViT-B16 achieved the highest accuracy of 96.25% and an F1 score of 0.9625, demonstrating superior performance with smaller patch sizes (16×16) compared to larger ones (32×32), which resulted in significantly lower accuracy (80.00% for ViT-B32 and 81.25% for ViT-L32). The analysis highlighted a tradeoff between accuracy and computational efficiency, with ViT-B16 providing a balanced approach, while ViT-L16, although accurate, incurred higher computational costs.

The results also indicated that ViT-B16 and ViT-L16 exhibited robust performance in terms of precision and recall, both exceeding 96%, making them suitable for high-accuracy tasks. In contrast, ViT-B32 and ViT-L32, while more efficient in terms of runtime, demonstrated lower precision and recall (around 80-81%), limiting their applicability in high-precision scenarios. Additional experiments with imbalanced datasets and noisy inputs confirmed the robustness of ViT-B16, which maintained high accuracy (94.2% under imbalanced conditions and 93.5% with noise), while the larger patch models struggled. Overall, the findings suggest that ViT-B16 is the most effective model for detecting AI-generated images in interior design, offering a favorable balance between accuracy and computational efficiency. Further research is proposed to enhance model resilience through adversarial training techniques.

Discussion

The proposed method leverages deep learning, specifically Vision Transformer (ViT) models, to effectively differentiate between AI-generated and human-created images in interior design. The study employs a structured approach to data preprocessing, including uniform sample balancing, resizing images to 224×224 pixels, and applying various data augmentation techniques to enhance model robustness. The ViT configurations explored—Base (ViT-B) and Large (ViT-L)—demonstrate a tradeoff between accuracy and computational efficiency, with ViT-B16 achieving an impressive accuracy of 96.25% and a high F1 score of 0.9625. The findings indicate that smaller patch sizes (16×16) are more effective in capturing fine-grained details essential for distinguishing subtle artefacts typical of AI-generated images.

The results underscore the superior performance of ViTs over traditional CNN-based models, particularly in their ability to utilize self-attention mechanisms for comprehensive feature extraction across entire images. However, the study acknowledges limitations, such as potential biases in the dataset and the computational demands of the models, which may hinder deployment in resource-constrained environments. Future research directions include enhancing model efficiency, expanding the dataset with diverse AI-generated images, and exploring hybrid architectures to improve detection capabilities against evolving generative techniques. Overall, this work establishes a foundation for utilizing ViTs in AI authenticity verification within interior design and potentially other creative domains.

Limitations

The research is constrained by a sample limitation, which restricts the number of samples to a maximum of 1000 per class within each category. This limitation may affect the generalizability of the findings, as a larger sample size could provide more robust statistical power and a better representation of the underlying population. Consequently, the conclusions drawn from the study should be interpreted with caution, acknowledging that the sample size may influence the reliability and applicability of the results across different contexts.