DOI: https://doi.org/10.1186/s41235-025-00700-y
PMID: https://pubmed.ncbi.nlm.nih.gov/41501543
تاريخ النشر: 2026-01-07
المؤلف: Didem Pehlivanoglu وآخرون
الموضوع الرئيسي: الشبكات التنافسية التوليدية وتوليد الصور
نظرة عامة
تستكشف هذه الورقة البحثية اكتشاف التزييف العميق—وسائط اصطناعية تم إنشاؤها بواسطة طرق توليد عميقة—من خلال مقارنة أداء خوارزميات التعلم الآلي (ML) والمراقبين البشريين. تتكون الدراسة من جزئين: تركز الدراسة 1 على صور الوجه الثابتة، بينما تفحص الدراسة 2 مقاطع الفيديو الديناميكية. تشير النتائج من الدراسة 1 إلى أن خوارزميات التعلم الآلي تتفوق في تصنيف الصور الحقيقية والتزييف العميق، محققة دقة عالية في تصنيف الميزات. في المقابل، واجه المشاركون البشريون صعوبة في التمييز بين الصور الحقيقية والتزييف العميق، حيث أدوا بمستوى عشوائي وأظهروا تحيزًا نحو الحقيقة إلى جانب ثقة منخفضة في تقييماتهم.
في الدراسة 2، انخفض أداء خوارزميات التعلم الآلي بشكل كبير عند تصنيف مقاطع الفيديو الديناميكية، مما أدى إلى دقة قريبة من المستوى العشوائي وتحقيق تحيز واضح نحو الكذب. على العكس، أظهر البشر قدرات كشف متفوقة للتزييف العميق في الفيديو، متفوقين على الآلات على الرغم من صعوباتهم السابقة مع الصور الثابتة. تحدد الدراسة أيضًا العوامل النفسية الرئيسية التي تؤثر على أداء البشر، كاشفة أن التفكير التحليلي الأعلى، والمشاعر الإيجابية الأقل، ومهارات الإنترنت الأكبر ترتبط بتحسين الكشف عن التزييف العميق في الفيديو. بشكل عام، تسلط الأبحاث الضوء على نقاط القوة والضعف لكل من البشر والآلات في اكتشاف التزييف العميق، مما يشير إلى أن الجهود التعاونية يمكن أن تعزز فعالية الكشف في مواجهة هذه التهديدات التكنولوجية المتزايدة.
مقدمة
تسلط مقدمة الورقة البحثية الضوء على التقدم الكبير في الذكاء الاصطناعي (AI) الذي سهل إنشاء التزييف العميق—وسائط تم التلاعب بها تم إنشاؤها بشكل أساسي من خلال الشبكات التنافسية التوليدية (GANs). يمكن أن تنتج هذه التلاعبات صورًا وفيديوهات أو صوتًا مزيفًا واقعيًا، مما يقدم فرصًا إبداعية وتحديات أخلاقية وقانونية واجتماعية خطيرة. يعتبر التزييف العميق مثيرًا للقلق بشكل خاص لأنه يعمل كأداة للخداع، قادرة على نشر المعلومات المضللة والتأثير على الرأي العام على المنصات الاجتماعية والأخبار.
على الرغم من الانتشار المتزايد للتزييف العميق، فإن الأبحاث الحالية تركز بشكل أساسي على أداء الكشف، مع فهم محدود للعوامل التي تؤثر على قدرات كل من الآلات والبشر في تحديد هذه التلاعبات. علاوة على ذلك، تم إجراء الدراسات إلى حد كبير في عزلة ضمن مجالاتها الخاصة، مما يفتقر إلى المقارنات المباشرة بين أداء الكشف للآلات والبشر. لمعالجة هذه الفجوات، تهدف المشروع الحالي إلى تحديد مصادر أخطاء التصنيف الخاطئ في الآلات (الهدف 1)، واستكشاف الآليات النفسية الكامنة وراء كشف البشر للتزييف العميق (الهدف 2)، ومقارنة مباشرة لأداء الآلات والبشر في التمييز بين المحفزات الحقيقية والتزييف العميق عبر دراستين—واحدة تتعلق بالصور الثابتة (الدراسة 1) والأخرى مقاطع الفيديو الديناميكية (الدراسة 2).
النتائج
تشير قسم النتائج إلى أن جميع مجموعات البيانات غير المحددة والبرامج النصية للتحليل من كل من الدراسة 1 والدراسة 2 متاحة للجمهور من خلال مستودع إطار العلوم المفتوحة (OSF). تتيح هذه الشفافية التحقق واستكشاف المزيد من النتائج المقدمة في الدراسات. يوفر الرابط المحدد (https://osf.io/qhm3y/?view_only=bdc41a53bf7a4367bde6951372d9c932) موردًا للباحثين المهتمين بتكرار التحليلات أو استخدام مجموعات البيانات لأغراض بحثية إضافية.
المناقشة
تسلط قسم المناقشة في الورقة البحثية الضوء على التقدم والتحديات في كشف صور وفيديوهات التزييف العميق باستخدام التعلم الآلي (ML) والحكم البشري. تُلاحظ النماذج التوليدية، وخاصة الشبكات التنافسية التوليدية (GANs)، لقدرتها على إنشاء محتوى تزييف عميق عالي الجودة، والذي غالبًا ما يحتفظ بآثار قابلة للتحديد يمكن استغلالها من قبل خوارزميات التعلم الآلي للكشف. أظهرت الشبكات العصبية التلافيفية (CNNs) نتائج واعدة، محققة معدلات دقة تتراوح بين 83% و100% لكشف الصور و80% إلى 90% لكشف الفيديو. ومع ذلك، يمكن أن يختلف أداء هذه الخوارزميات بشكل كبير، والأسباب الكامنة وراء هذه التباينات لا تزال غير مفهومة جيدًا. تهدف الدراسة إلى التحقيق في العوامل التي تؤثر على قدرة كل من الآلات والبشر على تصنيف المحتوى الحقيقي مقابل التزييف العميق بدقة، مع التركيز على التحيزات في أنظمة الكشف والعوامل النفسية التي تؤثر على أداء البشر.
يعتبر كشف البشر للتزييف العميق أقل موثوقية بشكل ملحوظ، حيث تشير الدراسات إلى أن الأفراد غالبًا ما يؤدون بمستويات عشوائية عند التمييز بين الصور الحقيقية والمزيفة. بينما تشير بعض الدراسات البشرية إلى دقة الكشف عن التزييف العميق في الفيديو تتراوح بين 58% إلى 89%، تشير النتائج إلى أن الأفراد غالبًا ما يتم تضليلهم بواسطة واقعية محتوى التزييف العميق. تستكشف الأبحاث أيضًا كيف تؤثر المعالجة المعرفية والاجتماعية والعاطفية، بالإضافة إلى الخبرة مع الوسائط الرقمية، على دقة الكشف. من الجدير بالذكر أن الدراسة تقيم متغيرات نفسية مختلفة، بما في ذلك التفكير التحليلي والمهارات الرقمية، لفهم مساهماتها في قدرات كشف التزييف العميق. يتم التأكيد على دمج مقاييس أداء الآلات والبشر، بهدف تعزيز الجهود التعاونية في كشف التزييف العميق وتحسين الدقة العامة في التمييز بين المحتوى الحقيقي والوسائط المتلاعب بها.
القيود
تنبع قيود هذه الدراسة بشكل أساسي من استبعاد بعض الخوارزميات التي تم تدريبها مسبقًا على نفس مجموعات البيانات مثل عينات الاختبار، مما قد يكون قد قيد إمكانيات أداء نماذج التعلم الآلي (ML) المختارة. كان هذا القرار يهدف إلى منع تسرب البيانات وضمان استقلالية أداء الاختبار عن عمليات التدريب. وبالتالي، قد لا تمثل النتائج بدقة القدرات المثلى لهذه النماذج في الظروف المثالية. ركزت الدراسة على تقييم تعميم خوارزميات التعلم الآلي الموجودة على المحتوى غير المرئي، مقارنتًا أدائها مع قدرات الكشف البشرية. قد تختلف دقة التصنيف المنخفضة الملحوظة لمقاطع الفيديو عن الأبحاث السابقة بسبب التباينات المنهجية، مثل الاعتماد على بيانات عالية الدقة في الدراسات السابقة التي التقطت إشارات دقيقة، والتي لم تكن موجودة في مجموعات البيانات الحالية.
بالإضافة إلى ذلك، كانت مقاييس التقييم في الدراسة متغيرة عبر التجارب، مما قد يؤدي إلى عمليات معرفية مختلفة تؤثر على الأحكام. تحد من هذه التباينات المقارنة المباشرة بين الدراسات. يجب أن تقوم الأبحاث المستقبلية بتوحيد تنسيقات الاستجابة والنظر في إجراءات التقييم ذات الخطوتين لعزل البنى النفسية بشكل أفضل. كما قيد التصميم تقييم موثوقية المقيم الداخلي، حيث قام المشاركون بتقييم العديد من المحفزات الفريدة مرة واحدة فقط، مما قد يكون قد أخفى تأثير الفروق الفردية على أداء الكشف. علاوة على ذلك، قد تكون التحيزات الديموغرافية في صور الوجه المولدة قد أثرت على نتائج الكشف، مما يبرز الحاجة إلى أن تستخدم الدراسات المستقبلية أساليب توليد تسمح بالتحكم الديموغرافي أو توظيف مجموعات بيانات متوازنة. أخيرًا، تشير الدراسة إلى الحاجة لاستكشاف قابلية التزييف العميق لدى كبار السن، الذين قد يواجهون تحديات فريدة في كشف المحتوى الخادع، مما يساهم في توجيه التدخلات التي تهدف إلى تعزيز الثقافة الرقمية في هذه الفئة السكانية.
DOI: https://doi.org/10.1186/s41235-025-00700-y
PMID: https://pubmed.ncbi.nlm.nih.gov/41501543
Publication Date: 2026-01-07
Author(s): Didem Pehlivanoglu et al.
Primary Topic: Generative Adversarial Networks and Image Synthesis
Overview
This research paper investigates the detection of deepfakes—synthetic media generated by deep-generative methods—by comparing the performance of machine learning (ML) algorithms and human observers. The study comprises two parts: Study 1 focuses on static face images, while Study 2 examines dynamic videos. Findings from Study 1 indicate that ML algorithms excel in classifying real and deepfake images, achieving high accuracy in feature classification. In contrast, human participants struggled to differentiate between real and deepfake images, performing at chance level and exhibiting a truth bias alongside low confidence in their assessments.
In Study 2, the performance of ML algorithms declined significantly when classifying dynamic videos, resulting in near chance-level accuracy and a pronounced lie bias. Conversely, humans demonstrated superior detection capabilities for video deepfakes, outperforming machines despite their earlier difficulties with static images. The study also identifies key psychological factors influencing human performance, revealing that higher analytical thinking, lower positive affect, and greater internet skills correlate with improved detection of video deepfakes. Overall, the research highlights the strengths and weaknesses of both humans and machines in deepfake detection, suggesting that collaborative efforts could enhance detection efficacy in the face of this growing technological threat.
Introduction
The introduction of the research paper highlights the significant advancements in artificial intelligence (AI) that have facilitated the creation of deepfakes—manipulated media generated primarily through generative adversarial networks (GANs). These manipulations can produce realistic fake images, videos, or audio, presenting both creative opportunities and serious ethical, legal, and societal challenges. Deepfakes are particularly concerning as they serve as tools for deception, capable of spreading misinformation and influencing public opinion on social and news platforms.
Despite the growing prevalence of deepfakes, existing research has predominantly focused on detection performance, with limited understanding of the factors influencing both machine and human capabilities in identifying these manipulations. Furthermore, studies have largely been conducted in isolation within their respective fields, lacking direct comparisons between machine and human detection performance. To address these gaps, the current project aims to identify sources of misclassification errors in machines (Aim 1), explore the psychological mechanisms underlying human deepfake detection (Aim 2), and directly compare the performance of machines and humans in discerning real from deepfake stimuli across two studies—one involving static images (Study 1) and the other dynamic videos (Study 2).
Results
The results section indicates that all de-identified datasets and analysis scripts from both Study 1 and Study 2 are publicly accessible through the Open Science Framework (OSF) repository. This transparency allows for verification and further exploration of the findings presented in the studies. The specific URL provided (https://osf.io/qhm3y/?view_only=bdc41a53bf7a4367bde6951372d9c932) serves as a resource for researchers interested in replicating the analyses or utilizing the datasets for additional research purposes.
Discussion
The discussion section of the research paper highlights the advancements and challenges in the detection of deepfake images and videos using machine learning (ML) and human judgment. Generative models, particularly Generative Adversarial Networks (GANs), are noted for their ability to create high-quality deepfake content, which often retains identifiable artifacts that can be exploited by ML algorithms for detection. Convolutional Neural Networks (CNNs) have shown promising results, achieving accuracy rates between 83% and 100% for image detection and 80% to 90% for video detection. However, the performance of these algorithms can vary significantly, and the underlying reasons for such discrepancies remain poorly understood. The study aims to investigate the factors influencing the ability of both machines and humans to accurately classify real versus deepfake content, focusing on biases in detection systems and the psychological factors affecting human performance.
Human detection of deepfakes is notably less reliable, with studies indicating that individuals often perform at chance levels when distinguishing between real and fake images. While some human studies report detection accuracies for video deepfakes ranging from 58% to 89%, the findings suggest that individuals are frequently misled by the realism of deepfake content. The research further explores how cognitive and socioemotional processing, as well as experience with digital media, influence detection accuracy. Notably, the study assesses various psychological variables, including analytical thinking and digital literacy, to understand their contributions to deepfake detection capabilities. The integration of machine and human performance metrics is emphasized, aiming to enhance collaborative efforts in deepfake detection and improve overall accuracy in distinguishing genuine content from manipulated media.
Limitations
The limitations of this study primarily stem from the exclusion of certain algorithms that were pretrained on the same datasets as the test samples, which may have restricted the performance potential of the selected machine learning (ML) models. This decision aimed to prevent data leakage and ensure the independence of test performance from training processes. Consequently, the findings may not accurately represent the optimal capabilities of these models under ideal conditions. The study focused on evaluating the generalization of existing ML algorithms to unseen content, contrasting their performance with human detection abilities. The observed low classification accuracy for videos may differ from previous research due to methodological variations, such as the reliance on high-resolution data in earlier studies that captured subtle cues, which were not present in the current datasets.
Additionally, the study’s rating scales varied across experiments, potentially leading to different cognitive processes influencing judgments. This variability limits direct comparability between studies. Future research should standardize response formats and consider two-step rating procedures to better isolate psychological constructs. The design also restricted intra-rater reliability assessment, as participants rated numerous unique stimuli only once, which may have obscured the influence of individual differences on detection performance. Furthermore, demographic biases in the generated face images could have affected detection outcomes, highlighting the need for future studies to utilize generative approaches that allow for demographic control or employ balanced datasets. Lastly, the study suggests a need to explore deepfake susceptibility in older adults, who may face unique challenges in detecting deceptive content, thereby informing interventions aimed at enhancing digital literacy in this demographic.
