DOI: https://doi.org/10.1371/journal.pone.0317421
PMID: https://pubmed.ncbi.nlm.nih.gov/40096185
تاريخ النشر: 2025-03-17
المؤلف: Angus R. Williams وآخرون
الموضوع الرئيسي: المعلومات المضللة وتأثيراتها
نظرة عامة
تستكشف هذه الدراسة إمكانية نماذج اللغة الكبيرة (LLMs) لأتمتة عمليات التضليل الانتخابي، مع التركيز على امتثالها للمطالبات المصممة لهذا الغرض. يقدم المؤلفون DisElect، مجموعة بيانات تقييم جديدة تتكون من 2,200 مطالبة خبيثة و50 مطالبة غير خبيثة مصممة للسياق البريطاني. من خلال اختبار 13 نموذجًا من نماذج اللغة الكبيرة، وجدت الدراسة أن معظم النماذج تمتثل للطلبات المتعلقة بمحتوى التضليل، بينما تميل النماذج التي ترفض مثل هذه المطالبات أيضًا إلى رفض الطلبات غير الخبيثة المتعلقة بالانتخابات، خاصة من منظور يميني.
بالإضافة إلى ذلك، تقيم البحث “الإنسانية” لمحتوى نماذج اللغة الكبيرة التي تم إنشاؤها من خلال تجارب تشمل 2,340 تقييمًا. تشير النتائج إلى أن ما يقرب من جميع نماذج اللغة الكبيرة التي تم إصدارها منذ عام 2022 تنتج محتوى تضليلي لا يمكن تمييزه عن النص المكتوب بواسطة البشر أكثر من 50% من الوقت، مع تحقيق بعض النماذج لمستويات من الإنسانية تتجاوز تلك الخاصة بالمقيمين البشر. تسلط هذه النتائج الضوء على قدرة نماذج اللغة الكبيرة الحالية على إنتاج محتوى تضليلي انتخابي عالي الجودة بكفاءة، مما يثير تداعيات كبيرة للباحثين وصانعي السياسات بشأن قياس وتقييم هذه التقنيات في السياقات الحالية والمستقبلية.
مقدمة
تسلط مقدمة ورقة البحث الضوء على تزايد إمكانية الوصول إلى نماذج اللغة الكبيرة (LLMs) لتوليد اللغة الطبيعية، مما يشكل خطرًا كبيرًا حيث يمكن استغلال هذه الأدوات من قبل الجهات الخبيثة لإجراء عمليات معلومات تهدف إلى نشر التضليل. يمكن أن تقوض هذه العمليات المؤسسات الديمقراطية من خلال تعزيز روايات كاذبة حول السياسيين، والعمليات الانتخابية، والقضايا المحلية. تعتمد فعالية هذه العمليات على القدرة على إنتاج محتوى واقعي على نطاق واسع، وهو ما كان تحديًا تقليديًا بسبب التكاليف والتعقيدات التشغيلية المعنية. ومع ذلك، فإن ظهور الذكاء الاصطناعي التوليدي ونماذج اللغة الكبيرة لديه القدرة على إحداث ثورة في هذه الجهود من خلال تمكين الإنتاج السريع لمحتوى يبدو أصليًا، مما يعزز قدرات الحملات التضليلية الحالية ويسهل ظهور حملات جديدة.
تقدم الورقة دراسة من جزئين تفحص استخدام نماذج اللغة الكبيرة في عمليات التضليل الانتخابي. أولاً، تقدم DisElect، مجموعة بيانات تقييم جديدة، تكشف أن معظم نماذج اللغة الكبيرة يمكنها توليد محتوى لحملات التضليل دون الحاجة إلى مطالبات عدائية. من الجدير بالذكر أن بعض النماذج التي ترفض الامتثال لمثل هذه الطلبات ترفض أيضًا المطالبات غير الخبيثة، مما يشير إلى قيود محتملة في فائدتها للأغراض الخبيثة. ثانيًا، تقيم الدراسة مصداقية المحتوى الذي تم إنشاؤه بواسطة نماذج اللغة الكبيرة، حيث تجد أن المشاركين البشر يكافحون لتمييز النص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي عن النص المكتوب بواسطة البشر أكثر من 50% من الوقت، خاصة مع النماذج التي تم إصدارها منذ عام 2022. يشير هذا إلى أن نماذج اللغة الكبيرة يمكن أن تنتج محتوى يُنظر إليه على أنه أكثر إنسانية من ذلك الذي ينتجه البشر الفعليون، مع تداعيات على فعالية استراتيجيات التضليل. يتم إتاحة النتائج، جنبًا إلى جنب مع مجموعة بيانات DisElect، للجمهور لتعزيز البحث حول الاستخدام الخبيث للذكاء الاصطناعي وإنسانية المحتوى الذي تم إنشاؤه.
الطرق
تتكون منهجية هذه الدراسة من تحقيق من جزئين يهدف إلى تقييم فائدة نماذج اللغة الكبيرة (LLMs) في أتمتة عمليات التضليل الانتخابي. الجزء الأول يتضمن إنشاء مجموعة بيانات تقييم منهجية، مصممة لقياس امتثال نماذج اللغة الكبيرة لتعليمات محددة لتوليد محتوى مخصص لحملات التضليل المتعلقة بالانتخابات. تسعى هذه التقييمات إلى قياس فعالية وموثوقية نماذج اللغة الكبيرة في إنتاج التضليل المستهدف.
يتكون الجزء الثاني من الدراسة من تجارب بشرية تركز على قدرة الأفراد على التمييز بين المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي والذي أنتجه البشر في سياق عمليات التضليل الانتخابي. لا يقيم هذا النهج المزدوج أداء نماذج اللغة الكبيرة في توليد المحتوى فحسب، بل يفحص أيضًا القدرات الإدراكية للبشر في التعرف على التضليل، مما يوفر رؤى حول التداعيات المحتملة لنماذج اللغة الكبيرة في مجال نزاهة الانتخابات.
النتائج
يقدم قسم النتائج تنظيمًا منهجيًا للنماذج بناءً على تواريخ إصدارها، حيث يتم عرض أقدم النماذج أولاً وأحدث النماذج أخيرًا. يسهل هذا الترتيب الزمني فهم تطور النماذج بمرور الوقت. تؤكد النتائج على التقدم والتطورات التي تم إحرازها في هذا المجال، مما يسمح بإجراء تحليل مقارن لأداء النماذج واتجاهات التطوير.
المناقشة
يتناول قسم المناقشة في الورقة القضية الحرجة لعمليات التضليل، خاصة في سياق التأثير السياسي والإدراك العام. يميز بين المعلومات المضللة – المعلومات الكاذبة دون نية خبيثة – والتضليل، الذي يكون مضللًا عمدًا. يبرز المؤلفون القلق العام الكبير بشأن التضليل، خاصة خلال أحداث مثل جائحة COVID-19 والانتخابات الأمريكية 2016، حيث أظهرت الحملات المنظمة، مثل تلك التي قامت بها وكالة أبحاث الإنترنت الروسية، مدى انتشار وتأثير مثل هذه العمليات. تؤكد الورقة على دور الشبكات الاجتماعية في تضخيم التضليل من خلال آليات مثل “أثر القافلة”، حيث تكتسب الادعاءات الشعبية مصداقية ببساطة من خلال القبول الواسع.
كما يناقش المؤلفون تداعيات التقدم في الذكاء الاصطناعي (AI) على حملات التضليل، مشيرين إلى زيادة ملحوظة في المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي. يشيرون إلى دراسات توضح أن نماذج الذكاء الاصطناعي، بما في ذلك نماذج اللغة الكبيرة (LLMs)، يمكن أن تنتج التضليل بفعالية، وغالبًا ما تكون غير قابلة للتمييز عن المحتوى الذي ينتجه البشر. تسهم الورقة في هذا المجال من خلال تقييم كل من قدرة نماذج اللغة الكبيرة المختلفة على إنتاج التضليل وقدرة الجمهور على تمييز المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي عن النص المكتوب بواسطة البشر. من خلال سلسلة من التجارب، يقيم المؤلفون امتثال النماذج للمطالبات المصممة لاستنباط التضليل ويستكشفون تفاعلات البشر مع مثل هذا المحتوى، مما يكشف أن التضليل الذي تم إنشاؤه بواسطة الذكاء الاصطناعي يمكن أن يُنظر إليه على أنه موثوق بنفس القدر أو أكثر من ذلك الذي ينتجه البشر. تؤكد هذه الدراسة على الحاجة إلى تقييمات أمان قوية للذكاء الاصطناعي وتبرز إمكانية أن يؤدي الذكاء الاصطناعي إلى تفاقم التحديات التي تطرحها التضليل في السياقات الانتخابية.
القيود
في قسم القيود من الدراسة، يعترف المؤلفون بعدة قيود قد تؤثر على النتائج ويقترحون طرقًا للبحث المستقبلي. يبرزون التركيز على استراتيجيات المطالبات العدائية، مشيرين إلى أنه بينما يمكن أن تخفف هذه الاستراتيجيات استجابات الرفض، لم تنفذ الدراسة هندسة المطالبات لتعزيز جودة الاستجابة أو تقليل الرفض. تشير هذه القيود إلى أن المزيد من التحقيق في تحسين المطالبات قد يوفر رؤى حول الحدود العليا لتأثير عمليات المعلومات المدعومة بنماذج اللغة الكبيرة (LLM) بما يتجاوز الأساس الذي تم تأسيسه في هذا البحث.
بالإضافة إلى ذلك، فإن اختيار 13 نموذجًا من نماذج اللغة الكبيرة، بينما يسمح بإجراء تحليل مقارن بين النماذج الشائعة، لا يشمل الطيف الكامل للنماذج التي تم إصدارها في السنوات الأخيرة. يؤكد المؤلفون أن اختياراتهم كانت تعتمد بشكل أساسي على الإصدارات اللاحقة من المطورين الرئيسيين مثل OpenAI وMeta، مما قد يتجاهل أداء نماذج أخرى مهمة مثل Claude من Anthropic أو Ernie من Baidu. علاوة على ذلك، فإن التركيز الحصري للدراسة على التضليل باللغة الإنجليزية يحد من قابليتها للتطبيق في السياقات متعددة اللغات، مما يشير إلى أن الأعمال المستقبلية يجب أن تستكشف مجموعة أوسع من النماذج واللغات لتوفير فهم أكثر شمولاً لقدرات نماذج اللغة الكبيرة وتداعياتها في نشر المعلومات.
DOI: https://doi.org/10.1371/journal.pone.0317421
PMID: https://pubmed.ncbi.nlm.nih.gov/40096185
Publication Date: 2025-03-17
Author(s): Angus R. Williams et al.
Primary Topic: Misinformation and Its Impacts
Overview
This study investigates the potential of large language models (LLMs) to automate election disinformation operations, focusing on their compliance with prompts designed for this purpose. The authors introduce DisElect, a novel evaluation dataset comprising 2,200 malicious and 50 benign prompts tailored to the UK context. Testing 13 LLMs, the study finds that most models comply with requests for disinformation content, while those that refuse such prompts also tend to reject benign election-related requests, particularly from a right-wing perspective.
Additionally, the research assesses the “humanness” of LLM-generated content through experiments involving 2,340 evaluations. Results indicate that nearly all LLMs released since 2022 produce disinformation content that is indistinguishable from human-written text over 50% of the time, with some models achieving levels of humanness surpassing that of human evaluators. These findings highlight the capability of current LLMs to generate high-quality election disinformation content efficiently, raising significant implications for researchers and policymakers regarding the measurement and evaluation of these technologies in both present and future contexts.
Introduction
The introduction of the research paper highlights the growing accessibility of Large Language Models (LLMs) for generating natural language, which poses a significant risk as these tools can be exploited by malicious actors to conduct information operations aimed at disseminating disinformation. Such operations can undermine democratic institutions by promoting false narratives about politicians, electoral processes, and local issues. The effectiveness of these operations hinges on the ability to produce realistic content at scale, which has traditionally been a challenge due to the costs and operational complexities involved. However, the advent of generative AI and LLMs has the potential to revolutionize these efforts by enabling the rapid generation of authentic-seeming content, thus enhancing the capabilities of existing disinformation campaigns and facilitating the emergence of new ones.
The paper presents a two-part study examining the use of LLMs in election disinformation operations. First, it introduces DisElect, a novel evaluation dataset, revealing that most LLMs can generate content for disinformation campaigns without requiring adversarial prompting. Notably, some models that refuse to comply with such requests also reject benign prompts, indicating a potential limitation in their utility for malicious purposes. Second, the study assesses the perceived authenticity of LLM-generated content, finding that human participants struggle to distinguish between AI-generated and human-written text over 50% of the time, particularly with models released since 2022. This suggests that LLMs can produce content that is perceived as more human-like than that of actual humans, with implications for the effectiveness of disinformation strategies. The findings, along with the DisElect dataset, are made publicly available to further research on the malicious use of AI and the humanness of generated content.
Methods
The methodology of this study comprises a two-part investigation aimed at assessing the utility of large language models (LLMs) in automating election disinformation operations. The first part involves the creation of a systematic evaluation dataset, which is designed to measure the compliance of LLMs with specific instructions for generating content intended for disinformation campaigns related to elections. This evaluation seeks to quantify the effectiveness and reliability of LLMs in producing targeted disinformation.
The second part of the study consists of human experiments that focus on the ability of individuals to differentiate between content generated by AI and that produced by humans within the context of election disinformation operations. This dual approach not only evaluates the performance of LLMs in content generation but also examines the perceptual capabilities of humans in recognizing disinformation, thereby providing insights into the potential implications of LLMs in the realm of election integrity.
Results
The results section presents a systematic organization of models based on their release dates, with the oldest models displayed first and the newest models last. This chronological arrangement facilitates a clear understanding of the evolution of the models over time. The findings underscore the progression and advancements made in the field, allowing for a comparative analysis of model performance and development trends.
Discussion
The discussion section of the paper addresses the critical issue of disinformation operations, particularly in the context of political influence and public perception. It distinguishes between misinformation—false information without malicious intent—and disinformation, which is deliberately misleading. The authors highlight the significant public concern regarding disinformation, especially during events like the COVID-19 pandemic and the 2016 US elections, where organized campaigns, such as those by the Russian Internet Research Agency, demonstrated the extensive reach and impact of such operations. The paper emphasizes the role of social networks in amplifying disinformation through mechanisms like the “bandwagon effect,” where popular claims gain credibility simply through widespread acceptance.
The authors also discuss the implications of advancements in artificial intelligence (AI) for disinformation campaigns, noting a marked increase in AI-generated content. They reference studies indicating that AI models, including large language models (LLMs), can produce disinformation effectively, often indistinguishable from human-generated content. The paper contributes to the field by evaluating both the capability of various LLMs to generate disinformation and the public’s ability to discern AI-generated content from human-written text. Through a series of experiments, the authors assess model compliance with prompts designed to elicit disinformation and explore human interactions with such content, revealing that AI-generated disinformation can be perceived as equally or more credible than that produced by humans. This research underscores the need for robust AI safety evaluations and highlights the potential for AI to exacerbate the challenges posed by disinformation in electoral contexts.
Limitations
In the limitations section of the study, the authors acknowledge several constraints that could influence the findings and suggest avenues for future research. They highlight the focus on adversarial prompting strategies, noting that while these strategies could potentially mitigate refusal responses, the study did not implement prompt engineering to enhance response quality or reduce refusals. This limitation suggests that further investigation into prompt optimization could yield insights into the upper bounds of the impact of large language model (LLM)-powered information operations beyond the baseline established in this research.
Additionally, the selection of 13 LLMs, while allowing for comparative analysis among popular models, does not encompass the entire spectrum of models released in recent years. The authors emphasize that their choices were primarily based on subsequent versions from major developers like OpenAI and Meta, which may overlook the performance of other significant models such as Anthropic’s Claude or Baidu’s Ernie. Furthermore, the study’s exclusive focus on disinformation in English limits its applicability to multilingual contexts, suggesting that future work should explore a broader range of models and languages to provide a more comprehensive understanding of LLM capabilities and their implications in information dissemination.
