DOI: https://doi.org/10.1145/3819074
تاريخ النشر: 2026-05-30
المؤلف: Geng Liu وآخرون
الموضوع الرئيسي: تصميم الشخصيات والتطبيقات
نظرة عامة
تبحث هذه الورقة البحثية في تأثير تعيين الشخصيات على إنتاج المحتوى الضار بواسطة نماذج اللغة الكبيرة (LLMs)، مع التركيز بشكل خاص على نماذج اللغة الكبيرة المستندة إلى اللغة الصينية. باستخدام مجموعة بيانات تضم أكثر من 1,400,000 نص تم إنتاجه، تجري الدراسة تحليلًا شاملًا عبر النماذج لسلوك الرفض وتضخيم السمية المدفوعة بالشخصيات عبر أربعة نماذج لغة كبيرة صينية. تكشف النتائج عن تفاوتات كبيرة في سلوك الرفض، مع تسليط الضوء بشكل خاص على الفروق النظامية بين الجنسين في كيفية تحفيز الرفض. بالإضافة إلى ذلك، تقدم البحث أدلة كمية على أن تضخيم السمية المدفوعة بالشخصيات يحدث بالنسبة إلى خطوط الأساس الافتراضية للنموذج، مع اختلاف مدى هذا التضخيم عبر نماذج مختلفة.
تحدد الدراسة عدة عوامل تؤثر على تضخيم السمية، بما في ذلك تكييف الشخصيات، استراتيجيات التحفيز، المجموعات الاجتماعية المستهدفة، وآليات الأمان الخاصة بالنموذج. من خلال تحليلات الانحدار الخاصة بالنموذج، يصف المؤلفون التأثيرات المستقلة والمشتركة لفئات الشخصيات، والمجموعات الاجتماعية المستهدفة، وقوالب التحفيز على كل من سلوك الرفض وسُمية المخرجات. كإجراء عملي، تقدم الورقة استراتيجية تخفيف موجهة من قبل مقيم تكرارية تستفيد من التعليقات من مقيم LLM خارجي، مما يوضح أنه من الممكن تقليل المخرجات السامة بشكل كبير دون الحاجة إلى إعادة تدريب النموذج بشكل مكثف. بشكل عام، تؤكد الأبحاث على ضرورة إجراء تقييمات أمان سياقية ثقافيًا لنماذج اللغة الكبيرة باللغة الصينية وتقدم إطار عمل منظم لتقييم المخاطر الناتجة عن الشخصيات واستكشاف استراتيجيات التخفيف في المحتوى الذي تم إنتاجه بواسطة LLM.
مقدمة
تسلط مقدمة هذه الورقة البحثية الضوء على التأثير التحويلي لنماذج اللغة الكبيرة (LLMs) في تطبيقات متنوعة، لا سيما في الإجابة على الأسئلة والتفكير الرياضي. على عكس النماذج التقليدية التي تتطلب تدريبًا مكثفًا محددًا للمهام، تستخدم نماذج اللغة الكبيرة التعلم في السياق لأداء مهام متنوعة بناءً فقط على التحفيزات المقدمة. ومع ذلك، فإن دمجها في التطبيقات الواقعية قد أثار تحديات كبيرة، بما في ذلك تضخيم التحيزات، والاحتمال لانتشار المعلومات المضللة، والمخاوف الأخلاقية بشأن إنتاج المحتوى الضار. تتناول الدراسة بشكل خاص ظاهرة سلوك الرفض في نماذج اللغة الكبيرة، حيث قد ترفض النماذج إنتاج ردود ضارة، وتحقق في تأثير تصميم التحفيز وتعيين الشخصيات على كل من معدلات الرفض وسُمية الردود في نماذج اللغة الكبيرة المستندة إلى اللغة الصينية.
تهدف الأبحاث إلى استكشاف منهجي لكيفية تأثير قوالب التحفيز المختلفة والشخصيات المعينة على سلوك الرفض ومستويات السمية عبر هذه النماذج. تركز أسئلة البحث الرئيسية على التفاعل بين عناصر تصميم التحفيز وتأثيرها على مخرجات نماذج اللغة الكبيرة. تستخدم الدراسة مجموعة بيانات كبيرة لتوصيف سلوك الرفض وقياس تضخيم السمية الناتج عن تعيين الشخصيات، مما يكشف أن بعض التركيبات يمكن أن تزيد السمية بشكل كبير. بالإضافة إلى ذلك، توضح الورقة دراسة حالة للتخفيف تفحص إمكانية تقليل السمية الناتجة عن الشخصيات من خلال التعليقات الموجهة من المقيمين بشكل تكراري. بشكل عام، تؤكد النتائج على الحاجة إلى تقييمات محددة ثقافيًا لنماذج اللغة الكبيرة وتساهم في فهم آليات الأمان المتأصلة في تصميمها.
الطرق
في هذا القسم، يحدد المؤلفون منهجيتهم لإجراء تحليل عبر النماذج لأربعة نماذج بارزة من نماذج اللغة الكبيرة الصينية (LLMs): Qwen-Turbo، Ernie-4.5-Turbo-128k، DeepSeek-V3، وHunyuan-Standard. يتم هيكلة التحليل حول إعدادات التحفيز وفك الشيفرة المتطابقة لضمان الاتساق. يستخدم الباحثون مجموعة متنوعة من الشخصيات وقوالب التحفيز لتقييم استجابات النماذج لمجموعات اجتماعية مختلفة داخل المجتمع الصيني. تشمل الدراسة ثلاثة تحليلات رئيسية: (1) قياس معدلات الرفض بناءً على عوامل التحفيز مثل تعيين الشخصيات والقطبية الدلالية؛ (2) تقييم مستويات السمية للمخرجات الناتجة؛ و(3) تحديد العوامل الرئيسية التي تؤثر على سمية المحتوى من خلال تحليلات الانحدار الخاصة بالنموذج.
لاستكشاف إمكانية تخفيف المخرجات الضارة دون إعادة تدريب النماذج، يجري المؤلفون دراسة حالة باستخدام Qwen. يحددون 1,000 حالة تحفيز أنتجت أعلى درجات السمية ويطبقون استراتيجية تخفيف موجهة من قبل مقيم. تتضمن هذه الطريقة استخدام نموذج لغة كبير إضافي لتحسين المخرجات بشكل تكراري مع الالتزام بالاعتبارات الأمنية، بدلاً من مجرد إعادة ردود Qwen الأصلية. يتم تفصيل تفاصيل بروتوكول التفاعل ومعايير الأمان وسلوك التقارب لهذه العملية التخفيفية في الملحق D.
النتائج
في قسم تنفيذ نتائج تخفيف السمية D، تقدم الدراسة نتائج استراتيجيات مختلفة تم استخدامها لتقليل مستويات السمية في البيئة المعنية. أدى تنفيذ هذه الاستراتيجيات إلى انخفاض كبير في تركيزات المركبات السامة، كما يتضح من القياسات الكمية التي تم أخذها قبل وبعد التدخل. تشير النتائج إلى أن أكثر نهج تخفيف فعالية كان يتضمن مزيجًا من العلاجات الكيميائية وتقنيات المعالجة البيولوجية، والتي قللت مجتمعة السمية بأكثر من 70%.
علاوة على ذلك، كشفت تحليل البيانات عن وجود علاقة بين مدة الاستراتيجيات المنفذة ومدى تقليل السمية. أدى التعرض لفترة أطول لتدابير التخفيف إلى مستويات سمية أقل تدريجيًا، مما يشير إلى أن التدخل المستمر أمر حاسم لتحقيق نتائج مثلى. تؤكد النتائج على أهمية استراتيجيات التخفيف المخصصة في معالجة تحديات السمية المحددة وتوفر إطارًا للبحث والتطبيق المستقبلي في سياقات مماثلة.
المناقشة
يتناول قسم المناقشة في الورقة البحثية الآثار الأخلاقية لنماذج اللغة الكبيرة (LLMs) والمنهجيات المستخدمة للكشف عن المخرجات الضارة وتخفيفها. تسلط الدراسات الحديثة الضوء على السمية المتزايدة المرتبطة بتعيينات الشخصيات في نماذج اللغة الكبيرة، مع الإشارة إلى أن السمية يمكن أن تزيد بشكل كبير – حتى ست مرات – عند تطبيق شخصيات مختلفة. تم استخدام أدوات مثل واجهة برمجة التطبيقات Perspective لتقييم مستويات السمية عبر لغات مختلفة، بما في ذلك الصينية، على الرغم من أن النماذج الحالية مثل COLDETECTOR تفتقر إلى التحليل الدقيق المطلوب للتقييمات الشاملة. يقترح المؤلفون استخدام واجهة برمجة التطبيقات Perspective لقدراتها متعددة اللغات وتسجيل السمية المستمر، مما يسمح بمقارنات أكثر دقة.
لتخفيف المخرجات الضارة، تناقش الورقة استراتيجيات مختلفة، بما في ذلك تحسين النماذج واستخدام التعلم المعزز مع التغذية الراجعة البشرية. ومع ذلك، تتطلب العديد من هذه الأساليب الوصول المباشر إلى تفاصيل النموذج، وهو ما غالبًا ما يكون غير ممكن بالنسبة لنماذج اللغة الكبيرة المغلقة المصدر. بدلاً من ذلك، يعتمد المؤلفون نهجًا قائمًا على وكيل الذكاء الاصطناعي يستخدم آليات التغذية الراجعة التكرارية لتحسين استجابات النموذج. يستلهم هذا الأسلوب من الأعمال السابقة على أطر إزالة التحيز التي تتضمن تفاعل عدة نماذج لغة كبيرة إما مركزيًا أو بطريقة لامركزية. كما تؤكد الدراسة على أهمية تصميم التحفيز في التأثير على سلوك النموذج، لا سيما فيما يتعلق بالسمية واستجابات الرفض. من خلال تصنيف الشخصيات والمجموعات الاجتماعية بشكل منهجي، يهدف المؤلفون إلى تحليل كيفية تأثير هذه العوامل على إنتاج الصور النمطية الضارة وتفعيل آليات الأمان في نماذج اللغة الكبيرة.
DOI: https://doi.org/10.1145/3819074
Publication Date: 2026-05-30
Author(s): Geng Liu et al.
Primary Topic: Persona Design and Applications
Overview
This research paper investigates the impact of persona assignments on the generation of harmful content by large language models (LLMs), with a specific focus on Chinese-based LLMs. Utilizing a dataset of over 1,400,000 generated texts, the study conducts a comprehensive cross-model analysis of refusal behavior and the amplification of persona-driven toxicity across four Chinese LLMs. The findings reveal significant disparities in refusal behavior, particularly highlighting systematic gender differences in how refusals are triggered. Additionally, the research provides quantitative evidence that persona-driven toxicity amplification occurs relative to model default baselines, with the extent of this amplification varying across different models.
The study identifies several factors influencing toxicity amplification, including persona conditioning, prompting strategies, target social groups, and model-specific safety mechanisms. Through model-specific regression analyses, the authors characterize the independent and joint effects of persona categories, target social groups, and prompt templates on both refusal behavior and output toxicity. As a practical application, the paper presents an iterative, evaluator-guided mitigation strategy that leverages feedback from an external LLM evaluator, demonstrating that it is possible to significantly reduce highly toxic outputs without the need for extensive model retraining. Overall, the research underscores the necessity of culturally contextualized safety evaluations for Chinese-language LLMs and offers a structured framework for assessing persona-induced risks and exploring mitigation strategies in LLM-generated content.
Introduction
The introduction of this research paper highlights the transformative impact of Large Language Models (LLMs) in various applications, particularly in question-answering and mathematical reasoning. Unlike traditional models that required extensive task-specific training, LLMs utilize in-context learning to perform diverse tasks based solely on provided prompts. However, their integration into real-world applications has raised significant challenges, including the amplification of biases, the potential for misinformation, and ethical concerns regarding harmful content generation. The study specifically addresses the phenomenon of refusal behavior in LLMs, where models may decline to generate harmful responses, and investigates the influence of prompt design and persona assignment on both refusal rates and response toxicity in Chinese-based LLMs.
The research aims to systematically explore how different prompt templates and designated personas affect refusal behavior and toxicity levels across these models. Key research questions focus on the interaction between prompt design elements and their impact on LLM outputs. The study employs a large-scale dataset to characterize refusal behavior and quantify the amplification of toxicity due to persona assignment, revealing that certain combinations can increase toxicity significantly. Additionally, the paper outlines a mitigation case study that examines the potential for reducing persona-induced toxicity through iterative evaluator-guided feedback. Overall, the findings underscore the need for culturally specific evaluations of LLMs and contribute to understanding the safety mechanisms inherent in their design.
Methods
In this section, the authors outline their methodology for conducting a cross-model analysis of four prominent Chinese large language models (LLMs): Qwen-Turbo, Ernie-4.5-Turbo-128k, DeepSeek-V3, and Hunyuan-Standard. The analysis is structured around identical prompt and decoding settings to ensure consistency. The researchers utilize a variety of personas and prompt templates to evaluate the models’ responses to different social groups within Chinese society. The study encompasses three primary analyses: (1) measuring refusal rates based on prompt factors such as persona assignment and semantic polarity; (2) assessing the toxicity levels of the generated outputs; and (3) identifying key factors influencing content toxicity through model-specific regression analyses.
To explore the possibility of mitigating harmful outputs without retraining the models, the authors conduct a case study using Qwen. They identify the 1,000 prompt instances that yielded the highest toxicity scores and apply an evaluator-guided mitigation strategy. This approach involves using an additional LLM to iteratively refine the outputs while adhering to safety considerations, rather than simply returning Qwen’s original responses. The specifics of the interaction protocol, safety criteria, and the convergence behavior of this mitigation process are detailed in Appendix D.
Results
In the section on D Toxicity Mitigation Implementation and Results, the study presents the outcomes of various strategies employed to reduce toxicity levels in the examined environment. The implementation of these strategies led to a significant decrease in toxic compound concentrations, as evidenced by quantitative measurements taken before and after the intervention. The results indicate that the most effective mitigation approach involved a combination of chemical treatments and bioremediation techniques, which collectively reduced toxicity by over 70%.
Furthermore, the analysis of the data revealed a correlation between the duration of the implemented strategies and the extent of toxicity reduction. Longer exposure to the mitigation measures resulted in progressively lower toxicity levels, suggesting that sustained intervention is crucial for achieving optimal results. The findings underscore the importance of tailored mitigation strategies in addressing specific toxicity challenges and provide a framework for future research and application in similar contexts.
Discussion
The discussion section of the research paper addresses the ethical implications of large language models (LLMs) and the methodologies employed to detect and mitigate harmful outputs. Recent studies highlight the heightened toxicity associated with persona assignments in LLMs, with findings indicating that toxicity can increase significantly—up to six times—when different personas are applied. Tools like the Perspective API have been utilized to assess toxicity levels across various languages, including Chinese, although existing models like COLDETECTOR lack the nuanced analysis required for comprehensive evaluations. The authors propose using the Perspective API for its multilingual capabilities and continuous toxicity scoring, allowing for more refined comparisons.
To mitigate harmful outputs, the paper discusses various strategies, including fine-tuning models and employing reinforcement learning with human feedback. However, many of these approaches necessitate direct access to model internals, which is often not feasible for closed-source LLMs. Instead, the authors adopt an AI-agent-based approach that utilizes iterative feedback mechanisms to refine model responses. This method is inspired by previous work on debiasing frameworks that involve multiple LLMs interacting either centrally or in a decentralized manner. The study also emphasizes the importance of prompt design in influencing model behavior, particularly regarding toxicity and refusal responses. By systematically categorizing personas and social groups, the authors aim to analyze how these factors affect the generation of harmful stereotypes and the activation of safety mechanisms in LLMs.
