DOI: https://doi.org/10.1038/s44387-025-00048-0
PMID: https://pubmed.ncbi.nlm.nih.gov/41523992
تاريخ النشر: 2026-01-07
المؤلف: Maarten Buyl وآخرون
الموضوع الرئيسي: الأخلاقيات والآثار الاجتماعية للذكاء الاصطناعي
نظرة عامة
تتناول الورقة البحثية التنوع الإيديولوجي بين نماذج اللغة الكبيرة (LLMs) من خلال تحليل تصويراتها لـ 3,991 شخصية ذات صلة سياسية. شملت الدراسة 19 نموذجًا شائعًا من LLMs وكشفت عن تفاوتات إيديولوجية كبيرة تأثرت بالمناطق الجغرافية السياسية (مثل الدول العربية، الصين، روسيا، والدول الغربية) واللغات (اللغات الست الرسمية للأمم المتحدة). ومن الجدير بالذكر أن النماذج المستندة إلى الولايات المتحدة أظهرت اختلافات معيارية تتماشى مع القيم التقدمية، بينما أظهرت النماذج الصينية انقسامًا بين تلك التي تركز على المنظورات الدولية مقابل المحلية. تشير هذه النتائج إلى أن الموقف الإيديولوجي لنموذج LLM يعكس وجهات نظر مبتكريه، مما يثير القلق بشأن إمكانية الاستغلال السياسي والتحديات المتعلقة بتحقيق الحياد الإيديولوجي في تصميم LLM.
كما تنتقد الورقة الأساليب الحالية لتقييم إيديولوجيات LLM، والتي غالبًا ما تعتمد على الأسئلة المباشرة حول المعتقدات المعيارية. أظهرت هذه الأساليب عدم الاتساق والحساسية لتشكيل المطالبات، مما يشير إلى أنها قد لا تعكس بدقة سلوك LLM في السياقات الطبيعية. يجادل المؤلفون بأن السعي لتحقيق الحياد الإيديولوجي في LLMs قد يكون معيبًا من الناحية الجوهرية، مما يردد الانتقادات الفلسفية للحياد ويدعو إلى نموذج يحتضن التعددية الإيديولوجية. تهدف هذه الدراسة إلى تسليط الضوء على آثار LLMs كحراس للمعلومات على الفكر الإيديولوجي والعمليات الديمقراطية في المجتمع.
الطرق
في هذا القسم، يحدد المؤلفون منهجيتهم لتقييم مجموعة من نماذج اللغة الكبيرة (LLMs) التي تُعتبر أنظمة “صندوق أسود”. يعرفون المطالبة \( x \) بلغة طبيعية، متوقعين استجابة مقابلة \( m(x) \) من كل نموذج \( m \) في مجموعتهم \( M \). تركز الدراسة على ست لغات رسمية للأمم المتحدة: العربية، الصينية، الإنجليزية، الفرنسية، الروسية، والإسبانية، المشار إليها بـ \( L \). تُترجم المطالبات إلى هذه اللغات، مع ضمان التشابه الدلالي عبر الترجمات. ينفذ المؤلفون إجراءً للتحقق من البيانات لتصفية الاستجابات غير المرضية، مع الاعتراف بأن بعض LLMs تؤدي بشكل متغير عبر اللغات المدعومة.
تشمل المنهجية التعامل مع المخرجات من نماذج لغات مختلفة كاستجابات من “مستجيبين” متميزين \( r \) ضمن المنتج الكارتيزي \( M \times L \). للتوضيح، يتم الإشارة إلى مخرجات المستجيب \( r \) كـ \( r(x) \)، والتي تتوافق مع مخرجات النموذج لمطالبة معينة بلغة معينة. يتم هيكلة كل مطالبة لاستنباط قيمة واحدة من مقياس ليكرت \( S = \{ \text{‘سلبي جدًا’}, \text{‘سلبي’}, \text{‘محايد’}, \text{‘إيجابي’}, \text{‘إيجابي جدًا’} \} \)، تعكس رأي المستجيب حول شخصية سياسية \( p \). يستخدم المؤلفون استراتيجية مطالبة متعددة المراحل لتوجيه المخرجات الخام \( r(x) \) إلى قيمة واحدة في \( S \) لمعظم المستجيبين والمطالبات، مع تقديم مزيد من التفاصيل حول المنهجية وخيارات التصميم في الأقسام اللاحقة.
النتائج
يقدم قسم النتائج تحليلًا شاملاً للمواقف الإيديولوجية لنماذج اللغة الكبيرة (LLMs) من خلال طرق بصرية وتحليلية متنوعة. في البداية، يتم تقديم مخطط ثنائي استكشافي، والذي يرسم الطيف الإيديولوجي لـ LLMs عبر لغات مختلفة في فضاء ثنائي الأبعاد، مما يسمح بمقارنة بصرية لمواقعها.
بعد ذلك، تجمع الدراسة مشاعر هذه LLMs بناءً على لغة الاستفسارات والمناطق الجغرافية السياسية لتطويرها. يبرز هذا التحليل التباينات في الإيديولوجيات ليس فقط بين LLMs المختلفة ولكن أيضًا داخل كتل جغرافية سياسية محددة، مع التركيز بشكل خاص على النماذج المطورة في الولايات المتحدة والصين. يكشف هذا الفحص الدقيق عن اختلافات إيديولوجية كبيرة قد تؤثر على مخرجات LLMs بناءً على أصولها واللغات التي تعالجها.
المناقشة
في هذا القسم، تستكشف الدراسة الطيف الإيديولوجي لنماذج اللغة الكبيرة (LLMs) من خلال تحليل المواقف الإيديولوجية لمجموعات مختلفة من LLM-اللغة، والتي تُسمى “المستجيبين”. تستخدم الدراسة مقياس ليكرت المحول إلى مقياس عددي لحساب الدرجات المتوسطة للشخصيات السياسية المرفقة بعلامات إيديولوجية محددة، مما يؤدي إلى متجه من المتوسطات لكل مستجيب. يتم استخدام تحليل المكونات الرئيسية (PCA) لتصور هذه المواقف الإيديولوجية في مخطط ثنائي الأبعاد، مما يكشف عن انقسام إيديولوجي كبير: يشير المحور الأفقي إلى طيف من التعددية التقدمية (يسار) إلى القومية المحافظة (يمين)، بينما يقارن المحور العمودي موقفًا ناقدًا للصين (أسفل) مع رؤية عالمية متعددة الأقطاب وسوق حرة (أعلى). تشير النتائج إلى أن كل من لغة المطالبة والمنطقة الجغرافية السياسية لأصل LLM تؤثر بشكل كبير على المواقف الإيديولوجية، مع تباينات ملحوظة بين المستجيبين من السياقات العربية والصينية والروسية والغربية.
يكشف التحليل أيضًا أن الإيديولوجيات تختلف ليس فقط حسب اللغة ولكن أيضًا داخل الكتل الجغرافية السياسية. على سبيل المثال، تظهر LLMs من الولايات المتحدة مجموعة من المواقف الإيديولوجية، حيث تفضل Gemini من Google القيم التقدمية، بينما تميل Grok من xAI نحو السيادة الوطنية والاكتفاء الذاتي الاقتصادي. وبالمثل، بين النماذج الصينية، تكون Qwen من Alibaba أكثر دعمًا للاستدامة والمجموعات المحرومة مقارنةً بـ Wenxiaoyan من Baidu، التي تتماشى بشكل أقرب مع استراتيجيات اقتصادية مركزية. تؤكد الدراسة على أن الموقف الإيديولوجي لـ LLMs يتشكل من خلال خيارات التصميم وبيانات التدريب والسياق الثقافي لمبدعيها، مما يشير إلى أنه يجب أخذ هذه العوامل في الاعتبار في نشر وتنظيم LLMs. يدعو المؤلفون إلى الشفافية بشأن المواقف الإيديولوجية لـ LLMs، محذرين من المفاهيم المبسطة للتحيز والحياد، ويبرزون أهمية فهم آثار خيارات LLM في مجالات المجتمع المختلفة.
DOI: https://doi.org/10.1038/s44387-025-00048-0
PMID: https://pubmed.ncbi.nlm.nih.gov/41523992
Publication Date: 2026-01-07
Author(s): Maarten Buyl et al.
Primary Topic: Ethics and Social Impacts of AI
Overview
The research paper examines the ideological diversity among large language models (LLMs) by analyzing their portrayals of 3,991 politically relevant figures. The study involved 19 popular LLMs and revealed significant ideological disparities influenced by geopolitical regions (e.g., Arabic countries, China, Russia, and Western nations) and languages (the six official languages of the United Nations). Notably, U.S.-based models exhibited normative differences aligned with progressive values, while Chinese models displayed a divide between those focused on international versus domestic perspectives. These findings suggest that the ideological stance of an LLM is reflective of its creators’ worldviews, raising concerns about the potential for political instrumentalization and the challenges of achieving ideological neutrality in LLM design.
The paper also critiques existing methodologies for assessing LLM ideologies, which often rely on direct questioning about normative beliefs. Such approaches have shown inconsistencies and sensitivity to prompt formulation, indicating that they may not accurately capture LLM behavior in natural contexts. The authors argue that the quest for ideological neutrality in LLMs may be fundamentally flawed, echoing philosophical critiques of neutrality and advocating for a model that embraces ideological plurality. This investigation aims to illuminate the implications of LLMs as information gatekeepers on ideological thought and democratic processes in society.
Methods
In this section, the authors outline their methodology for evaluating a set of large language models (LLMs) treated as ‘black-box’ systems. They define a prompt \( x \) in natural language, expecting a corresponding response \( m(x) \) from each model \( m \) in their set \( M \). The study focuses on six official United Nations languages: Arabic, Chinese, English, French, Russian, and Spanish, denoted as \( L \). Prompts are translated into these languages, ensuring semantic similarity across translations. The authors implement a data validation procedure to filter out subpar responses, acknowledging that some LLMs perform variably across supported languages.
The methodology involves treating the outputs from different language models as responses from distinct ‘respondents’ \( r \) within the Cartesian product \( M \times L \). For clarity, the output of a respondent \( r \) is denoted as \( r(x) \), which corresponds to the model’s output for a specific prompt in a given language. Each prompt is structured to elicit a single value from a Likert scale \( S = \{ \text{‘very negative’}, \text{‘negative’}, \text{‘neutral’}, \text{‘positive’}, \text{‘very positive’} \} \), reflecting the respondent’s opinion on a political figure \( p \). The authors employ a multi-stage prompting strategy to effectively map the raw outputs \( r(x) \) to a single value in \( S \) for most respondents and prompts, with further details on the methodology and design choices provided in subsequent sections.
Results
The results section presents a comprehensive analysis of the ideological positions of large language models (LLMs) through various visual and analytical methods. Initially, an exploratory biplot is introduced, which maps the ideological spectrum of LLMs across different languages in a two-dimensional space, allowing for a visual comparison of their positions.
Subsequently, the study aggregates the sentiments of these LLMs based on the language of the queries and the geopolitical regions of their development. This analysis highlights the variations in ideologies not only among different LLMs but also within specific geopolitical blocs, particularly focusing on models developed in the United States and China. This nuanced examination reveals significant ideological differences that may influence the outputs of LLMs based on their origins and the languages they process.
Discussion
In this section, the research explores the ideological spectrum of large language models (LLMs) by analyzing the ideological positions of various LLM-language combinations, termed “respondents.” The study employs a Likert scale converted to a numeric scale to compute average scores for political figures annotated with specific ideological tags, resulting in a vector of averages for each respondent. Principal component analysis (PCA) is utilized to visualize these ideological positions in a 2-dimensional biplot, revealing a significant ideological divide: the horizontal axis indicates a spectrum from progressive pluralism (left) to conservative nationalism (right), while the vertical axis contrasts a China-critical stance (bottom) with a multipolar, free-market worldview (top). The findings indicate that both the prompting language and the geopolitical region of the LLM’s origin significantly influence ideological positions, with notable variations among respondents from Arabic, Chinese, Russian, and Western contexts.
The analysis further reveals that ideologies vary not only by language but also within geopolitical blocs. For instance, LLMs from the United States exhibit a range of ideological positions, with Google’s Gemini favoring progressive values, while xAI’s Grok leans towards national sovereignty and economic self-reliance. Similarly, among Chinese models, Alibaba’s Qwen is more supportive of sustainability and disadvantaged groups compared to Baidu’s Wenxiaoyan, which aligns more closely with centralized economic strategies. The study emphasizes that the ideological stance of LLMs is shaped by design choices, training data, and the cultural context of their creators, suggesting that these factors should be considered in the deployment and regulation of LLMs. The authors advocate for transparency regarding the ideological positions of LLMs, cautioning against simplistic notions of bias and neutrality, and highlighting the importance of understanding the implications of LLM choices in various societal domains.
