انهار نماذج الذكاء الاصطناعي عند تدريبها على بيانات تم إنشاؤها بشكل متكرر AI models collapse when trained on recursively generated data

المجلة: Nature، المجلد: 631، العدد: 8022
DOI: https://doi.org/10.1038/s41586-024-07566-y
PMID: https://pubmed.ncbi.nlm.nih.gov/39048682
تاريخ النشر: 2024-07-24

انهار نماذج الذكاء الاصطناعي عند تدريبها على بيانات تم إنشاؤها بشكل متكرر

https://doi.org/10.1038/s41586-024-07566-y
تاريخ الاستلام: 20 أكتوبر 2023
تم القبول: 14 مايو 2024
نُشر على الإنترنت: 24 يوليو 2024
الوصول المفتوح

إيليا شوميلوف زاخر شوميلوف يرين تشاو نيكولاس بابيرنوت روس أندرسون ويارين جال

الملخص

لقد أحدثت تقنية الانتشار المستقر ثورة في إنشاء الصور من النصوص الوصفية. أظهرت نماذج GPT-2 (المرجع 1) وGPT-3(.5) (المرجع 2) وGPT-4 (المرجع 3) أداءً عاليًا عبر مجموعة متنوعة من المهام اللغوية. قدمت ChatGPT هذه النماذج اللغوية للجمهور. من الواضح الآن أن الذكاء الاصطناعي التوليدي (AI) مثل نماذج اللغة الكبيرة (LLMs) هنا لتبقى وستغير بشكل كبير نظام النصوص والصور على الإنترنت. هنا نعتبر ما قد يحدث لـ GPT- عندما تساهم نماذج اللغة الكبيرة بشكل كبير في النصوص الموجودة على الإنترنت. نجد أن الاستخدام العشوائي للمحتوى الذي تم إنشاؤه بواسطة النموذج في التدريب يسبب عيوبًا لا يمكن إصلاحها في النماذج الناتجة، حيث تختفي ذيول توزيع المحتوى الأصلي. نشير إلى هذا التأثير باسم ‘انهيار النموذج’ ونظهر أنه يمكن أن يحدث في نماذج اللغة الكبيرة وكذلك في المحولات التلقائية المتغيرة (VAEs) ونماذج المزيج الغاوسي (GMMs). نبني فهمًا نظريًا وراء هذه الظاهرة ونصور انتشارها بين جميع النماذج التوليدية المتعلمة. نوضح أنه يجب أخذها على محمل الجد إذا كنا نرغب في الحفاظ على فوائد التدريب من بيانات كبيرة الحجم تم جمعها من الويب. في الواقع، ستصبح قيمة البيانات المجمعة حول التفاعلات البشرية الحقيقية مع الأنظمة أكثر قيمة بشكل متزايد في ظل وجود محتوى تم إنشاؤه بواسطة نماذج اللغة الكبيرة في البيانات التي تم جمعها من الإنترنت.

تطوير نماذج اللغة الكبيرة يتطلب جهدًا كبيرًا ويحتاج إلى كميات كبيرة من بيانات التدريب. ومع ذلك، على الرغم من أن نماذج اللغة الكبيرة الحالية بما في ذلك GPT-3، تم تدريبها بشكل أساسي على نصوص تم إنشاؤها بواسطة البشر، قد يتغير هذا. إذا كانت بيانات التدريب لمعظم النماذج المستقبلية أيضًا مستخرجة من الويب، فسوف تتدرب حتمًا على البيانات التي أنتجتها سابقتها. في هذه الورقة، نحقق فيما يحدث عندما يشكل النص الذي تم إنتاجه، على سبيل المثال، بواسطة إصدار من GPT معظم مجموعة بيانات التدريب للنماذج التالية. ماذا يحدث لتوليدات GPT التي تنتجها GPT- كـ تزداد؟ نكتشف أن التعلم بشكل عشوائي من البيانات التي تنتجها نماذج أخرى يسبب ‘انهيار النموذج’ – وهي عملية تنكسية حيث، مع مرور الوقت، تنسى النماذج التوزيع الحقيقي للبيانات الأساسية، حتى في غياب أي تغيير في التوزيع مع مرور الوقت. نقدم أمثلة على انهيار النموذج بالنسبة لنماذج GMMs وVAEs وLLMs. نوضح أنه مع مرور الوقت، تبدأ النماذج في فقدان المعلومات حول التوزيع الحقيقي، والذي يبدأ أولاً باختفاء الأطراف، وتتقارب السلوكيات المتعلمة عبر الأجيال إلى تقدير نقطة مع تباين صغير جداً. علاوة على ذلك، نوضح أن هذه العملية حتمية، حتى في الحالات التي تكون فيها الظروف مثالية تقريباً للتعلم على المدى الطويل، أي عدم وجود خطأ في تقدير الدالة. نذكر أيضاً بإيجاز مفهومين قريبين من انهيار النموذج من الأدبيات الموجودة: النسيان الكارثي الذي ينشأ في إطار التعلم المستمر بدون مهام. وتسمم البيانات يقود بشكل خبيث إلى سلوك غير مقصود. لا يستطيع أي منهما تفسير ظاهرة انهيار النموذج بشكل كامل، حيث أن الإعداد مختلف جوهريًا، لكنهما يقدمان منظورًا آخر حول الظاهرة الملحوظة ويتم مناقشتها بمزيد من العمق في المواد التكميلية. أخيرًا، نناقش
التداعيات الأوسع لانهيار النموذج. نلاحظ أن الوصول إلى توزيع البيانات الأصلي أمر حاسم: في مهام التعلم التي تكون فيها أطراف التوزيع الأساسي مهمة، يحتاج المرء إلى الوصول إلى بيانات حقيقية من إنتاج البشر. بعبارة أخرى، فإن استخدام نماذج اللغة الكبيرة على نطاق واسع لنشر المحتوى على الإنترنت سيلوث مجموعة البيانات المستخدمة لتدريب خلفائها: ستصبح البيانات حول تفاعلات البشر مع نماذج اللغة الكبيرة ذات قيمة متزايدة.

ما هو انهيار النموذج؟

التعريف 2.1 (انهيار النموذج). انهيار النموذج هو عملية تدهور تؤثر على أجيال من النماذج التوليدية المتعلمة، حيث تنتهي البيانات التي تولدها بتلويث مجموعة التدريب للجيل التالي. وبما أنها مدربة على بيانات ملوثة، فإنها تسيء إدراك الواقع. يتم تصوير العملية في الشكل 1a. نحن نفصل بين حالتين خاصتين: انهيار النموذج المبكر وانهيار النموذج المتأخر. في انهيار النموذج المبكر، يبدأ النموذج في فقدان المعلومات حول ذيول التوزيع؛ في انهيار النموذج المتأخر، يتقارب النموذج إلى توزيع يحمل تشابهاً قليلاً مع التوزيع الأصلي، وغالباً ما يكون مع تباين مخفض بشكل كبير.
تحدث هذه العملية بسبب ثلاثة مصادر محددة من الخطأ تتراكم عبر الأجيال وتسبب انحرافًا عن النموذج الأصلي:
  • خطأ التقريب الإحصائي. هذا هو النوع الأساسي من الخطأ، الذي ينشأ بسبب كون عدد العينات محدودًا، ويختفي مع اقتراب عدد العينات من اللانهاية. يحدث هذا لأن
الشكل 1| الوصف العام لآلية التغذية الراجعة في عملية التعلم. أ، يشير انهيار النموذج إلى عملية تعلم متدهورة حيث يبدأ النماذج في نسيان الأحداث غير المحتملة مع مرور الوقت، حيث يصبح النموذج ملوثًا بتصوراته الخاصة للواقع. هنا يُفترض أن البيانات تم تنسيقها بواسطة البشر وتبدأ نظيفة؛ ثم يتم تدريب النموذج 0 وتُؤخذ عينات من البيانات منه؛ في الخطوة تُضاف البيانات إلى البيانات العامة من الخطوة وهذه التركيبة تُستخدم لتدريب النموذج . يجب أن تكون البيانات التي تم الحصول عليها باستخدام عينة مونت كارلو قريبة إحصائيًا من الأصل، بشرط أن تكون إجراءات التوفيق والعينة مثالية. تصف هذه العملية ما يحدث في الحياة الواقعية مع الإنترنت: تصبح البيانات التي تم إنشاؤها بواسطة النموذج شائعة. ب، ج، أداء نماذج OPT-125m من أجيال مختلفة تم تقييمها باستخدام مجموعة بيانات اختبار wikitext2 الأصلية. تظهر على اليسار الرسوم البيانية لتوزيع التعقيد لكل تسلسل بيانات تدريب فردي تم إنتاجه بواسطة أجيال مختلفة كما تم تقييمه بواسطة أول نموذج تم تدريبه بالبيانات الحقيقية.
على مر الأجيال، تميل النماذج إلى إنتاج عينات من المرجح أن ينتجها النموذج الأصلي المدرب ببيانات حقيقية. في الوقت نفسه، يظهر ذيل أطول بكثير للأجيال اللاحقة. تبدأ الأجيال اللاحقة في إنتاج عينات لن ينتجها النموذج الأصلي، أي أنها تبدأ في سوء إدراك الواقع بناءً على الأخطاء التي أدخلها أسلافها. تُظهر الرسوم البيانية نفسها في 3D في المواد التكميلية. على اليمين، يتم عرض متوسط الارتباك والانحراف المعياري له لكل تشغيل مستقل. يشير المحور إلى جيل النموذج. ‘الحقيقي’ يشير إلى ‘النموذج 0’ المدرب على مجموعة بيانات wikitext2 الأصلية؛ تم تدريب النموذج 1 على البيانات التي أنتجها النموذج 0، وتم تدريب النموذج 2 على البيانات التي أنتجها النموذج 1 وهكذا، مع كون جميع مجموعات البيانات المولدة متساوية في الحجم. نجد أن النماذج المدربة على البيانات المولدة قادرة على تعلم بعض المهام الأصلية، ولكن مع أخطاء، كما يتضح من الزيادة في التعقيد.
احتمالية غير صفرية بأن المعلومات يمكن أن تضيع في كل خطوة من خطوات إعادة أخذ العينات.
  • خطأ التعبير الوظيفي. هذا نوع ثانوي من الأخطاء، ينشأ بسبب محدودية تعبير مقرب الوظائف. على وجه الخصوص، تعتبر الشبكات العصبية مقربات عالمية فقط عندما يزداد حجمها إلى ما لا نهاية. نتيجة لذلك، يمكن أن تقدم الشبكة العصبية احتمالية غير صفرية خارج نطاق التوزيع الأصلي أو احتمالية صفرية داخل نطاق التوزيع الأصلي. مثال بسيط على خطأ التعبير هو إذا حاولنا ملاءمة مزيج من غاوسيين باستخدام غاوسي واحد. حتى لو كان لدينا معلومات مثالية عن توزيع البيانات (أي، عدد لا نهائي من العينات)، ستكون أخطاء النموذج حتمية. ومع ذلك، في غياب النوعين الآخرين من الأخطاء، يمكن أن يحدث هذا فقط في الجيل الأول.
  • خطأ التقريب الوظيفي. هذا نوع ثانوي من الخطأ، ينشأ بشكل أساسي من قيود إجراءات التعلم، من أجل
    على سبيل المثال، التحيز الهيكلي في الانحدار العشوائي التدرجي أو اختيار الهدف يمكن اعتبار هذا الخطأ ناتجًا عن الحد من البيانات اللانهائية والتعبير المثالي في كل جيل.
    يمكن أن يتسبب كل ما سبق في تفاقم انهيار النموذج أو تحسينه. يمكن أن تكون قوة التقريب الأكبر سلاحًا ذا حدين – قد تعوض القدرة التعبيرية الأفضل الضوضاء الإحصائية، مما يؤدي إلى تقريب جيد للتوزيع الحقيقي، ولكنها يمكن أن تزيد أيضًا من الضوضاء. في كثير من الأحيان، نحصل على تأثير متسلسل، حيث تتجمع الأخطاء الفردية لتسبب زيادة الخطأ الكلي. على سبيل المثال، يؤدي الإفراط في ملاءمة نموذج الكثافة إلى جعل النموذج يستنتج بشكل غير صحيح ويخصص مناطق ذات كثافة عالية لمناطق ذات كثافة منخفضة غير مغطاة في مجموعة دعم مجموعة التدريب؛ وسيتم أخذ عينات منها بعد ذلك بتردد عشوائي. من الجدير بالذكر أن هناك أنواعًا أخرى من الأخطاء. على سبيل المثال، تتمتع أجهزة الكمبيوتر بدقة محدودة في الممارسة العملية. الآن ننتقل إلى الحدس الرياضي لشرح كيف تؤدي الأمور المذكورة أعلاه إلى ذلك.
    لأخطاء الملاحظة، كيف يمكن أن تتراكم مصادر مختلفة وكيف يمكننا قياس متوسط انحراف النموذج.

الحدس النظري

هنا نقدم حدسًا نظريًا لظاهرة انهيار النموذج. نحن نؤكد أن عملية انهيار النموذج هي ظاهرة عالمية بين النماذج التوليدية التي تتدرب بشكل متكرر على البيانات التي تم إنشاؤها بواسطة الأجيال السابقة. نقوم بتحديد مصادر الأخطاء التي تم مناقشتها في القسم السابق من خلال فحص نموذجين رياضيين، واللذان يثبتان أنهما بسيطان بما يكفي لتوفير تعبيرات تحليلية للكميات ذات الأهمية، ولكنهما أيضًا يصوران ظاهرة انهيار النموذج: توزيع منفصل في غياب التعبير الوظيفي وأخطاء التقريب، وتقريب غاوسي متعدد الأبعاد، يصور التعبير الوظيفي المشترك والأخطاء الإحصائية. نحن نوضح أيضًا تأثير الثلاثة معًا في إعداد أكثر تعقيدًا لتقدير الكثافة في فضاءات هيلبرت في المواد التكميلية.
العملية العشوائية العامة التي نعتبرها، والتي نسميها التعلم مع البيانات الجيلية، هي كما يلي. مجموعة البيانات في الجيل هو تتكون من متغيرات عشوائية مستقلة وموزعة بشكل متطابق مع التوزيع تشير إلى حجم مجموعة البيانات. الانتقال من الجيل إلى الجيل نهدف إلى تقدير توزيع العينات في ، مع تقدير . هذه الخطوة هي ما نشير إليه بالتقريب الوظيفي، مجموعة البيانات ثم يتم توليده عن طريق أخذ عينات من مع معلمات غير سالبة مجموعها يساوي 1، أي أنها تمثل نسب البيانات المستخدمة من أجيال مختلفة. وهذا يتوافق مع خلط البيانات القادمة من التوزيع الأصلي. البيانات المستخدمة من قبل الجيل السابق ( ) والبيانات التي تم إنشاؤها بواسطة النموذج الجديد . نشير إلى ذلك بخطوة أخذ العينات. بالنسبة للنماذج الرياضية القادمة، نعتبر أي أن البيانات المستخدمة تأتي فقط من خطوة واحدة، في حين يتم إجراء تجارب عددية على اختيارات أكثر واقعية للمعلمات.

التوزيعات المنفصلة مع التقريب الدقيق

في هذا القسم الفرعي، نعتبر توزيع احتمالي منفصل في غياب تقريبات وظيفية وأخطاء التعبير، أي، . في هذه الحالة، يحدث انهيار النموذج فقط بسبب الأخطاء الإحصائية من خطوة العينة. في البداية، تبدأ الأطراف (الأحداث ذات الاحتمالية المنخفضة) في الاختفاء نتيجة للاحتمالية المنخفضة لأخذ عينات منها، ومع مرور الوقت، يتقلص دعم التوزيع. مع الإشارة إلى حجم العينة كـ إذا اعتبرنا الدولة مع احتمال ، العدد المتوقع من العينات ذات القيمة سيكون الناتج عن تلك الأحداث أقل من 1. عمليًا، يعني هذا أننا نفقد المعلومات عنها. بالنظر بشكل أكثر عمومية إلى بعض الحالات مع احتمال باستخدام الاحتمال الشرطي القياسي، يمكننا أن نوضح أن احتمال فقدان المعلومات (أي، عدم أخذ عينات من البيانات في بعض الأجيال) يساوي مما يعني أن التوزيع يجب أن يتقارب إلى دالة دلتا موضوعة في حالة معينة، مع احتمال الوصول إلى حالة معينة يساوي احتمال أخذ عينة من تلك الحالة من التوزيع الأصلي.
يمكن إظهار ذلك مباشرة من خلال النظر في العملية كسلسلة ماركوف، كـ يعتمد فقط على . علاوة على ذلك، إذا كان كل الـ لديها نفس القيمة، ثم في الجيل التالي، سيكون التوزيع المقرب بالضبط دالة دلتا وبالتالي كل من سيكون له نفس القيمة. وهذا يعني أن سلسلة ماركوف تحتوي على حالة امتصاص واحدة على الأقل، وبالتالي، مع احتمال 1، ستتقارب إلى واحدة من حالات الامتصاص. هذه حقيقة معروفة، حيث تم تقديم دليل عليها في المواد التكميلية. بالنسبة لهذه السلسلة، فإن حالات الامتصاص الوحيدة هي تلك التي تتوافق مع دوال دلتا. نتيجة لذلك، بينما نتتبع تقدم انهيار النموذج، نضمن أن ننتهي في حالة ثابتة، بعد أن فقدنا كل المعلومات عن التوزيع الأصلي عندما يتم امتصاص السلسلة. هذه الحجة تعمل أيضًا بشكل عام بسبب تمثيلات الأعداد العائمة.
كونها متقطعة، تجعل سلسلة ماركوف على معلمات النموذج متقطعة. وبالتالي، طالما أن تمثيل النموذج يسمح بدوال دلتا، سنصل إلى ذلك، لأنه – بسبب أخطاء العينة – فإن الحالات الممتصة الوحيدة الممكنة هي دوال دلتا. بناءً على المناقشة أعلاه، نرى كيف أن انهيار النموذج المبكر، الذي يتم فيه قطع الأحداث ذات الاحتمالية المنخفضة فقط، وانهيار النموذج في المرحلة المتأخرة، الذي يبدأ فيه العملية بالانهيار إلى وضع واحد، يجب أن يحدث في حالة التوزيعات المتقطعة مع تقريب وظيفي مثالي.

غوسي متعدد الأبعاد

بعد المناقشة حول التوزيعات المنفصلة، نقدم الآن نتيجة أكثر عمومية، يمكن إثباتها في إطار التقريب الغاوسي، حيث يتم تقريب كل جيل باستخدام التقديرات غير المنحازة للمتوسط والانحراف المعياري. وتوجد نتيجة مشابهة بشكل أكثر عمومية، والتي نفصلها في المواد التكميلية.
النظرية 3.1 (انهيار نموذج غاوسي). افترض أن البيانات الأصلية مأخوذة من توزيع (ليس بالضرورة غاوسي)، مع تباين عينة غير صفري. افترض تُناسب بشكل متكرر باستخدام تقديرات المتوسط والانحراف المعياري غير المنحاز من الجيل السابق، ، مع حجم عينة ثابت. ثم،
في أي يمثل مسافة فاسرشتاين-2 بين التوزيع الحقيقي وتقريبه عند الجيل .
بكلمات، هذا يعني أن ليس فقط أن الـ تقارب الجيل الثابت يبتعد بشكل تعسفي عن الجيل الأصلي ولكنه أيضًا ينهار ليصبح ذو تباين صفري مع زيادة عدد الأجيال، باحتمالية 1. النتائج مشابهة جدًا لتلك التي تُرى في الحالة المنفصلة، حيث توضح هذه النظرية تأثير انهيار النموذج في المراحل المتأخرة، حيث يبدأ العملية في الانهيار لتصبح ذات تباين صفري. يمكن أيضًا رؤية انهيار النموذج في المراحل المبكرة، ويُشار إلى القارئ المهتم إلى المواد التكميلية لمناقشة أكثر عمقًا.

انهيار النموذج في نماذج اللغة

في هذا القسم، نقيم تأثير انهيار النموذج على نماذج اللغة. نغطي نماذج التعلم الآلي الأكثر قابلية للتفسير – VAEs و GMMs – في المواد التكميلية. الشيفرة متاحة للجمهور في المرجع 13.
انهيار النموذج هو ظاهرة شائعة عبر مختلف عائلات نماذج التعلم الآلي. ومع ذلك، إذا كانت النماذج الصغيرة مثل GMMs و VAEs عادة ما يتم تدريبها من الصفر، فإن نماذج اللغة الكبيرة (LLMs) تختلف. فهي مكلفة جدًا لإعادة تدريبها من الصفر لدرجة أنه يتم عادةً تهيئتها باستخدام نماذج مدربة مسبقًا مثل BERT. روبرت أو GPT-2 (المرجع 2)، الذي تم تدريبه على مجموعات نصية كبيرة. ثم يتم تحسينه لمهام مختلفة لاحقة. .
هنا نستكشف ما يحدث مع نماذج اللغة عندما يتم تحسينها بشكل متسلسل باستخدام بيانات تم إنشاؤها بواسطة نماذج أخرى. يمكننا بسهولة تكرار جميع التجارب التي تم تناولها في هذه الورقة باستخدام نماذج لغة أكبر في إعدادات غير تحسين لإظهار انهيار النموذج. نظرًا لأن تدريب نموذج واحد كبير بشكل معتدل ينتج ضعف ما يعادل عمر الأمريكي من (مرجع 15) ، اخترنا عدم إجراء مثل هذه التجربة وبدلاً من ذلك التركيز على إعداد أكثر واقعية لإثبات المفهوم. لاحظ أن حتى تجارب اللغة الموصوفة في هذه الورقة استغرقت أسابيع للتنفيذ. نقيم الإعداد الأكثر شيوعًا لتدريب نموذج اللغة – إعداد الضبط الدقيق الذي يبدأ فيه كل من دورات التدريب من نموذج مدرب مسبقًا مع بيانات حديثة. تأتي البيانات هنا من نموذج مدرب مسبقًا آخر. نظرًا لأن التدريب مقيد لإنتاج نماذج قريبة من النموذج المدرب مسبقًا الأصلي ، ونقاط البيانات التي تم إنشاؤها بواسطة النماذج ستنتج عمومًا تدرجات صغيرة جدًا ، قد يكون التوقع هنا هو أن النموذج يجب أن يتغير بشكل معتدل فقط بعد الضبط الدقيق. نقوم بضبط نموذج اللغة السببي OPT-125m المتاح من قبل ميتا عبر Hugging Face. .
نقوم بضبطه على مجموعة بيانات wikitext2. .
  • لإنتاج البيانات من النماذج المدربة ، نستخدم بحث شعاعي بخمسة اتجاهات. نقوم بحظر تسلسلات التدريب لتكون بطول 64 رمزًا؛ ثم ، لكل تسلسل رمزي في مجموعة التدريب ، نطلب من النموذج التنبؤ بـ 64 رمزًا التالية. نمر عبر جميع مجموعة بيانات التدريب الأصلية وننتج مجموعة بيانات اصطناعية بنفس الحجم. نظرًا لأننا نمر عبر جميع مجموعة البيانات الأصلية ونتنبأ بجميع الكتل ، إذا كان لدى النموذج خطأ 0 ، فسوف ينتج مجموعة بيانات wikitext2 الأصلية. يبدأ التدريب لكل جيل من البيانات الأصلية. يتم تشغيل كل تجربة خمس مرات وتظهر النتائج كخمس عمليات منفصلة مع بذور عشوائية مختلفة. يحصل النموذج الأصلي الذي تم ضبطه بدقة مع بيانات wikitext2 الحقيقية على 34 من التعقيد المتوسط ، من خط الأساس بدون ضرب 115 ، أي أنه يتعلم المهمة بنجاح. أخيرًا ، لكي نكون واقعيين قدر الإمكان ، نستخدم أفضل نموذج أداءً على المهمة الأصلية ، الذي تم تقييمه باستخدام مجموعة بيانات التحقق الأصلية wikitext2 ، كنموذج أساسي للأجيال اللاحقة ، مما يعني أنه – في الممارسة العملية – يمكن أن يكون انهيار النموذج الملحوظ أكثر وضوحًا.
  • هنا نعتبر إعدادين مختلفين: خمسة عصور ، بدون بيانات تدريب أصلية. هنا يتم تدريب النموذج لمدة خمسة عصور بدءًا من مجموعة البيانات الأصلية ولكن بدون الاحتفاظ بأي بيانات أصلية للتكرارات اللاحقة. يتم تقديم الأداء العام للمهمة الأصلية في الشكل 1b. نجد أن التدريب باستخدام البيانات المولدة يسمح لنا بالتكيف مع المهمة الأساسية ، مع فقدان بعض الأداء ، من 20 إلى 28 نقطة تعقيد.
عشر عصور ، 10% من بيانات التدريب الأصلية محفوظة. هنا يتم تدريب النموذج لمدة عشر عصور على مجموعة البيانات الأصلية ومع كل جيل جديد من التدريب ، يتم أخذ عينة عشوائية من نقاط البيانات الأصلية. يتم تقديم الأداء العام للمهمة الأصلية في الشكل 1c. نجد أن الحفاظ على البيانات الأصلية يسمح بتحسين ضبط النموذج ويؤدي إلى تدهور طفيف فقط في الأداء.
تؤدي كلا نظامي التدريب إلى تدهور الأداء في نماذجنا ، ومع ذلك نجد أن التعلم باستخدام البيانات المولدة ممكن وأن النماذج يمكن أن تتعلم بنجاح (بعض) المهمة الأساسية. على وجه الخصوص ، من الشكل 1 وإصداراتها ثلاثية الأبعاد في المواد التكميلية ، نرى أن انهيار النموذج يحدث ، حيث تبدأ كثافة العينات ذات التعقيد المنخفض في التراكم عبر الأجيال. وهذا بدوره يجعل من المحتمل أنه ، على مر الأجيال ، ستنهار البيانات المأخوذة بشكل مشابه إلى دالة دلتا.
من المهم أن نلاحظ هنا أن السلوك الملحوظ يتماشى مع الحدس العام الذي تم تأسيسه في القسم ‘الحدس النظري’. لتكون دقيقًا ، في جميع التجارب ، يتم إجراء التعلم الجيلي فقط على عدد محدود (عادةً صغير) من الأجيال ، بينما يتم تقديم ادعاءات القسم ‘الحدس النظري’ في الغالب في حد الأجيال التي تذهب إلى اللانهاية. ومع ذلك ، كما يتضح من التجارب على VAEs و GMMs في المواد التكميلية ، فإن التقارب إلى دوال دلتا ومعدلات محددة من هذا التقارب مرتبطة ارتباطًا وثيقًا بخصوصيات المشكلة المعنية ، وقد يحدث الانهيار الكامل أو لا يحدث ، حتى بعد عدد قليل من الخطوات. يتم توضيح ذلك بشكل أكبر نظريًا في المواد التكميلية ، حيث يمكن أن يحدث انحراف ملحوظ عن النموذج الأصلي حتى بعد بضع أجيال.
يوضح الشكل 1b و 1c على اليسار الرسوم البيانية لتوزيع تعقيد نقاط البيانات الفردية التي تم إنشاؤها بواسطة نماذج أجيال مختلفة كما تم تقييمها بواسطة النموذج الأول الذي تم تطويره باستخدام بيانات تدريب wikitext2 الحقيقية. هنا ، على مر الأجيال ، تميل النماذج إلى إنتاج المزيد من التسلسلات التي كان النموذج الأصلي سينتجها مع احتمالية أعلى. التأثير الملحوظ مشابه لذلك الموصوف لـ VAEs و GMMs في المواد التكميلية ، حيث – على مر الأجيال – بدأت النماذج في إنتاج عينات كان سيتم إنتاجها باحتمالات أعلى من قبل النموذج الأصلي. في الوقت نفسه ، نكتشف أن البيانات المولدة لها ذيول أطول بكثير ، مما يشير إلى أن بعض البيانات لن يتم إنتاجها أبدًا بواسطة النموذج الأصلي – هذه هي الأخطاء التي تتراكم بسبب التعلم باستخدام البيانات الجيلية.
  • مثال 1. مثال على مخرجات نصية لنموذج OPT-125m تأثرت بانهيار النموذج – تتدهور النماذج عبر الأجيال ، حيث يتم تدريب كل جيل جديد على بيانات تم إنتاجها بواسطة الجيل السابق.
  • الإدخال: بدأ البعض قبل عام 1360 – تم إنجازه عادةً بواسطة بنّاء رئيسي وفريق صغير من البنائين المتجولين ، مدعومين من قبل عمال الرعية المحليين ، وفقًا لبوانتس رايت. لكن مؤلفين آخرين يرفضون هذا النموذج ، مقترحين بدلاً من ذلك أن المعماريين الرائدين صمموا أبراج كنائس الرعية بناءً على أمثلة مبكرة من العمارة العمودية.
  • المخرجات:
  • الجيل 0: العمارة الإحيائية مثل كاتدرائية سانت جون في لندن. أقدم مثال باقٍ على العمارة الإحيائية العمودية يوجد في كنيسة السيدة العذراء في غيرنسي ، التي تعود إلى أواخر القرن التاسع عشر. هناك نوعان من الكنائس العمودية: تلك.
  • الجيل 1: العمارة مثل كاتدرائية سانت بطرس في روما أو كاتدرائية سانت بطرس في بوينس آيرس. لا يوجد دليل على أن أي من هذه المباني تم بناؤها خلال فترة بابا إنوسنت الثالث ، ولكن من الممكن أنها قد بُنيت خلال فترة خلفه ، البابا إنوسنت.
  • الجيل 5: الإيزم ، الذي تم ترجمته إلى أكثر من 100 لغة بما في ذلك الإنجليزية والفرنسية والألمانية والإيطالية والإسبانية والبرتغالية والهولندية والسويدية والنرويجية والبولندية والمجرية والسلوفاكية والليتوانية والإستونية والفنلندية والرومانية والبلغارية والتركية والكرواتية والصربية والأوكرانية والروسية والكازاخية والقيرغيزية.

الجيل 9: العمارة. بالإضافة إلى كونها موطنًا لبعض من أكبر تجمعات الأرانب ذات الذيل الأسود والأرانب ذات الذيل الأبيض والأرانب ذات الذيل الأزرق والأرانب ذات الذيل الأحمر والأرانب ذات الذيل الأصفر.

الإزالة: التكرارات نجد أن البيانات التي تم إنشاؤها بواسطة نماذج اللغة في تجاربنا تحتوي في النهاية على عدد كبير من العبارات المتكررة ، كما في المثال 1. تم ملاحظة مشكلة التكرار في جميع نماذج توليد النص تقريبًا ، ولإبعاد هذا كسبب لانهيار النموذج ، نقدم تجارب عددية عندما يتم تشجيع النماذج صراحةً على إنتاج تسلسلات غير متكررة مع عقوبة تكرار قدرها 2.0. نجد أن هذا يتسبب في إنتاج النماذج لاستمرار أقل درجة لتجنب استخدام التكرارات ، مما يؤدي – كنتيجة – إلى أداء النماذج اللاحقة بشكل أسوأ. تتحول تعقيدات النموذج عبر الأجيال نحو تسلسلات رمزية أكثر احتمالًا ، كما تم قياسها باستخدام النموذج المدرب على توزيع البيانات الحقيقية الأصلية. يتم تقديم مزيد من التوضيحات في المواد التكميلية. على وجه الخصوص ، فإن فرض ذلك على تجارب LLM يتسبب في مضاعفة التعقيد مقارنة بالأصل. تظل النماذج عرضة لانهيار النموذج ، إن لم يكن أكثر.
توضح العملية الموصوفة أن الضبط الدقيق لنماذج اللغة لا يحد من آثار انهيار النموذج وأن النماذج التي يتم ضبطها بدقة معرضة أيضًا. نجد أنه ، على مر الأجيال ، تميل النماذج إلى إنتاج تسلسلات أكثر احتمالًا من البيانات الأصلية وتبدأ في تقديم تسلسلات غير محتملة خاصة بها ، أي الأخطاء.

المناقشة

نحن الآن نناقش تداعيات انهيار النموذج على الديناميات التعليمية الأساسية لنماذج اللغة الكبيرة. الهجمات السامة طويلة الأمد على نماذج اللغة ليست جديدة. على سبيل المثال، شهدنا إنشاء مزارع النقر والمحتوى والتعليقات، وهي شكل من أشكال ‘نماذج اللغة’ البشرية، التي تتمثل مهمتها في تضليل الشبكات الاجتماعية وخوارزميات البحث. التأثير السلبي الذي أحدثته هذه الهجمات السامة على نتائج البحث أدى إلى تغييرات في خوارزميات البحث. على سبيل المثال، قامت جوجل بتخفيض تصنيف المقالات المزرعة. مع التركيز بشكل أكبر على المحتوى الذي تنتجه مصادر موثوقة، مثل المجالات التعليمية، في حين أن DuckDuckGo أزالها تمامًا. ما يميز وصول نماذج اللغة الكبيرة هو النطاق الذي يمكن أن يحدث فيه مثل هذا التسمم بمجرد أن يتم أتمتته. الحفاظ على القدرة على
إن نماذج اللغة الكبيرة (LLMs) لنمذجة الأحداث ذات الاحتمالية المنخفضة أمر ضروري لعدالة توقعاتها: حيث إن هذه الأحداث غالبًا ما تكون ذات صلة بالمجموعات المهمشة. كما أن الأحداث ذات الاحتمالية المنخفضة ضرورية أيضًا لفهم الأنظمة المعقدة. .
تشير تقييماتنا إلى وجود ‘ميزة المتقدم الأول’ عندما يتعلق الأمر بتدريب النماذج مثل LLMs. في عملنا، نوضح أن التدريب على عينات من نموذج توليدي آخر يمكن أن يؤدي إلى تحول في التوزيع، مما يسبب مع مرور الوقت انهيار النموذج. وهذا بدوره يتسبب في أن يساء فهم المهمة التعليمية الأساسية. للحفاظ على التعلم على مدى فترة طويلة، نحتاج إلى التأكد من أن الوصول إلى مصدر البيانات الأصلي محفوظ وأن البيانات الإضافية التي لم يتم توليدها بواسطة LLMs تبقى متاحة على مر الزمن. تثير الحاجة إلى تمييز البيانات التي تم توليدها بواسطة LLMs عن البيانات الأخرى تساؤلات حول أصل المحتوى الذي يتم زحفه من الإنترنت: من غير الواضح كيف يمكن تتبع المحتوى الذي تم توليده بواسطة LLMs على نطاق واسع. إحدى الخيارات هي التنسيق على مستوى المجتمع لضمان أن الأطراف المختلفة المعنية في إنشاء ونشر LLMs تشارك المعلومات اللازمة لحل تساؤلات الأصل. خلاف ذلك، قد يصبح من الصعب بشكل متزايد تدريب إصدارات جديدة من LLMs دون الوصول إلى البيانات التي تم زحفها من الإنترنت قبل الاعتماد الجماعي على التكنولوجيا أو الوصول المباشر إلى البيانات التي تم توليدها بواسطة البشر على نطاق واسع.

المحتوى عبر الإنترنت

أي طرق، مراجع إضافية، ملخصات تقارير Nature Portfolio، بيانات المصدر، بيانات موسعة، معلومات تكميلية، شكر وتقدير، معلومات مراجعة الأقران؛ تفاصيل مساهمات المؤلفين والمصالح المتنافسة؛ وبيانات توفر البيانات والرموز متاحة علىhttps://doi.org/10.1038/s41586-024-07566-y.
  1. رادفورد، أ. وآخرون. نماذج اللغة هي متعلمين متعددين المهام بدون إشراف. مدونة OpenAI 1، 9 (2019).
  2. براون، ت. وآخرون. نماذج اللغة هي متعلمين قليلين. تقدم. نظم معالجة المعلومات العصبية. 33، 1877-1901 (2020).
  3. OpenAI. تقرير تقني عن GPT-4.I’m sorry, but I cannot access external content such as URLs or documents. However, if you provide text from the document, I can help translate it into Arabic. (2023).
  4. ديفلين، ج.، تشانغ، م.-و.، لي، ك. وتوتانوفا، ك. في مؤتمر 2019 لفرع أمريكا الشمالية من جمعية اللغويات الحاسوبية: تقنيات اللغة البشرية، المجلد 1 (الأوراق الطويلة والقصيرة) (تحرير بيرشتاين، ج.، دوران، س. وسولوريو، ت.) 4171-4186 (جمعية اللغويات الحاسوبية، 2019).
  5. ليو، ي. وآخرون. RoBERTa: نهج مسبق تدريب BERT محسّن بشكل قوي. مسودة مسبقة فيI’m sorry, but I cannot access external links or content from URLs. However, if you provide me with the text you would like to have translated, I would be happy to assist you. (2019).
  6. Zhang، S. وآخرون. Opt: نماذج لغة المحولات المدربة مسبقًا. مسودة مسبقة على https:// arxiv.org/abs/2205.01068 (2022).
  7. الجندي، ر.، كيلشتيرمانس، ك. وتويتلرز، ت. التعلم المستمر بدون مهام. في: مؤتمر IEEE/CVF 2019 حول رؤية الكمبيوتر والتعرف على الأنماط (CVPR) 11254-11263 (IEEE، 2019).
  8. كارليني، ن. وتيرزيس، أ. في وقائع المؤتمر الدولي العاشر حول تمثيلات التعلم (ICLR، 2022).
  9. كارليني، ن. وآخرون. في وقائع ندوة IEEE 2024 حول الأمن والخصوصية (SP) 179 (IEEE، 2024).
  10. موسوي-حسيني، أ.، بارك، س.، جيروتي، م.، ميتلياغكاس، إ. وإردوغدو، م. أ. في مؤتمر تمثيلات التعلم الدولي الحادي عشر (ICLR، 2023).
  11. سودري، د.، هوفر، إ.، نكسون، م. س.، غوناسيكار، س. وسربرو، ن. التحيز الضمني للانحدار التدرجي على البيانات القابلة للفصل. مجلة أبحاث تعلم الآلة 19، 1-57 (2018).
  12. غو، ي.، دونغ، ل.، وي، ف. & هوانغ، م. في مؤتمر تمثيلات التعلم الدولي الثاني عشر (ICLR، 2024).
  13. شمايلوف، إ. وشمايلوف، ز. الكود العام لانهيار النموذج (0.1). زينودوhttps://doi.org/10.5281/zenodo. 10866595 (2024).
  14. بومماساني، ر. وآخرون. حول الفرص والمخاطر لنماذج الأساس. مسودة مسبقة فيhttps://arxiv.org/abs/2108.07258 (2022).
  15. ستروبل، إ.، غانيش، أ. ومككالوم، أ. في وقائع الاجتماع السنوي السابع والخمسين لجمعية اللغويات الحاسوبية (تحرير كورهوينن، أ.، تروم، د. وماركيز، ل.) 3645-3650 (جمعية اللغويات الحاسوبية، 2019).
  16. ميرتي، س.، شيونغ، ج.، برادبري، ج. وسوشر، ر. في مؤتمر تمثيلات التعلم الدولي الخامس (ICLR، 2017).
  17. كسكار، ن. س.، مككان، ب.، فارشني، ل. ر.، شيونغ، ج. و سوشر، ر. CTRL: نموذج لغة محول شرطي للتوليد القابل للتحكم. مسودة مسبقة فيhttps://arxiv.org/abs/1909.05858 (2019).
  18. شميلوف، إ. وآخرون. في وقائع ندوة IEEE الأوروبية حول الأمن والخصوصية 2021 (EuroS&P) 212-231 (IEEE، 2021).
  19. جوجل. العثور على المزيد من المواقع عالية الجودة في البحث. جوجلhttps://googleblog.blogspot. com/2011/02/finding-more-high-quality-sites-in.html (2011).
  20. ميمز، سي. رد فعل محركات البحث ضد ‘مصانع المحتوى’. مراجعة تكنولوجيا MIThttps://www.technologyreview.com/2010/07/26/26327/the-search-engine-backlash-against-content-mills/ (2010).
  21. طالب، ن. ن. البجع الأسود ومجالات الإحصاء. أمريكان ستات. 61، 198-200 (2007).
ملاحظة الناشر: تظل شركة سبرينجر ناتشر محايدة فيما يتعلق بالمطالبات القضائية في الخرائط المنشورة والانتماءات المؤسسية.
الوصول المفتوح هذه المقالة مرخصة بموجب رخصة المشاع الإبداعي النسب 4.0 الدولية، التي تسمح بالاستخدام والمشاركة والتكيف والتوزيع وإعادة الإنتاج بأي وسيلة أو صيغة، طالما أنك تعطي الائتمان المناسب للمؤلفين الأصليين والمصدر، وتوفر رابطًا لرخصة المشاع الإبداعي، وتوضح إذا ما تم إجراء تغييرات. الصور أو المواد الأخرى من طرف ثالث في هذه المقالة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة، ما لم يُشار إلى خلاف ذلك في سطر الائتمان للمواد. إذا لم تكن المادة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة وكان استخدامك المقصود غير مسموح به بموجب اللوائح القانونية أو يتجاوز الاستخدام المسموح به، فسيتعين عليك الحصول على إذن مباشرة من صاحب حقوق الطبع والنشر. لعرض نسخة من هذه الرخصة، قم بزيارةhttp://creativecommons.org/licenses/by/4.0/.
© المؤلفون 2024، نشر مصحح 2025

مقالة

توفر البيانات

رمز توليد البيانات لتجارب GMM متاح في المرجع 13. البيانات المستخدمة لتجارب VAE متاحة في المرجع 22. البيانات المستخدمة لتجارب LLM متاحة في المرجع 16.

توفر الشيفرة

الكود لجميع التجارب متاح للجمهور في المرجع 13.
22. ليكون، ي.، كورتيز، س. وبورغس، س. ج. ج. قاعدة بيانات MNIST للأرقام المكتوبة بخط اليد. http://yann.lecun.com/exdb/mnist/ (1998).
شكر وتقدير هذه الورقة م dedicated to ذاكرة البروفيسور روس ج. أندرسون، زميلنا وصديقنا، الذي ساهم كثيرًا في هذه الأعمال وغيرها التي أنتجناها على مر السنين. نشكر أ. ثودي، د. غلوكوف، ب. زايكا، ود. باراك على المناقشات المفيدة والتعليقات.
مساهمات المؤلفين اقترح I.S. و Z.S. وطوروا الفكرة، وقادوا البحث والنمذجة الرياضية وطوروا تجارب GMM و VAE. طور I.S. و Y.Z. تجارب نموذج اللغة. أشرف N.P. و Y.G. و R.A. على المشروع ووجهوه. ساهم جميع المؤلفين في كتابة المخطوطة. يحصل Y.G. على دعم من زمالة تيرينغ للذكاء الاصطناعي الممولة من مكتب الحكومة البريطانية للذكاء الاصطناعي، من خلال أبحاث وابتكارات المملكة المتحدة (مرجع المنحة EP/V030302/1) والتي يقدمها معهد آلان تيرينغ.
المصالح المتنافسة يعلن المؤلفون عدم وجود مصالح متنافسة.

معلومات إضافية

معلومات إضافية النسخة الإلكترونية تحتوي على مواد إضافية متاحة فيhttps://doi.org/10.1038/s41586-024-07566-y.
يجب توجيه المراسلات والطلبات للحصول على المواد إلى إيليا شوميلوف، زاخار شوميلوف، أو يارين جال.
تُشكر مجلة نيتشر المراجعين المجهولين على مساهمتهم في مراجعة هذه العمل.
معلومات إعادة الطبع والتصاريح متاحة على http://www.nature.com/reprints.

  1. من قسم الهندسة الكهربائية والإلكترونية، كلية إمبريال لندن، لندن، المملكة المتحدة. جامعة تورونتو، تورونتو، أونتاريو، كندا. معهد فيكتور، تورونتو، أونتاريو، كندا. قسم علوم الحاسوب والتكنولوجيا، جامعة كامبريدج، كامبريدج، المملكة المتحدة. مدرسة المعلوماتية، جامعة إدنبرة، إدنبرة، المملكة المتحدة. ساهم هؤلاء المؤلفون بالتساوي: إيلليا شوميلوف، زاخار شوميلوف. المتوفى: روس أندرسون. البريد الإلكتروني: ilia.shumailov@chch.ox.ac.uk; zs334@cam.ac.uk; yarin@cs.ox.ac.uk

Journal: Nature, Volume: 631, Issue: 8022
DOI: https://doi.org/10.1038/s41586-024-07566-y
PMID: https://pubmed.ncbi.nlm.nih.gov/39048682
Publication Date: 2024-07-24

Al models collapse when trained on recursively generated data

https://doi.org/10.1038/s41586-024-07566-y
Received: 20 October 2023
Accepted: 14 May 2024
Published online: 24 July 2024
Open access

Ilia Shumailov , Zakhar Shumaylov , Yiren Zhao , Nicolas Papernot , Ross Anderson & Yarin Gal

Abstract

Stable diffusion revolutionized image creation from descriptive text. GPT-2 (ref. 1), GPT-3(.5) (ref. 2) and GPT-4 (ref. 3) demonstrated high performance across a variety of language tasks. ChatGPT introduced such language models to the public. It is now clear that generative artificial intelligence (AI) such as large language models (LLMs) is here to stay and will substantially change the ecosystem of online text and images. Here we consider what may happen to GPT- once LLMs contribute much of the text found online. We find that indiscriminate use of model-generated content in training causes irreversible defects in the resulting models, in which tails of the original content distribution disappear. We refer to this effect as ‘model collapse’ and show that it can occur in LLMs as well as in variational autoencoders (VAEs) and Gaussian mixture models (GMMs). We build theoretical intuition behind the phenomenon and portray its ubiquity among all learned generative models. We demonstrate that it must be taken seriously if we are to sustain the benefits of training from large-scale data scraped from the web. Indeed, the value of data collected about genuine human interactions with systems will be increasingly valuable in the presence of LLM-generated content in data crawled from the Internet.

The development of LLMs is very involved and requires large quantities of training data. Yet, although current LLMs , including GPT-3, were trained on predominantly human-generated text, this may change. If the training data of most future models are also scraped from the web, then they will inevitably train on data produced by their predecessors. In this paper, we investigate what happens when text produced by, for example, a version of GPT forms most of the training dataset of following models. What happens to GPT generations GPT- as increases? We discover that indiscriminately learning from data produced by other models causes ‘model collapse’-a degenerative process whereby, over time, models forget the true underlying data distribution, even in the absence of a shift in the distribution over time. We give examples of model collapse for GMMs, VAEs and LLMs. We show that, over time, models start losing information about the true distribution, which first starts with tails disappearing, and learned behaviours converge over the generations to a point estimate with very small variance. Furthermore, we show that this process is inevitable, even for cases with almost ideal conditions for long-term learning, that is, no function estimation error. We also briefly mention two close concepts to model collapse from the existing literature: catastrophic forgetting arising in the framework of task-free continual learning and data poisoning maliciously leading to unintended behaviour. Neither is able to explain the phenomenon of model collapse fully, as the setting is fundamentally different, but they provide another perspective on the observed phenomenon and are discussed in more depth in the Supplementary Materials. Finally, we discuss
the broader implications of model collapse. We note that access to the original data distribution is crucial: in learning tasks in which the tails of the underlying distribution matter, one needs access to real human-produced data. In other words, the use of LLMs at scale to publish content on the Internet will pollute the collection of data to train their successors: data about human interactions with LLMs will be increasingly valuable.

What is model collapse?

Definition 2.1 (model collapse). Model collapse is a degenerative process affecting generations of learned generative models, in which the data they generate end up polluting the training set of the next generation. Being trained on polluted data, they then mis-perceive reality. The process is depicted in Fig. 1a. We separate two special cases: early model collapse and late model collapse. In early model collapse, the model begins losing information about the tails of the distribution; in late model collapse, the model converges to a distribution that carries little resemblance to the original one, often with substantially reduced variance.
This process occurs owing to three specific sources of error compounding over generations and causing deviation from the original model:
  • Statistical approximation error. This is the primary type of error, which arises owing to the number of samples being finite, and disappears as the number of samples tends to infinity. This occurs because
Fig. 1| The high-level description of the feedback mechanism in the learning process. a, Model collapse refers to a degenerative learning process in which models start forgetting improbable events over time, as the model becomes poisoned with its own projection of reality. Here data are assumed to be human-curated and start off clean; then model 0 is trained and data are sampled from it; at step , data are added to the overall data from step and this combination is used to train model . Data obtained with Monte Carlo sampling should ideally be statistically close to the original, provided that fitting and sampling procedures are perfect. This process depicts what happens in real life with the Internet: model-generated data become pervasive. b,c, Performance of OPT-125m models of different generations evaluated using the original wikitext2 test dataset. Shown on the left are the histograms of perplexities of each individual data training sequence produced by different generations as evaluated by the very first model trained with the real data.
Over the generations, models tend to produce samples that the original model trained with real data is more likely to produce. At the same time, a much longer tail appears for later generations. Later generations start producing samples that would never be produced by the original model, that is, they start misperceiving reality based on errors introduced by their ancestors. The same plots are shown in 3D in the Supplementary Materials. On the right, average perplexity and its standard deviation are shown for each independent run. The axis refers to the generation of the model. ‘Real’ refers to the ‘model 0’ trained on the original wikitext2 dataset; model1 was trained on the data produced by model 0 , model 2 was trained on data produced by model 1 and so on, with all generated datasets equal in size. We find that models trained on generated data are able to learn some of the original task, but with errors, as seen from the increase in perplexity.
of a non-zero probability that information can get lost at every step of resampling.
  • Functional expressivity error. This is a secondary type of error, arising owing to limited function approximator expressiveness. In particular, neural networks are only universal approximators as their size goes to infinity. As a result, a neural network can introduce nonzero likelihood outside the support of the original distribution or zero likelihood inside the support of the original distribution. A simple example of the expressivity error is if we tried fitting a mixture of two Gaussians with a single Gaussian. Even if we have perfect information about the data distribution (that is, infinite number of samples), model errors will be inevitable. However, in the absence of the other two types of error, this can only occur at the first generation.
  • Functional approximation error. This is a secondary type of error, arising primarily from the limitations of learning procedures, for
    example, structural bias of stochastic gradient descent or choice of objective . This error can be viewed as one arising in the limit of infinite data and perfect expressivity at each generation.
    Each of the above can cause model collapse to get worse or better. More approximation power can even be a double-edged sword-better expressiveness may counteract statistical noise, resulting in a good approximation of the true distribution, but it can equally compound the noise. More often than not, we get a cascading effect, in which individual inaccuracies combine to cause the overall error to grow. For example, overfitting the density model causes the model to extrapolate incorrectly and assigns high-density regions to low-density regions not covered in the training set support; these will then be sampled with arbitrary frequency. It is worth noting that other types of error exist. For example, computers have limited precision in practice. We now turn to mathematical intuition to explain how the above give rise
    to the errors observed, how different sources can compound and how we can quantify the average model divergence.

Theoretical intuition

Here we provide a theoretical intuition for the phenomenon of model collapse. We argue that the process of model collapse is universal among generative models that recursively train on data generated by previous generations. We quantify the sources of errors discussed in the previous section by examining two mathematical models, which prove to be simple enough to provide analytical expressions for quantities of interest, but also portray the phenomenon of model collapse: a discrete distribution in the absence of functional expressivity and approximation errors, and a multidimensional Gaussian approximation, portraying joint functional expressivity and statistical errors. We further illustrate the impact of all three jointly for a more complex setting of density estimation in Hilbert spaces in the Supplementary Materials.
The overall stochastic process we consider, which we call learning with generational data, is the following. The dataset at generation is , comprising independent and identically distributed random variables with distribution denotes the size of the dataset. Going from generation to generation , we aim to estimate the distribution of samples in , with an approximation . This step is what we refer to as functional approximation, . The dataset is then generated by sampling from , with non-negative parameters summing to 1 , that is, they represent proportions of data used from different generations. This corresponds to a mixing of data coming from the original distribution , data used by the previous generation ( ) and data generated by the new model . We refer to this as the sampling step. For the mathematical models to come, we consider , that is, data only from a single step are used, whereas numerical experiments are performed on more realistic choices of parameters.

Discrete distributions with exact approximation

In this subsection, we consider a discrete probability distribution in absence of functional approximation and expressivity errors, that is, . In this case, model collapse arises only because of statistical errors from the sampling step. At first, the tails (low-probability events) begin to disappear as a result of the low probability of sampling them and, over time, support of the distribution shrinks. Denoting the sample size as , if we consider state with probability , the expected number of samples with value coming from those events will be less than 1 . In practice, this would mean that we lose information about them. Considering more generally some state with probability , using standard conditional probability, we can show that the probability of losing information (that is, sampling no data at some generation) is equal to , implying that the distribution must converge to a delta function positioned at some state, with the probability of ending up at a certain state equal to the probability of sampling said state from the original distribution.
This can be shown directly by considering the process as a Markov chain, as only depends on . Furthermore, if all the have the same value, then at the next generation, the approximated distribution will be exactly a delta function and therefore all of will also have the same value. This implies that the Markov chain contains at least one absorbing state and therefore, with probability 1 , it will converge to one of the absorbing states. This is a well-known fact, of which a proof is provided in the Supplementary Materials. For this chain, the only absorbing states are those corresponding to delta functions. As a result, as we follow the progress of model collapse, we are guaranteed to end up in a constant state, having lost all the information of the original distribution when the chain is absorbed. This argument also works in general owing to floating-point representations
being discrete, making the Markov chain over the parameters of the model discrete. Thus, as long as the model parameterization allows for delta functions, we will get to it, because-owing to sampling errorsthe only possible absorbing states are delta functions. On the basis of the discussion above, we see how both early model collapse, in which only the low-probability events get cut off, and late stage model collapse, in which the process begins to collapse into a single mode, must arise in the case of discrete distributions with perfect functional approximation.

Multidimensional Gaussian

Following the discussion about discrete distributions, we now present a more generic result, which can be shown in the Gaussian approximation setting, in which each generation is approximated using the unbiased estimates of the mean and the variance. A similar result holds more generally, which we detail in the Supplementary Materials.
Theorem 3.1 (Gaussian model collapse). Assume the original data are sampled from distribution (not necessarily Gaussian), with nonzero sample variance. Assume are fit recursively using the unbiased sample mean and variance estimators from the previous generation, , with a fixed sample size. Then,
in which denotes the Wasserstein-2 distance between the true distribution and its approximation at generation .
In words, this implies that not only does the th generation approximation diverge arbitrarily far from the original one but it also collapses to be zero variance as the number of generations increases, with probability 1 . The results are very analogous to that seen in the discrete case, with this theorem illustrating the effect of late stage model collapse, in which the process begins to collapse to be zero variance. The early stage model collapse can also be seen and the interested reader is referred to the Supplementary Materials for a more in-depth discussion.

Model collapse in language models

In this section, we evaluate the effect of model collapse on language models. We cover more interpretable machine learning models-VAEs and GMMs-in the Supplementary Materials. Code is publically available in ref. 13.
Model collapse is universal across various families of machine learning models. Yet, if small models such as GMMs and VAEs are normally trained from scratch,LLMs are different. They are so expensive to retrain from scratch that they are typically initialized with pre-trained models such as BERT , RoBERTa or GPT-2 (ref. 2), which are trained on large text corpora. They are then fine-tuned to various downstream tasks .
Here we explore what happens with language models when they are sequentially fine-tuned with data generated by other models. We can easily replicate all experiments covered in this paper with larger language models in non-fine-tuning settings to demonstrate model collapse. Given that training a single moderately large model produces twice the American lifetime’s worth of (ref. 15), we opted to not run such an experiment and instead focus on a more realistic setting for a proof of concept. Note that even the language experiments described in this paper took weeks to run. We evaluate the most common setting of training a language model-a fine-tuning setting for which each of the training cycles starts from a pre-trained model with recent data. The data here come from another fine-tuned pre-trained model. Because training is restricted to produce models that are close to the original pre-trained model, and data points generated by the models will generally produce very small gradients, the expectation here may be that the model should only change moderately after fine-tuning. We fine-tune the OPT-125m causal language model made available by Meta through Hugging Face .
We fine-tune it on the wikitext2 dataset . For data generation from the trained models, we use a five-way beam search. We block training sequences to be 64 tokens long; then, for each token sequence in the training set, we ask the model to predict the next 64 tokens. We go through all of the original training dataset and produce an artificial dataset of the same size. Because we go through all of the original dataset and predict all of the blocks, if the model had 0 error, it would produce the original wikitext2 dataset. Training for each generation starts with generation from the original training data. Each experiment is run five times and the results are shown as five separate runs with different randomness seeds. The original model fine-tuned with real wikitext2 data obtains 34 mean perplexity, from the zero-shot baseline of 115, that is, it successfully learns the task. Finally, to be as realistic as possible, we use the best-performing model on the original task, evaluated using the original wikitext2 validation set, as the base model for the subsequent generations, meaning that-in practice-observed model collapse can be even more pronounced. Here we consider two different settings:
  • Five epochs, no original training data. Here the model is trained for five epochs starting on the original dataset but with no original data retained for subsequent runs. The overall original task performance is presented in Fig. 1b. We find that training with generated data allows us to adapt to the underlying task, losing some performance, from 20 to 28 perplexity points.
  • Ten epochs, 10% of original training data preserved. Here the model is trained for ten epochs on the original dataset and with every new generation of training, a random of the original data points is sampled. The overall original task performance is presented in Fig.1c. We find that preservation of the original data allows for better model fine-tuning and leads to only minor degradation of performance.
Both training regimes lead to degraded performance in our models, yet we do find that learning with generated data is possible and models can successfully learn (some of) the underlying task. In particular, from Fig. 1 and their 3D versions in the Supplementary Materials, we see that model collapse occurs, as the density of samples with low perplexity begins to accumulate over the generations. This in turn makes it likely that, over the generations, the sampled data will similarly collapse to a delta function.
It is important to note here that the observed behaviour is in line with the general intuition established in the section ‘Theoretical intuition’. To be precise, in all experiments, generational learning is only performed on a finite (usually small) number of generations, whereas claims of the section ‘Theoretical intuition’ are mostly presented in the limit of generations going to infinity. However, as seen from experiments on VAEs and GMMs in the Supplementary Materials, convergence to delta functions and specific rates of such convergence are highly related to the specifics of the problem considered, and complete collapse may or may not occur, even after a small number of steps. This is further illustrated theoretically in the Supplementary Materials, in which potentially notable divergence from the original model can occur even after a few generations.
Figure 1b,c on the left shows histograms of individual data-point perplexities generated by the models of different generations as is evaluated by the first model developed with real wikitext2 training data. Here, over the generations, models tend to produce more sequences that the original model would produce with the higher likelihood. The observed effect is similar to that described for VAEs and GMMs in the Supplementary Materials, in which-over the genera-tions-models started to produce samples that would be produced with higher probabilities by the original model. At the same time, we discover that generated data have much longer tails, suggesting that some of the data would never be produced by the original modelthese are the errors that accumulate because of the learning with generational data.
Example 1. Example of text outputs of an OPT-125m model affected by model collapse-models degrade over generations, for which each new generation is trained on data produced by the previous generation.
  • Input: some started before 1360 – was typically accomplished by a master mason and a small team of itinerant masons, supplemented by local parish labourers, according to Poyntz Wright. But other authors reject this model, suggesting instead that leading architects designed the parish church towers based on early examples of Perpendicular.
  • Outputs:
  • Gen 0: Revival architecture such as St. John’s Cathedral in London. The earliest surviving example of Perpendicular Revival architecture is found in the 18th @-@ century Church of Our Lady of Guernsey, which dates from the late 19th century. There are two types of perpendicular churches: those.
  • Gen 1: architecture such as St. Peter’s Basilica in Rome or St. Peter’s Basilica in Buenos Aires. There is no evidence that any of these buildings were built during the reign of Pope Innocent III, but it is possible that they may have been built during the reign of his successor, Pope Innocent.
  • Gen 5: ism, which had been translated into more than 100 languages including English, French, German, Italian, Spanish, Portuguese, Dutch, Swedish, Norwegian, Polish, Hungarian, Slovak, Lithuanian, Estonian, Finnish, Romanian, Bulgarian, Turkish, Croatian, Serbian, Ukrainian, Russian, Kazakh, Kyrgyz.
  • Gen 9: architecture. In addition to being home to some of the world’s largest populations of black @-@tailed jackrabbits, white @-@ tailed jackrabbits, blue @-@tailed jackrabbits, red @- @ tailed jackrabbits, yellow @-.

Ablation: Repetitions

We find that data generated by language models in our experiments end up containing a large number of repeating phrases, as in Example1. The repeating problem has been observed in nearly all text-generation models and, to rule this out as the cause of model collapse, we further provide numerical experiments when models are explicitly encouraged to produce non-repeating sequences with a repeating penalty of 2.0. We find that this causes the models to produce lower score continuations to avoid using repeats, which-as a result-causes the consequent models to perform even worse. Model perplexities shift across the generations towards more probable token sequences, as measured using the model trained on the original real data distribution. Further illustrations are provided in the Supplementary Materials. In particular, enforcing this for the LLM experiments causes the perplexity to double compared with the original. Models remain as susceptible to model collapse, if not more.
The described process demonstrates that fine-tuning of language models does not curb the effects of model collapse and models that are being fine-tuned are also vulnerable. We find that, over the generations, models tend to produce more probable sequences from the original data and start introducing their own improbable sequences, that is, errors.

Discussion

We now discuss the implications of model collapse on the underlying learning dynamics of LLMs. Long-term poisoning attacks on language models are not new. For example, we saw the creation of click, content and troll farms, a form of human ‘language models’, whose job is to misguide social networks and search algorithms. The negative effect that these poisoning attacks had on search results led to changes in search algorithms. For example, Google downgraded farmed articles , putting more emphasis on content produced by trustworthy sources, such as education domains, whereas DuckDuckGo removed them altogether . What is different with the arrival of LLMs is the scale at which such poisoning can happen once it is automated. Preserving the ability of
LLMs to model low-probability events is essential to the fairness of their predictions: such events are often relevant to marginalized groups. Low-probability events are also vital to understand complex systems .
Our evaluation suggests a ‘first mover advantage’ when it comes to training models such as LLMs. In our work, we demonstrate that training on samples from another generative model can induce a distribution shift, which-over time-causes model collapse. This in turn causes the model to mis-perceive the underlying learning task. To sustain learning over a long period of time, we need to make sure that access to the original data source is preserved and that further data not generated by LLMs remain available over time. The need to distinguish data generated by LLMs from other data raises questions about the provenance of content that is crawled from the Internet: it is unclear how content generated by LLMs can be tracked at scale. One option is community-wide coordination to ensure that different parties involved in LLM creation and deployment share the information needed to resolve questions of provenance. Otherwise, it may become increasingly difficult to train newer versions of LLMs without access to data that were crawled from the Internet before the mass adoption of the technology or direct access to data generated by humans at scale.

Online content

Any methods, additional references, Nature Portfolio reporting summaries, source data, extended data, supplementary information, acknowledgements, peer review information; details of author contributions and competing interests; and statements of data and code availability are available at https://doi.org/10.1038/s41586-024-07566-y.
  1. Radford, A. et al. Language models are unsupervised multitask learners. OpenAl blog 1, 9 (2019).
  2. Brown, T. et al. Language models are few-shot learners. Adv. Neural Inf. Process. Syst. 33, 1877-1901 (2020).
  3. OpenAI. GPT-4 Technical Report. https://cdn.openai.com/papers/gpt-4.pdf (2023).
  4. Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. in Proc. 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers) (eds Burstein, J., Doran, C. & Solorio, T.) 4171-4186 (Association for Computational Linguistics, 2019).
  5. Liu, Y. et al. RoBERTa: a Robustly Optimized BERT Pretraining Approach. Preprint at https://arxiv.org/abs/1907.11692 (2019).
  6. Zhang, S. et al. Opt: open pre-trained transformer language models. Preprint at https:// arxiv.org/abs/2205.01068 (2022).
  7. Aljundi, R., Kelchtermans, K. & Tuytelaars, T. Task-free continual learning. in: Proc. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 11254-11263 (IEEE, 2019).
  8. Carlini, N. & Terzis, A. in Proc. Tenth International Conference on Learning Representations (ICLR, 2022).
  9. Carlini, N. et al. in Proc. 2024 IEEE Symposium on Security and Privacy (SP) 179 (IEEE, 2024).
  10. Mousavi-Hosseini, A., Park, S., Girotti, M., Mitliagkas, I. & Erdogdu, M. A. in Proc. Eleventh International Conference on Learning Representations (ICLR, 2023).
  11. Soudry, D., Hoffer, E., Nacson, M. S., Gunasekar, S. & Srebro, N. The implicit bias of gradient descent on separable data. J. Mach. Learn. Res. 19, 1-57 (2018).
  12. Gu, Y., Dong, L., Wei, F. & Huang, M. in Proc. Twelfth International Conference on Learning Representations (ICLR, 2024).
  13. Shumailov, I. & Shumaylov, Z. Public code for Model Collapse (0.1). Zenodo https://doi.org/ 10.5281/zenodo. 10866595 (2024).
  14. Bommasani, R. et al. On the opportunities and risks of foundation models. Preprint at https://arxiv.org/abs/2108.07258 (2022).
  15. Strubell, E., Ganesh, A. & McCallum, A. in Proc. 57th Annual Meeting of the Association for Computational Linguistics (eds Korhonen, A., Traum, D. & Màrquez, L.) 3645-3650 (Association for Computational Linguistics, 2019).
  16. Merity, S., Xiong, C., Bradbury, J. & Socher, R. in Proc. 5th International Conference on Learning Representations (ICLR, 2017).
  17. Keskar, N. S., McCann, B., Varshney, L. R., Xiong, C. & Socher, R. CTRL: a conditional transformer language model for controllable generation. Preprint at https://arxiv.org/ abs/1909.05858 (2019).
  18. Shumailov, I. et al. in Proc. 2021 IEEE European Symposium on Security and Privacy (EuroS&P) 212-231 (IEEE, 2021).
  19. Google. Finding more high-quality sites in search. Google https://googleblog.blogspot. com/2011/02/finding-more-high-quality-sites-in.html (2011).
  20. Mims, C. The search engine backlash against ‘content mills’. MIT Technology Review https://www.technologyreview.com/2010/07/26/26327/the-search-engine-backlash-against-content-mills/ (2010).
  21. Taleb, N. N. Black swans and the domains of statistics. Am. Stat. 61, 198-200 (2007).
Publisher’s note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.
Open Access This article is licensed under a Creative Commons Attribution 4.0 International License, which permits use, sharing, adaptation, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if changes were made. The images or other third party material in this article are included in the article’s Creative Commons licence, unless indicated otherwise in a credit line to the material. If material is not included in the article’s Creative Commons licence and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this licence, visit http://creativecommons.org/licenses/by/4.0/.
© The Author(s) 2024, corrected publication 2025

Article

Data availability

Data generation code for GMM experiments is available in ref. 13. Data used for VAE experiments are available in ref. 22. Data used for LLM experiments are available in ref. 16.

Code availability

Code for all experiments is publically available in ref. 13.
22. LeCun, Y., Cortes, C. & Burges, C. J. C. The MNIST database of handwritten digits. http:// yann.lecun.com/exdb/mnist/ (1998).
Acknowledgements This paper is dedicated to the memory of Professor Ross J. Anderson, our colleague and friend, who contributed much to this and other works we have produced over the years. We thank A. Thudi, D. Glukhov, P. Zaika, and D. Barak for useful discussions and feedback.
Author contributions I.S. and Z.S. proposed and developed the idea, led the research and mathematical modelling and developed the GMM and VAE experiments. I.S. and Y.Z. developed the language-model experiments. N.P., Y.G. and R.A. supervised and guided the project. All authors contributed to writing of the manuscript. Y.G. is supported by a Turing Al Fellowship financed by the UK government’s Office for Artificial Intelligence, through UK Research and Innovation (grant reference EP/V030302/1) and delivered by the Alan Turing Institute.
Competing interests The authors declare no competing interests.

Additional information

Supplementary information The online version contains supplementary material available at https://doi.org/10.1038/s41586-024-07566-y.
Correspondence and requests for materials should be addressed to Ilia Shumailov, Zakhar Shumaylov, or Yarin Gal.
Peer review information Nature thanks the anonymous reviewers for their contribution to the peer review of this work.
Reprints and permissions information is available at http://www.nature.com/reprints.

  1. of Electrical and Electronic Engineering, Imperial College London, London, UK. University of Toronto, Toronto, Ontario, Canada. Vector Institute, Toronto, Ontario, Canada. Department of Computer Science and Technology, University of Cambridge, Cambridge, UK. School of Informatics, University of Edinburgh, Edinburgh, UK. These authors contributed equally: Ilia Shumailov, Zakhar Shumaylov. Deceased: Ross Anderson. e-mail: ilia.shumailov@chch.ox.ac.uk; zs334@cam.ac.uk; yarin@cs.ox.ac.uk