The Curse of Recursion Training on Generated Data Makes Models Forget
Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Yarin Gal, Nicolas Papernot, Ross Anderson
Publikationsdatum:
|
![]() |
Zusammenfassungen
We discover that learning from data produced by other models causes model collapse – a degenerative process whereby,
over time, models forget the true underlying data distribution, even in the absence of a shift in the distribution over time.
We give examples of model collapse for Gaussian Mixture Models (GMMs), Variational Autoencoders (VAE) and
Large Language models (LLMs). We show that over time we start losing information about the true distribution, which
first starts with tails disappearing, and over the generations learned behaviours start converging to a point estimate with
very small variance. Furthermore, we show that this process is inevitable, even for cases with almost ideal conditions
for long-term learning i.e. no function estimation error.
Von Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Yarin Gal, Nicolas Papernot, Ross Anderson im Text The Curse of Recursion (2023) Stable Diffusion revolutionised image creation from descriptive text. GPT-2, GPT-3(.5) and GPT-4
demonstrated astonishing performance across a variety of language tasks. ChatGPT introduced such
language models to the general public. It is now clear that large language models (LLMs) are here to
stay, and will bring about drastic change in the whole ecosystem of online text and images. In this
paper we consider what the future might hold. What will happen to GPT-{n} once LLMs contribute
much of the language found online? We find that use of model-generated content in training causes
irreversible defects in the resulting models, where tails of the original content distribution disappear.
We refer to this effect as model collapse1
and show that it can occur in Variational Autoencoders,
Gaussian Mixture Models and LLMs. We build theoretical intuition behind the phenomenon and
portray its ubiquity amongst all learned generative models. We demonstrate that it has to be taken
seriously if we are to sustain the benefits of training from large-scale data scraped from the web.
Indeed, the value of data collected about genuine human interactions with systems will be increasingly
valuable in the presence of content generated by LLMs in data crawled from the Internet.
Von Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Yarin Gal, Nicolas Papernot, Ross Anderson im Text The Curse of Recursion (2023)
Bemerkungen
Und siehe da, es gibt auch den KI-Inzest, ein technisches Pendant. Eine
Studie mit dem programmatischen Titel «Der Fluch der ewigen Wiederkehr»
zeigt, dass KI-Modellen diese exponentielle Selbstverdauung nicht guttut.
Sie kollabieren. Dieser Kollaps wird dadurch hervorgerufen, dass die
Sprachmodelle im Verlauf der Zeit die Originaldaten unwiederbringlich
vergessen, sodass die Modelle schlechter werden darin, gute und
wirklichkeitsgetreue Inhalte zu produzieren, und immer mehr Fehler machen.
Dieser Text erwähnt ...
![]() Personen KB IB clear | Sandhini Agarwal , Dario Amodei , Amanda Askell , Christopher Berner , Tom B. Brown , Mark Chen , Benjamin Chess , Rewon Child , Jack Clark , Kewal Dhariwal , Prafulla Dhariwal , Scott Gray , Tom Henighan , Ariel Herbert-Voss , Christopher Hesse , Jared Kaplan , Gretchen Krueger , Mateusz Litwin , Benjamin Mann , Sam McCandlish , Arvind Neelakantan , OpenAI , Alec Radford , Aditya Ramesh , Nick Ryder , Girish Sastry , Pranav Shyam , Eric Sigler , Melanie Subbiah , Ilya Sutskever , Clemens Winter , Jeffrey Wu , Daniel M. Ziegler | ||||||||||||||||||
![]() Begriffe KB IB clear | Chat-GPT
, Daten data
, Generative Machine-Learning-Systeme (GMLS) computer-generated text
, Generative Pretrained Transformer 3 (GPT-3)
, Generative Pretrained Transformer 4 (GPT-4)
, GPT-2
, Internet internet
, model collapse / Model Autophagy Disorder (MAD)
| ||||||||||||||||||
![]() Bücher |
| ||||||||||||||||||
![]() Texte |
|
Dieser Text erwähnt vermutlich nicht ... 
![]() Nicht erwähnte Begriffe | GMLS & Bildung, GMLS & Schule, Künstliche Intelligenz (KI / AI) |
Tagcloud
Zitationsgraph
Zitationsgraph (Beta-Test mit vis.js)
7 Erwähnungen 
- Künstliche Intelligenz, Large Language Models, ChatGPT und die Arbeitswelt der Zukunft (Michael Seemann) (2023)
- Generative AI and the Future of Work - A Reappraisal (Carl Benedikt Frey, Michael A. Osborne) (2024)
- Alles überall auf einmal - Wie Künstliche Intelligenz unsere Welt verändert und was wir dabei gewinnen können (Miriam Meckel, Léa Steinacker) (2024)
- 6. Zwischen Amnesie und Autonomie - Wenn Bots mit Bots sprechen
- 6. Zwischen Amnesie und Autonomie - Wenn Bots mit Bots sprechen
- Artificial intelligence and illusions of understanding in scientific research (Lisa Messer, M. J. Crockett) (2024)
- Co-Intelligence - Living and Working With AI (Ethan Mollick) (2024)
- The Collapse of GPT (Neil Savage) (2025)
- Your Brain on ChatGPT - Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task (Nataliya Kosmyna, Eugene Hauptmann, Ye Tong Yuan, Jessica Situ, Xian-Hao Liao, Ashly Vivian Beresnitzky, Iris Braunstein, Pattie Maes) (2025)
Volltext dieses Dokuments
![]() | The Curse of Recursion: Artikel als Volltext ( : , 2299 kByte; : ) |
Anderswo suchen 
Beat und dieser Text
Beat hat Dieser Text während seiner Zeit am Institut für Medien und Schule (IMS) ins Biblionetz aufgenommen. Beat besitzt kein physisches, aber ein digitales Exemplar. Eine digitale Version ist auf dem Internet verfügbar (s.o.). Es gibt bisher nur wenige Objekte im Biblionetz, die dieses Werk zitieren.


Chat-GPT
Daten
Generative Machine-Learning-Systeme (GMLS)
Generative Pretrained Transformer 3 (GPT-3)
Generative Pretrained Transformer 4 (GPT-4)
GPT-2
Internet

, 2299 kByte;
)
Biblionetz-History