Attention Is All You NeedAshish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin
Publikationsdatum:
|
|
Zusammenfassungen
The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train. Our model achieves 28.4 BLEU on the WMT 2014 English-to-German translation task, improving over the existing best results, including ensembles by over 2 BLEU. On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.8 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature. We show that the Transformer generalizes well to other tasks by applying it successfully to English constituency parsing both with large and limited training data.
Von Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin im Text Attention Is All You Need (2023) Dieser Text erwähnt ...
Dieser Text erwähnt vermutlich nicht ...
Nicht erwähnte Begriffe | Chat-GPT, GMLS & Bildung, Langzeitgedächtnis, Long / Short Term Memory (LSTM) |
Zitationsgraph
Zitationsgraph (Beta-Test mit vis.js)
Zeitleiste
25 Erwähnungen
- Deep Learning (John D. Kelleher) (2019)
- Language Models are Few-Shot Learners (Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Kewal Dhariwal, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei) (2020)
- On the Dangers of Stochastic Parrots - Can Language Models Be Too Big? (Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, Shmargaret Shmitchell) (2021)
- DELFI 2021 (Andrea Kienle, Andreas Harrer, Jörg M. Haake, Andreas Lingnau) (2021)
- A Neural Natural Language Processing System for Educational Resource Knowledge Domain Classification (Johannes Schrumpf, Felix Weber, Tobias Thelen)
- Aufmerksamkeit reicht - So funktionieren Sprach-KIs vom Typ „Transformer“ (Pina Merkert) (2022)
- Large Language Models are Zero-Shot Reasoners (Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, Yusuke Iwasawa) (2022)
- Story Machines - How Computers Have Become Creative Writers (Mike Sharples, Rafael Pérez y Pérez) (2022)
- ChatGPT for Good? - On Opportunities and Challenges of Large Language Models for Education (Enkelejda Kasneci, Kathrin Sessler, Stefan Küchemann, Maria Bannert, Daryna Dementieva, Frank Fischer, Urs Gasser, Georg Groh, Stephan Günnemann, Eyke Hüllermeier, Stephan Krusche, Gitta Kutyniok, Tilman Michaeli, Claudia Nerdel, Jürgen Pfeffer, Oleksandra Poquet, Michael Sailer, Albrecht Schmidt, Tina Seidel, Matthias Stadler, Jochen Weller, Jochen Kuhn, Gjergji Kasneci) (2023)
- Plötzlich sehen wir ganz schön alt aus (Hannah Schwär) (2023)
- Unlocking the Power of Generative AI Models and Systems such as GPT-4 and ChatGPT for Higher Education - A Guide for Students and Lecturers (Henner Gimpel, Kristina Hall, Stefan Decker, Torsten Eymann, Luis Lämmermann, Alexander Mädche, Maximilian Röglinger, Caroline Ruiner, Manfred Schoch, Mareike Schoop, Nils Urbach, Steffen Vandirk) (2023)
- Modern language models refute Chomsky’s approach to language (Steven T. Piantadosi) (2023)
- Generative AI at Work (Erik Brynjolfsson, Danielle Li, Lindsey R. Raymond) (2023)
- Sparks of Artificial General Intelligence - Early experiments with GPT-4 (Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg, Harsha Nori, Hamid Palangi, Marco Tulio Ribeiro, Yi Zhang) (2023)
- ChatGPT und andere Computermodelle zur Sprachverarbeitung - Grundlagen, Anwendungspotenziale und mögliche Auswirkungen (Steffen Albrecht) (2023)
- Testing of Detection Tools for AI-Generated Text (Debora Weber-Wulff, Alla Anohina-Naumeca, Sonja Bjelobaba, Tomáš Foltýnek, Jean Guerrero-Dib, Olumide Popoola, Petr Šigut, Lorna Waddington) (2023)
- Künstliche Intelligenz, Large Language Models, ChatGPT und die Arbeitswelt der Zukunft (Michael Seemann) (2023)
- Künstliche Intelligenz - Dem Menschen überlegen - wie KI uns rettet und bedroht (Manfred Spitzer) (2023)
- Talking about Large Language Models (Murray Shanahan) (2024)
- Alles überall auf einmal - Wie Künstliche Intelligenz unsere Welt verändert und was wir dabei gewinnen können (Miriam Meckel, Léa Steinacker) (2024)
- Writing at a Distance - Notes on Authorship and Artificial Intelligence (Hannes Bajohr) (2024)
- The Singularity is nearer (Ray Kurzweil) (2024)
- 2. Reinventing Intelligence
- A real-world test of artificial intelligence infiltration of a university examinations system - A “Turing Test” case study (Peter Scarfe, Kelly Watcham, Alasdair Clarke, Etienne Roesch) (2024)
- Generative KI-Systeme in der Lehre systematisch anleiten (Timon Rimensberger) (2024)
- DELFI 2024 (Sandra Schulz, Natalie Kiesler) (2024)
- Web-based prototype of a visual and interactive deep learning simulation (Christian Koch, Frederic Salmen, Ulrik Schroeder) (2024)
- Jahrbuch Medienpädagogik 21 (Claudia de Witt, Sandra Hofhues, Mandy Schiefner, Valentin Dander, Nina Grünberger) (2024)
- Für eine ‹technologiebewusste Medienpädagogik› jenseits der Digitalisierung - Ein Weg in die Archive der Technizität (Christoph Richter, Heidrun Allert)
Anderswo finden
Volltext dieses Dokuments
Attention Is All You Need: Artikel als Volltext (: , 2150 kByte; : ) |
Anderswo suchen
Beat und dieser Text
Beat hat Dieser Text während seiner Zeit am Institut für Medien und Schule (IMS) ins Biblionetz aufgenommen. Beat besitzt kein physisches, aber ein digitales Exemplar. Eine digitale Version ist auf dem Internet verfügbar (s.o.). Aufgrund der wenigen Einträge im Biblionetz scheint er es nicht wirklich gelesen zu haben.