Die vorherrschenden Sequenztransduktionsmodelle basieren auf komplexen rekurrenten oder Faltungs-Neuronalen Netzen in einer Encoder-Decoder-Konfiguration. Die leistungsstärksten Modelle verbinden Encoder und Decoder auch über einen Aufmerksamkeitsmechanismus. Wir schlagen eine neue einfache Netzwerkarchitektur vor, den Transformer, die ausschließlich auf Aufmerksamkeitsmechanismen basiert und vollständig auf Wiederholungen und Faltungen verzichtet. Experimente mit zwei maschinellen Übersetzungsaufgaben zeigen, dass diese Modelle qualitativ überlegen sind, gleichzeitig besser parallelisierbar sind und deutlich weniger Zeit zum Trainieren benötigen. Unser Modell erreicht 28,4 BLEU bei der Englisch-Deutsch-Übersetzungsaufgabe des WMT 2014 und übertrifft damit die bestehenden besten Ergebnisse, einschließlich Ensembles, um mehr als 2 BLEU. Bei der Englisch-Französisch-Übersetzungsaufgabe des WMT 2014 ermittelt unser Modell nach 3,5-tägigem Training auf acht GPUs einen neuen, hochmodernen BLEU-Wert für ein einzelnes Modell von 41,0, was einem kleinen Bruchteil der Trainingskosten der Besten entspricht Modelle aus der Literatur. Wir zeigen, dass sich der Transformer gut auf andere Aufgaben verallgemeinern lässt, indem wir ihn erfolgreich auf das Parsen englischer Wahlkreise sowohl mit großen als auch mit begrenzten Trainingsdaten anwenden. Google Research Transformer