Hold
RoBERTa iteriert auf dem Vortrainingsverfahren von BERT, einschließlich eines längeren Trainings des Modells mit größeren Batches über mehr Daten; Entfernen des Vorhersageziels für den nächsten Satz; Training an längeren Sequenzen; und dynamisches Ändern des auf die Trainingsdaten angewendeten Maskierungsmusters. Weitere Einzelheiten finden Sie im zugehörigen Dokument. RoBERTa