MIT-Wissenschaftler lösten das Geheimnis des maschinellen Lernens

Nach 2010 begann eine ernsthafte Verbesserung von Softwarealgorithmen, die zusammen mit leistungsfähigen Computern der rasanten Entwicklung neuronaler Netze Auftrieb gab. Softwaremodelle werden an Tausenden von Beispielen trainiert und trainiert, um später ihre eigenen Aktionen zu formen. Heute ist dies das bekannteste neuronale Netzwerk OpenAI GPT-3. Dies ist ein maschinelles Lernmodell, das mit Hilfe vieler Internetdaten lernt, ein kleines Textfragment nehmen und ein unzureichendes Fragment auf einem ziemlich hohen Niveau hinzufügen kann. Und das gilt nicht nur für erzählende Texte, sondern auch für Gedichte sowie Zeilen von Softwarecode.

Neurales Netzwerk

Aber das ist nicht alles, wozu Modelle dieses Plans fähig sind. Forscher untersuchen ein interessantes Phänomen, das als "Lernen im Kontext" bekannt ist, bei dem ein großes Sprachmodell lernt, eine Aufgabe auszuführen, nachdem es nur wenige Beispiele gesehen hat, obwohl es nicht für die Aufgabe trainiert wurde.

Wissenschaftler des Massachusetts Institute of Technology, von Google Research und der Stanford University versuchen, dieses Rätsel zu lösen. Beim kontextuellen Lernen werden die Modellparameter nicht aktualisiert, sodass es den Anschein hat, dass das Modell eine neue Aufgabe lernt, ohne überhaupt etwas zu lernen.

Neurales Netzwerk

Die theoretischen Ergebnisse der Forscher zeigen, dass diese massiven Modelle neuronaler Netze in der Lage sind, kleinere und einfachere lineare Modelle in sich zu verstecken. Das große Modell kann dann einen einfachen Algorithmus implementieren, um dieses kleinere lineare Modell zu trainieren, um eine neue Aufgabe auszuführen, wobei nur die Informationen verwendet werden, die bereits im größeren Modell enthalten sind.

Dank eines tieferen Verständnisses des kontextuellen Lernens können Wissenschaftler neue Aufgaben mit Modellen ohne teure Umschulung umsetzen. Das heißt, erstens ist es für jede spezifische Aufgabe notwendig, eine Vielzahl von Daten zu sammeln, auf deren Grundlage das Training stattfindet. Und so wird es möglich sein, dem neuronalen Netz nur einige wenige Beispiele zu liefern, dank denen trainiert wird.

"Kontextuelles Lernen ist ein unangemessen effektives Lernphänomen, das verstanden werden muss".

Neurales Netzwerk

Es wurde die Hypothese aufgestellt, dass es kleinere maschinelle Lernmodelle in neuronalen Netzwerkmodellen gibt, die einem älteren Modell beibringen können, eine neue Aufgabe auszuführen. Um ihre Theorie zu testen, nahmen die Wissenschaftler ein neuronales Netzwerkmodell, das GPT-3 in seiner Architektur sehr ähnlich ist, aber speziell für das Lernen im Kontext entwickelt wurde. Das heißt, innerhalb der früheren Schichten wurde ein Modell implementiert, das mit dem Lernen eines linearen Modells beschäftigt war und einfache Lernalgorithmen implementierte.

"Diese Ergebnisse sind ein Sprungbrett, um zu verstehen, wie Modelle komplexere Aufgaben lernen können, und werden Forschern helfen, effektivere Methoden zum Trainieren von Sprachmodellen zu entwickeln, um ihre Leistung weiter zu verbessern.".

Lesen Sie auch:

Quellecsail.mit.edu

Anmelden

0 Ihre Nachricht

Eingebettete Bewertungen

Alle Kommentare anzeigen

Andere Artikel

Wissenschaftler des Massachusetts Institute of Technology haben das Geheimnis des maschinellen Lernens gelöst

Letzte Kommentare