Apple stellte sein neues KI-Modell ReALM vor

Forscher Apple haben ein künstliches Intelligenzsystem namens ReALM (Reference Resolution as Language Modeling) entwickelt, das darauf abzielt, die Art und Weise, wie Sprachassistenten Befehle verstehen und darauf reagieren, radikal zu verbessern.

In einer Forschungsarbeit Apple beschreibt einen neuen Rahmen dafür, wie große Sprachmodelle das Problem der Referenzauflösung angehen, einschließlich der Entschlüsselung mehrdeutiger Referenzen auf Objekte auf dem Bildschirm sowie des Verständnisses von Konversations- und Hintergrundkontexten. Dadurch kann ReALM zu einer intuitiveren und natürlicheren Interaktion mit Geräten führen.

Die Referenzerkennung ist ein wichtiger Teil des Verständnisses natürlicher Sprache und ermöglicht es Benutzern, Pronomen und andere indirekte Referenzen in Gesprächen ohne Verwirrung zu verwenden. Für digitale Assistenten stellte diese Fähigkeit in der Vergangenheit eine große Herausforderung dar, da sie durch die Notwendigkeit, ein breites Spektrum an verbalen Signalen und visuellen Informationen zu interpretieren, eingeschränkt wurde. Das ReALM-System von Apple zielt darauf ab, dieses Problem zu lösen, indem der komplexe Prozess der Referenzerkennung in eine reine Sprachmodellierungsaufgabe umgewandelt wird. Auf diese Weise kann sie die Verweise auf die auf dem Bildschirm angezeigten visuellen Elemente verstehen und dieses Verständnis in den Gesprächsfluss integrieren.

ReALM rekonstruiert die visuelle Struktur des Bildschirms mithilfe von Textdarstellungen. Dazu gehört das Parsen von Bildschirmobjekten und deren Anordnung, um ein Textformat zu erstellen, das den Inhalt und die Struktur des Bildschirms widerspiegelt. Forscher Apple stellte fest, dass diese Strategie in Kombination mit einer speziellen Abstimmung der Sprachmodelle für Benchmark-Auflösungsprobleme herkömmliche Methoden, einschließlich der GPT-4-Funktionen von OpenAI, deutlich übertrifft.

Mit ReALM können Benutzer viel effektiver mit digitalen Assistenten interagieren, basierend auf dem, was gerade auf dem Bildschirm angezeigt wird, ohne dass genaue und detaillierte Anweisungen erforderlich sind. Dies könnte Sprachassistenten in verschiedenen Situationen viel nützlicher machen, etwa um Fahrern beim Navigieren in Infotainmentsystemen während der Fahrt zu helfen oder um Benutzern mit Behinderungen durch die Bereitstellung einfacherer und genauerer Mittel zur indirekten Interaktion zu helfen.

Apple hat bereits mehrere Forschungsarbeiten im Bereich KI veröffentlicht. Letzten Monat stellte das Unternehmen eine neue Methode zum Erlernen großer Sprachmodelle vor, die sowohl Text- als auch visuelle Informationen nahtlos integriert. Das wird erwartet Apple wird auf der WWDC-Konferenz im Juni eine Reihe von KI-Funktionen vorstellen.

Lesen Sie auch:

QuelleMacrumors

Anmelden

0 Ihre Nachricht

Eingebettete Bewertungen

Alle Kommentare anzeigen

Andere Artikel

Apple stellte sein neues KI-Modell ReALM vor

Letzte Kommentare