Root NationNachrichtenIT-NeuigkeitenMicrosoft stellte einen multimodalen Ansatz vor, der den Weg zur KI auf menschlicher Ebene ebnet

Microsoft stellte einen multimodalen Ansatz vor, der den Weg zur KI auf menschlicher Ebene ebnet

-

Zu Beginn dieser Woche haben Forscher von Microsoft stellte Kosmos-1 vor, ein multimodales Modell für künstliche Intelligenz, das Bilder auf Inhalte analysieren, visuelle Rätsel lösen, visuelle Texterkennung durchführen, visuelle IQ-Tests durchführen und Anweisungen in natürlicher Sprache verstehen kann. Laut den Forschern sind solche KI-Modelle der erste Schritt zur Schaffung einer künstlichen allgemeinen Intelligenz (KI), die gemeinsame Aufgaben auf menschlicher Ebene ausführen kann. Das heißt, diese Technologie wird in der Lage sein, eine Person bei jeder intellektuellen Aufgabe zu ersetzen. Und das ist das erklärte Ziel von OpenAI, einem wichtigen Geschäftspartner Microsoft im Bereich der künstlichen Intelligenz.

Kosmos-1

In diesem Fall ist Kosmos-1 eine rein persönliche Entwicklung des Unternehmens Microsoft. Die Forscher bezeichnen ihre Entwicklung als „Multimodal Broad Language Model“ (MLLM), da ihre Wurzeln in der Nur-Text-Verarbeitung natürlicher Sprache wie LLM wie ChatGPT liegen. Damit das Modell Eingabebilder akzeptieren kann, müssen Forscher die Bilder zunächst in eine spezielle Reihe von Token (hauptsächlich Text) umwandeln, die das LLM verstehen kann.

Kosmos-1

Kosmos-1 wurde anhand einer Datenbank aus dem Internet trainiert, einschließlich Auszügen aus The Pile (einer 800 GB großen englischen Textressource) und Common Crawl. Anschließend wurde das Modell mit mehreren Tests auf Sprachverständnis, Sprachgenerierung, Textklassifizierung ohne optische Zeichenerkennung, Bildunterschrift, visuelle Beantwortung von Fragen, Beantwortung von Webseitenfragen und Bildklassifizierung mit Lokalisierung getestet. Entsprechend MicrosoftIn vielen dieser Tests übertraf Kosmos-1 aktuelle Modelle.

Kosmos-1

Besonders interessant war der Raven's Progressive Reasoning Test, der den visuellen IQ misst, indem er eine Abfolge von Formen präsentiert und den Probanden auffordert, die Abfolge zu vervollständigen. Kosmos-1 konnte in 22 % der Fälle die richtige Antwort geben.

Kosmos-1

Diese frühen Schritte, die mit zukünftiger Optimierung noch bedeutendere Ergebnisse liefern könnten, ermöglichen es KI-Modellen, jede Form von Medien wahrzunehmen und zu beeinflussen, wodurch die Fähigkeiten künstlicher Assistenten erheblich erweitert werden.

Lesen Sie auch:

Anmelden
Benachrichtigen Sie über
Gast

0 Ihre Nachricht
Eingebettete Bewertungen
Alle Kommentare anzeigen