Root NationNachrichtenIT-NeuigkeitenWie im Film: Googles neue Fotoverarbeitungs-KI macht das Skalieren und Verbessern von Fotos zur Realität

Wie im Film: Googles neue Fotoverarbeitungs-KI macht das Skalieren und Verbessern von Fotos zur Realität

-

Sie haben wahrscheinlich Fantasy-Filme oder Fernsehsendungen gesehen, in denen die Hauptfigur darum bittet, das Bild zu vergrößern und das Ergebnis zu verbessern – um ein Gesicht, ein Nummernschild oder ein anderes wichtiges Detail zu zeigen. Die neuesten Systeme der künstlichen Intelligenz (KI) von Google, basierend auf dem sogenannten Diffusionsmodelle, sind in der Lage, diesen Trick auszuführen.

Es ist ein kniffliger Prozess zu meistern, da es im Wesentlichen darum geht, Details zu einem Bild hinzuzufügen, das die Kamera ursprünglich nicht aufgenommen hat, indem superkluge Vermutungen auf der Grundlage anderer, ähnlicher Bilder verwendet werden.

Google

Bei Google wird diese Technik als natürliche Bildsynthese bezeichnet, und in diesem speziellen Szenario als ultrahohe Bildauflösung. Sie beginnen mit einem kleinen, verpixelten Foto und erhalten am Ende etwas Scharfes, Klares und Natürliches. Es ist vielleicht nicht genau das Original, aber es ist nah genug, um für das menschliche Auge echt zu wirken.

Google hat für diesen Job zwei neue KI-Tools eingeführt. Die erste heißt SR3 oder Super-Resolution via Repeated Refinement und funktioniert, indem sie einem Bild Rauschen hinzufügt und es dann entfernt. Durch eine Reihe von probabilistischen Berechnungen auf der Grundlage einer großen Bilddatenbank und einiger Magie des maschinellen Lernens kann sich der SR3 vorstellen, wie eine superhochauflösende Version eines Pixelbildes mit niedriger Auflösung aussieht.

Das zweite Werkzeug ist CDM oder Cascaded Diffusion Models. Google beschreibt diese als „Pipelines“, entlang derer Diffusionsmodelle – einschließlich SR3 – für hochqualitatives Bild-Upscaling geleitet werden können. Es nimmt Verbesserungsmodelle und macht sie zu größeren Bildern.

Google

Durch die Verwendung verschiedener Verbesserungsmodelle bei unterschiedlichen Auflösungen ist der CDM-Ansatz laut Google in der Lage, alternative Bild-Upscaling-Methoden zu übertreffen. Die neue KI-Engine wurde auf ImageNet getestet, einer riesigen Datenbank mit Trainingsbildern, die häufig für die Forschung zur visuellen Objekterkennung verwendet wird.

Die Endergebnisse von SR3 und CDM sind beeindruckend. In einem Standardtest mit 50 menschlichen Freiwilligen wurden von SR3 generierte Bilder menschlicher Gesichter in etwa 50 % der Fälle mit echten Fotos verwechselt – und wenn man bedenkt, dass ein idealer Algorithmus 50 % erreichen sollte, ist das beeindruckend. Es ist erwähnenswert, dass diese verbesserten Bilder keine exakten Übereinstimmungen mit den Originalen sind, sondern sorgfältig berechnete Simulationen, die auf der Mathematik der Wahrscheinlichkeit basieren.

Google

Google verspricht viel mehr von seinen neuen KI-Engines und verwandten Technologien – nicht nur in Bezug auf die Erweiterung von Bildern von Gesichtern und anderen natürlichen Objekten, sondern auch in anderen Bereichen der probabilistischen Modellierung.

Lesen Sie auch:

QuelleScience
Anmelden
Benachrichtigen Sie über
Gast

0 Ihre Nachricht
Eingebettete Bewertungen
Alle Kommentare anzeigen