$ {intro} $ {title} $ {intro} $ {title} Synthese fotorealistischer KI-Bilder: Google konkurriert mit DALL-E-2 – mit KI-Bildgenerator Imagen DALL-E 2: die erste Retrospektive der OpenAI mit über 3 Millionen Bildern Das KI-Startup Aleph Alpha konkurriert mit dem eigenen Basismodell des Epson DS-790WN AI im Test mit den USA und China: Netzwerk-Power-Scanner mit Touchscreen So kombinieren Sie Signal, Whatsapp und Twitter auf einem einzigen Server Projekt: ESP32-Orgel mit Klaviertastatur Elektroautos bauen: Akku-Spartipps Tipps: Elektroautos mit überschüssigem Solarstrom aufladen

Der im Frühjahr 2022 begonnene Weltraumwettlauf um neue große KI-Modelle von Google, Meta und OpenAI beschleunigt sich: Etwa vier Wochen nach dem Start des KI-Bildgenerators DALL-E 2 für OpenAI wird Google folgt und führt Imagen ein, ein Text-zu-Bild-Verbreitungsmodell mit einem tiefen Sprachverständnis, das fotorealistische Bilder aus Texteingaben generiert. Derzeit veröffentlicht das Team von Google Brains jedoch weder den Code noch eine öffentliche Demoversion des Modells, was die am Projekt beteiligten Forscher in einem langen Abschnitt ihres Berichts mit ethischen Bedenken begründen.

Zum Vergleich: OpenAI hatte ausgewählten Testnutzern eine Demoversion von DALL-E 2 zur Verfügung gestellt und erst kürzlich den Nutzerkreis erweitert. OpenAI gibt den Code aber auch nicht weiter und behält sich vor, dessen Verwendung, die zahlreichen Bedingungen und Auflagen unterliegt, jederzeit einzuschränken. Die mit DALL-E 2 generierten Bilder gehören nicht der Person, die sie erstellt hat, und OpenAI hatte eine kommerzielle Nutzung wie NFT von vornherein ausgeschlossen, ebenso wie die Erstellung oder Verwendung lebender fotorealistischer Bilder für Pornografie und die Darstellung von Gewalt.

Imagen unterstützt die oben genannten Text- und Bildansätze

Technisch gesehen gibt es in Googles neuem KI-System zwei grundlegende Ideen: Laut dem Google Brains-Team stützt sich Imagen auf große Transformer-Sprachmodelle, um Text zu verarbeiten, und auf den Broadcast-Modell-Ansatz, um realistisch aussehende Bilder zu erstellen. Dass generische Large-Language-Modelle (LLM), die zuvor in großen Mengen reiner Textdaten trainiert wurden, sich als unglaublich leistungsfähig bei der Codierung von Text für die Bildsynthese erwiesen haben, kann mittlerweile als erwiesen gelten, zu diesem Schluss kommen sogar Google-Forscher. zu Ihrem Dokument und kann Sie bei Ihren Ergebnissen noch mehr unterstützen.

Im Kern verwendet Imagen einen großen, „eingefrorenen“ T5-XXL-Encoder, um Texteingaben für die Anzeige zu codieren. Ein Broadcast-Modell bildet den eingebetteten numerischen Text auf ein Bild mit niedriger Auflösung (64 mal 64 Pixel) ab. Darüber hinaus verwendet Imagen bedingte hochauflösende Text-Broadcast-Modelle, um die Grundgröße von Bildern auf 256 x 256 und 1024 x 1024 Pixel zu erhöhen, was der Auflösung von DALL-E 2 entspricht. Sie verwenden sie in maschinellen Lernmodellen, die mit zunehmendem Rauschen gefüttert werden Bilder während des Trainings. Nach Abschluss des Trainings können sie den Prozess auch umkehren, also vernünftige Bilder aus dem Rauschen erzeugen.

Visualisierungsschema in Imagen, Googles neuem KI-Bildgenerator: Als Basis dient ein eingefrorener Text-Encoder, Text-to-Image-Inlays können in Zwischenschritten auf eine höhere Auflösung extrapoliert werden.

(Bild: Google Research)

Das Erhöhen des Maßstabs des Sprachmodells erhöht die Leistung

Interessanterweise erhöhte laut dem Artikel des Google-Teams die Erhöhung des Bildmodells in Imagen sowohl die Mustertreue als auch die Bild-Text-Ausrichtung, anstatt das Bilddiffusionsmodell zu erhöhen. Alignment bedeutet hier die Abstimmung und Ausrichtung der Texteingabe und der Bildausgabe auf konsistente Ergebnisse, bei denen die Ausgabe möglichst der als Text eingegebenen Zielvorgabe entspricht.

Vergleich von Image mit anderen Methoden mit Drawbench und dem KI-System erreicht SOTA (State of the Art) Werte im COCO-Datensatz.

(Bild: Google Research)

Die Modellleistung wird häufig anhand der Leistung in vergleichenden Datensätzen unter Verwendung von Standard-Benchmarks gemessen. Die Forscher beziehen sich auf den Datensatz COCO (Common Object in Context), in dem Imagen eine relativ hohe Punktzahl erreicht, ohne zuvor mit diesen Daten trainiert worden zu sein, während menschliche Tester offenbar festgestellt haben, dass die Beispiele von Image Image -Text COCO ebenbürtig sind. . Das Team von Google Brains hat Imagen mit neueren Methoden wie VQ-GAN und CLIP, Latent Diffusion Models und DALL-E 2 verglichen und stellt in seinem Forschungsbericht DrawBench eine kürzlich entwickelte Methode zum Vergleich und zur Bewertung von Text-Bild-Modellen vor.

Laut menschlichen Testern besser als DALL-E 2?

Zusammenfassend sollten fünf Ergebnisse der Bildforschung der Schlüssel zum maschinellen Lernen sein:

  1. Große, vortrainierte, „eingefrorene“ Textcodierer sind besonders effektiv für Text-zu-Bild-Aufgaben.
  2. Das Erhöhen der Größe des Textcodierers scheint für gute Ergebnisse wichtiger zu sein als das Erhöhen der Größe des Bildübertragungsmusters.
  3. Imagen stellt einen neuen Diffusionszähler für Schwellwerte vor, der die Verwendung besonders großer Gewichte erlaubt und frei von Klassifikatoren (Leitgewichten) ist.
  4. Das Team stellt eine neue U-Net-Architektur vor, die rechen- und speichereffizient ist und besonders schnell konvergiert
  5. Die Forscher heben für den COCO-Vergleichsdatensatz eine hohe Punktzahl hervor, die dem Stand der Technik entspricht und zeigt, dass die getesteten Bildmuster in ihrer Bild-Text-Übereinstimmung mit den Referenzbildern übereinstimmen.

In ihrem Artikel stellt das Image-Team auch fest, dass menschliche Tester die Image-Ergebnisse im Vergleich zu anderen Modellen durchweg bevorzugt haben. Ob dies grundsätzlich zutrifft, ist derzeit ohne öffentliche Demonstration und Beweismöglichkeit schwer zu überprüfen.

KI-Sicherheit: Forschung braucht Zeit für Sicherheitsvorkehrungen

Wie bei den meisten anderen großen Sprach- und Bildmodellen für maschinelles Lernen basieren Bilder meist auf nicht bereinigten Datensätzen aus dem Internet, aus denen unerwünschte Inhalte wie Pornografie und toxische Sprache entfernt wurden. Die Google-Forscher sprechen jedoch von einem Sicherheitsproblem und wollen ihr aktuelles System nicht öffentlich preisgeben, um zunächst „mehr Sicherheitsvorkehrungen“ zu treffen, heißt es in dem Dokument. Vorläufige Einschätzungen zeigten, dass Imagen eine Reihe von sozialen Vorurteilen und Stereotypen sowie eine allgemeine Tendenz zur Darstellung von Menschen mit heller Hautfarbe und zur Reproduktion westlicher Geschlechterstereotype in Berufsbildern kodiert. Hier wollen die Google-Forscher ansetzen und mit ihren Folgearbeiten eingreifen.

Einige zusätzliche Überlegungen zur KI-Sicherheit finden sich beim Oxford-Wissenschaftler Sebastian Farquhar, der eine erste Einschätzung von Image und verwandten Modellen auf Twitter teilte.

Es gibt noch keine öffentliche Demonstration, aber eine dokumentierte Website

Wer die Ergebnisse von Image sehen will, ist noch auf die Rolle des Zuschauers beschränkt. Interessierte können das auf arXiv.org veröffentlichte Forschungspapier und die von Google Brains kuratierte Sammlung von Textnachrichten und ersten Bildausgaben einsehen. Neben der Website, die ein Bildarchiv, einen Suchlink und Informationen zu DrawBench bietet, scheinen viele Google-Mitarbeiter begonnen zu haben, von Imagen generierte Bilder auf Twitter zu posten.

Spannend für eine vertiefende Diskussion ist eine Zusammenstellung des New Yorker KI-Forschers und Philosophen Raphaël Millière, der seine Gedanken zum Fortschritt visueller Sprachmodelle in einem mehrteiligen Twitter-Thread teilt.

Ausführliche Informationen und anschauliche Beispiele finden Sie auf der Website von Google Research Image.

(sih)

Auf der Homepage

Leave a Comment

Your email address will not be published. Required fields are marked *