Google AI Image Image übertrifft DALL-E 2, aber Google hat Bedenken

Bild: Bild / Google

Mit AI Imagen Generative Image demonstriert Google nach OpenAI auch, dass künstliche Intelligenz glaubwürdige und nützliche Bilder erzeugen kann.

Imagen ist Googles Antwort auf das kürzlich von OpenAI vorgestellte KI-Image DALL-E 2. Mit einem Unterschied: OpenAI hat DALL-E 2 direkt als Produkt mit Beta-Test eingeführt, das ab diesem Sommer mehr Menschen zur Verfügung stehen soll.

Laut Google-Forschern übertrifft Imagen DALL-E 2 in Genauigkeit und Qualität, aber derzeit ist generative KI nur als wissenschaftliche Arbeit verfügbar. Daran wird sich aus ethischen Gründen in absehbarer Zeit nichts ändern.

Imagen erzeugt Bilder, die der Texteingabe entsprechen. | Bild: Google AI

Der Text wird zum Bild

Imagen basiert auf einem großen vortrainierten Transformer (T5)-Sprachmodell, das eine digitale Bilddarstellung (Bildeinbettung) erstellt, aus der ein Sendemodell ein Bild erstellt. Broadcast-Modelle sehen Bilder, die während des Trainings allmählich verrauscht werden. Nach dem Training können die Modelle diesen Prozess umkehren, also aus dem Rauschen ein Bild erzeugen.

Der Bilderzeugungsprozess. Die Bildgenerierung stammt aus dem Textverständnis eines großen Transformer-Sprachmodells. Theoretisch könnte für die Eingabe ein anderes Sprachmodell verwendet werden, was sich wiederum auf die Qualität der Bilder auswirken dürfte. | Bild: Google AI

Dann wird das ursprüngliche Bild mit niedriger Auflösung (64 x 64) mithilfe der AI-Skala auf 1024 x 1024 Pixel vergrößert, die gleiche Auflösung wie bei DALL-E 2. Ähnlich wie bei Nvidia DLSS fügt die AI-Skala neue angemessene Details hinzu von Inhalten, bietet also auch eine große Schärfe in der Zielauflösung. Durch diesen Skalierungsprozess spart Imagen viel Rechenleistung, die benötigt würde, wenn das Modell direkt hohe Auflösungen erzeugen würde.

Imagen funktioniert bei der menschlichen Bewertung besser als DALL-E 2

Eine der wichtigsten Erkenntnisse des KI-Teams von Google ist, dass ein großes vortrainiertes Sprachmodell „überraschend effektiv“ bei der Codierung von Text für die spätere Bildsynthese ist. Außerdem hat für eine realistischere Bilderzeugung eine Erweiterung des Sprachmodells einen größeren Effekt als ein umfangreicheres Training des Broadcast-Modells, das das eigentliche Bild erzeugt.

Das Team hat den DrawBench-Benchmark entwickelt, bei dem die Qualität eines generierten Creatives und die Übereinstimmung des Creatives mit dem Eingabetext bewertet werden. Sie vergleichen die Ausgänge mehrerer Systeme parallel.

Im DrawBench-Benchmark wurden mit Imagen und DALL-E 2 generierte Menschenbilder hinsichtlich Passgenauigkeit und Motivqualität bewertet. Laut Google Imagen bevorzugten menschliche Tester sie „eindeutig“. | Bild: Google AI

In diesem Test schnitt Imagen deutlich besser ab als DALL-E 2, was die Forscher unter anderem auf das bessere sprachliche Verständnis des Textmodells zurückführen. In den meisten Fällen kann Imagen die Anleitung „Ein Panda macht Latte Art“ in das richtige Motiv übersetzen: Ein Panda gießt perfekt Milch in eine Tasse Kaffee. DALL-E 2 kreiert ein Pandagesicht in Milchschaum.

Links die von Imagen generierten Bilder, die in drei von vier Fällen ein Motiv zeigen, das zum Eintrag passt. Rechts die Fehlinterpretation von DALL-E 2 in vier von vier Fällen Bild: Google

Auch bei einem Benchmark mit dem COCO-Datensatz (Common Object in Context) erreichte Imagen einen neuen Bestwert (7,27) und schnitt besser ab als DALL-E (17,89) und DALL-E 2 (10,39). Alle drei Bildmodelle wurden zuvor nicht mit Coco-Daten trainiert. Nur Metas „Make-A-Scene“ (7.55) agiert hier genauso wie Imagen, aber Metas Bild-KI trainiert mit Cocos Daten.

Bewegen Sie sich langsam und lassen Sie die Dinge heilen

Die Veröffentlichung des Modells ist derzeit aus ethischen Gründen nicht geplant, da das zugrunde liegende Textmodell „gesellschaftliche Verzerrungen und Einschränkungen“ enthalte, weshalb Imagen „schädliche Stereotype“ erzeugen könne.

Spannweite {Breite: 5px; Höhe: 5px; Hintergrundfarbe: # 5b5b5b; } # mailpoet_form_11 {Randradius: 0px; Textausrichtung: links;} # mailpoet_form_11 form.mailpoet_form {Padding: 20px;} # mailpoet_form_11 {Breite: 100 %;} # mailpoet_form_11 .mailpoet_message {Rand: 0; padding: 0 20px;} # mailpoet_form_11 .mailpoet_paragraph.last {margin-bottom: 0} @media (maximale Breite: 500px) {# mailpoet_form_11 {background-image: none;}} @media (minimale Breite: 500px) {# mailpoet_form_11 .last .mailpoet_paragraph: letztes Kind {margin-bottom: 0}} @media (maximale Breite: 500px) {# mailpoet_form_11 .mailpoet_form_column: letztes Kind .mailpoet_paragraph: letztes Kind: {0} margin-bottom]]>

Darüber hinaus hat Imagen derzeit „erhebliche Einschränkungen“ bei der Erstellung von Bildern mit Personen darauf, wie z. “

Aus diesem Grund wolle Google Image oder ähnliche Technologien nicht „ohne zusätzliche Schutzmaßnahmen“ auf den Markt bringen. DALL-E 2 hat auch diese Probleme. Daher stellt OpenAI Bild-KI sehr langsam für etwa 1000 Tester pro Monat bereit. Ein aktuelles Zwischenfazit nach drei Millionen generierten Bildern zeigte, dass derzeit nur ein Bruchteil der DALL-E-Motive gegen die Content-Richtlinien von OpenAI verstoßen.

Jeff Dean, leitender KI-Forscher bei Google AI, sieht das Potenzial von KI zur Förderung der Kreativität in der Zusammenarbeit zwischen Mensch und Computer. Imagen ist “eine Richtung”, der Google folgt. Dean teilt zahlreiche Beispielbilder auf Twitter. Weitere Informationen und eine interaktive Demonstration finden Sie auf der Imagen-Projektseite.

Quellen: fotorealistische Modelle der Text-zu-Bild-Diffusion mit tiefem Sprachverständnis

Hinweis: Links zu Online-Artikelshops können als Affiliate-Links bezeichnet werden. Wenn Sie über diesen Link kaufen, erhält MIXED.de vom Verkäufer eine Provision. Der Preis ändert sich für Sie nicht.

Der Text wird zum Bild

Imagen funktioniert bei der menschlichen Bewertung besser als DALL-E 2

Bewegen Sie sich langsam und lassen Sie die Dinge heilen

Leave a Comment Cancel Reply