Ich hatte vor ein paar Tagen die App Wombo Dream gepickt, weil sie ermöglicht, per künstlicher Intelligenz Kunstwerke zu erschaffen. Wie man die App nutzt, kannst du hier im Beitrag zur Wombo AI lesen. Im aktuellen Blogpost möchte ich jedoch darauf eingehen, wie die Technik hinter dieser App arbeitet.
Kapitel in diesem Beitrag:
VQGAN + CLIP – Algorithmen zum maschinellen Lernen im Zusammenspiel
Die App von Wombo Dream – so wie viele andere Apps, die generative Kunst erstellen, basiert im Grunde auf zwei künstlichen, neuronalen Netzwerken, welche zusammen die Bilder kreieren. Die Namen dieser beiden Netzwerke sind VQGAN und CLIP.
VQGAN ist ein neuronales Netzwerk, das verwendet wird, um Bilder zu erzeugen, welche anderen Bildern ähnlich sehen. CLIP wiederum ist ein neuronales Netzwerk, was darauf trainiert wurde, festzustellen, wie gut eine Textbeschreibung zu einem Bild passt.
CLIP gibt VQGAN eine Rückmeldung, wie das Bild der Textaufforderung am besten entspricht. VQGAN passt das Bild dahingehend an und übergibt es wieder an CLIP, um zu checken, wie gut es zum Text passt. Diesen Vorgang wiederholt man einige Hundert Male und erhält dadurch die ki-generierten Bilder.
Beide Algorithmen wurden von Ryan Murdock und Kathrine Crowson kombiniert, welche sich für ki-generierte Kunst begeistern.
An einem Beispiel möchte ich zeigen, wie die Prozedur abläuft. Die Texteingabe für das folgende Projekt war „nether portal rendered in Cinema 4D“. Insgesamt wurden 250 Iterationen durchlaufen und ich habe alle 50 Durchläufe einen Screenshot gespeichert. Hier das Ergebnis:
Man könnte auch noch weitere Iterationen durchlaufen lassen, aber bei kleinen Auflösungen sind 250 ein guter Wert. In der Praxis haben sich Zahlen zwischen 500 und 700 als hilfreich erwiesen, da mehr Iterationen auch mehr Rechenzeit bedeuten, aber dadurch letztendlich nur noch wenige Details berechnet werden, die man kaum sieht.
Es gibt einige Leute, die bis zu 2000 Iterationen laufen lassen, aber ich denke, das ist eher Spezialfälle, die für Hobbykünstler wie mich eher übertrieben sind.
KI-Kunst erstellen ohne Programmierkenntnisse
Die Wombo Dream App bietet nun die Möglichkeit, diese Verbindung aus den beiden Algorithmen VQGAN und CLIP zu nutzen, ohne dafür Programmierkenntnisse zu haben. Die Texteingabe und die Auswahl des Stils wird quasi an die Programmierung weitergegeben und daraufhin erstellt die KI das entsprechende Bild.
Es gibt neben Wombo Dream aber noch andere Apps und Möglichkeiten, um Kunst mit einer KI und den Netzwerken VQGAN und CLIP zu erzeugen. Eine kleine (sicher unvollständige) Liste habe ich hier für euch erstellt:
Mein Tipp: Google Colab Pro
Meine aktuelle Wahl für das Generieren von ki-basierter Kunst über Texteingaben ist das Google Colab Notebook. Es ist grundsätzlich kostenlos und man versteht trotzdem schnell, wie es funktioniert. Wenn man dann nicht 10 Euro im Monat in Google Colab Pro investiert, erzeugt es die Bilder auch noch 6x schneller als im kostenlosen Modell.
Gerade am Anfang ist die Geschwindigkeit wichtig, da man als Neuling nicht ewig warten möchte, bis ein Bild fertig generiert ist. Und eine schnelle Generierung des fertigen „Kunstwerkes“ hilft letztendlich auch dabei, mit den Einstellungen und Anweisungen für die KI herumzuprobieren.
Meine Tipps & Tricks rund um Technik & Apple
Ähnliche Beiträge
Seit 2012 betreibe ich meinen Blog als Sir Apfelot und helfe meinen Lesern bei technischen Problemen. In meiner Freizeit flitze ich auf elektrischen Einrädern, fotografiere mit meinem iPhone, klettere in den hessischen Bergen oder wandere mit meiner Familie. Meine Artikel behandeln Apple-Produkte, Drohnen-News und Lösungen für aktuelle Bugs.
Wow, that’s awsome Sir Apfelot, thank you.