Was ist Kunst, was ist Intelligenz? Und mein Weg zum obigen Bild
Ich muss gestehen, mein malerisches Können ist sehr gering. Trotzdem habe ich gestern dieses Kunstwerk entstehen lassen… Es trägt den Titel „Meine Stadt“.
Vor einigen Wochen las ich das Buch Disruptive Thinking (Bernhard von Mutius). Von Mutius geht darin auf den durch den technologischen Fortschritt (z.B. die digitale Revolution) ausgelösten, fundamentalen Wandel und Umbruch des menschlichen sozioökonomischen Mikro- und Makrokosmos ein. Disruption umfasst heutzutage fast alle Lebensbereiche des Menschen. Dies führt zu einer großen Verunsicherung und Angst bei den Menschen, den Organisationen und der Gesellschaft. Es gilt, sich diesen negativen Auswirkungen, wie von Mutius betont, denkerisch zu stellen. Nur so können sie kreativ bewältigt werden.
Optimistisch schlägt er eine Geisteshaltung vor, durch die der Bruch mit dem bisher Bekannten und Vertrauten gemeistert werden könnte. Diese positive Geisteshaltung, durch die der disruptive Wandel gemeistert werden könnte, nennt von Mutius Disruptive Thinking:
„Es ist die Kunst und Disziplin, mit tiefgreifenden Brüchen und Widersprüchen souverän, kreativ und produktiv umzugehen.
Disruptive Thinking ist Querdenken ohne Geländer.
Es akzeptiert das Nichtwissen im Wissen.
Es ist experimentell.
Es ist nicht linear.
Es versteht etwas vom Dilemma der Innovatoren.
Es setzt auf vernetzte, agile Teams und weiß um die Beharrungskräfte der alten Organisation.
Es ist schöpferisch und zugleich verantwortungsvoll.“
(Quelle: B. v. Mutius. Disruptive Thinking – Blogbeitrag. 1. Juli 2016. https://vision.haufe.de/blog/disruptive-thinking/)
Wie ich ein „KI-Aktivist“ wurde…
Ausgehend von meiner Grundlagenforschung über den Menschen faszinieren mich Fragen, die mit dem Wesen des Menschen und seinen Unterscheidungsmerkmalen zu anderen, nicht menschlichen Dingen, wie Tieren, Pflanzen, Artefakten, Maschinen und Umwelt in Zusammenhang stehen. So stellten sich für mich u.a. folgende Fragen „Was ist Intelligenz?“, „Was ist menschliche Intelligenz?“ „Wie unterscheidet sich
menschliche Intelligenz von tierischer?“ „Was ist künstliche Intelligenz?“ und „Wie unterscheidet sich KI von menschlicher bzw. tierischer Intelligenz?“ Wenn ich hier von KI spreche, meine ich immer die sogenannte schwache KI, die sich auf das mathematische Lösen von konkreten Problemen der Wirklichkeit bezieht, die bislang nur der Mensch meistern konnte (Z.B. Gewinnen eines Go-Spiels gegen einen Gomeister). Diese Fragen und auch das hautnahe Erleben von KI machten mich so neugierig, dass ich an der fast.ai MOOC Practical Deep Learning for Coders und Cutting Edge Deep Learning for Coders von Jeremy Howard und Rachel Thomas teilnahm…
Disruption in der Kunst – KI trifft Kunst & Wie eine Bildstilübertragung möglich wird
Durch Kunst wird eine neue Realität geschaffen, durch die Wirklichkeit aus dem Blickwinkel des Künstlers visuell interpretiert, abgebildet und dem Betrachter präsentiert wird. Echte Kunst hat mit Schönheit zu tun, doch das ist ein anderes philosophisches Streitthema…
Jedes Bild besitzt einen Inhalt und einen Stil. Unter dem Stil eines Bildes wird hier seine Farben, Oberflächenstrukturen und Muster verstanden. Unter dem Bildinhalt wird die Gesamtstruktur oder die Objektkomponenten der höheren Ebene des Bildes verstanden (D. Sarkar et. al. Practical Machine Learning with Python, S. 510). Bei einer Stilübertragung eines Bildes auf ein anderes wird der Inhalt von Bild A beibehalten und der Stil von Bild B auf Bild A übertragen, sodass Bild C entsteht (siehe Visualisierung unten).
Mit Hilfe von Convolutional Neural Networks (CNNs) lassen sich beide Bilddimensionen (Inhalt und Stil eines Bildes) herauslösen und so mit neuen Bildern kombinieren. Über den mathematischen Vorgang schreiben D. Sarkar et. al.
„Um dieses Konzept mathematisch zu definieren, betrachten wir drei Bilder – den ursprünglichen Inhalt (bezeichnet als c), den Referenzstil (bezeichnet als s) und das erzeugte Bild (bezeichnet als g). Daher brauchen wir eine Möglichkeit, um messen zu können, wie unterschiedlich die Bilder c und g in Bezug auf ihren Inhalt sind. Eine Funktion, die zu 0 tendiert, wenn c und g völlig unterschiedlich sind und ansonsten wächst [….] L(Inhalt) = Distanz (c, g) [….] Genauso können wir eine weitere Funktion definieren, die erfasst, wie unterschiedlich die Bilder s und g in Bezug auf ihren Stil sind. L(Stil) = Distanz (s, g)“ (D. Sarkar et. al. Practical Machine Learning with Python, S. 510)
Die Bildstilübertragung wird also durch das Lösen des eben skizzierten Optimierungsproblems vollzogen (Vgl. D. Sarkar et. al. Practical Machine Learning with Python, S. 510f. und G. Surmas Medium-Artikel). Der CNN-Algorithmus berechnet also, wann Bild g möglichst genau dem Referenzstil s ähnelt und möglichst genau dem ursprünglichen Inhalt c ähnlich ist. Um zu guten Ergebnissen zu kommen, bedarf es mehrerer Optimieriungsdurchläufe des CNN-Algorithmus. Nach 1, 2, 5, 10 und 15 Optimierungsläufen sehen die Bilder folgendermaßen aus:
„Ein neuronaler Algorithmus des künstlerischen Stils“
2009 kam es zum sogennanten „big bang of Deep Learning“ „als Deep-Learning Neural Networks mit Nvidia Grafikprozessoren (GPUs) trainiert wurden“ (D. Takahashi: 2016) und sich herausstellte, dass durch die Verwendung der GPUs Deep-Learning Neural Networks bis zu 100 Mal schneller betrieben werden können. So benötig der hier verwendete Algorithmus für die 10 Optimierungsdruchläufe auf einem durchschnittlichen normalen PC mit Intel i5 CPU mit 8GB RAM bis zu drei Stunden Rechenzeit bei voller CPU Auslasstung.
2015 publizieren die Wissenschaftler L. A. Gatys, A. S. Ecker und M. Bethge den Artikel „A Neural Algorithm of Artistic Style“ in der Zusammenfassung ihres Artikels schreiben sie:
In der bildenden Kunst, insbesondere in der Malerei, beherrschen die Menschen die Fähigkeit, einzigartige visuelle Erfahrungen zu schaffen, indem sie ein komplexes Zusammenspiel von Inhalt und Stil eines Bildes komponieren. Bisher ist die algorithmische Grundlage dieses Prozesses unbekannt und es gibt kein künstliches System mit ähnlichen Fähigkeiten. In anderen Schlüsselbereichen der visuellen Wahrnehmung, wie der Objekt- und Gesichtserkennung, wurde die nahezu menschliche Leistung jedoch kürzlich durch eine Klasse von biologisch inspirierten Sehmodellen namens Deep Neural Networks demonstriert. Hier stellen wir ein künstliches System vor, das auf einem Deep Neural Network basiert, das künstlerische Bilder von hoher Wahrnehmungsqualität erzeugt. Das System verwendet neuronale Darstellungen, um Inhalt und Stil beliebiger Bilder zu trennen und zu rekombinieren. Es handelt sich also um einen neuronalen Algorithmus, durch den künstlerische Bilder geschaffen werden können. Darüber hinaus bietet unsere Arbeit angesichts der auffallenden Ähnlichkeiten zwischen leistungsoptimierten künstlichen neuronalen Netzen und biologischem Sehen einen Weg zu einem algorithmischen Verständnis davon, wie Menschen künstlerische Bilder erschaffen und wahrnehmen.
Wie dieser Algorithmus funktioniert, erklärt u.a. auch Greg Surma in einem Medium-Artikel (eine wissenschaftliche Erklärung findet sich im oben erwähnt Artikel). Er stellt auch das Jupyter-Notebook, das ich mittels Amazon SageMaker zur Berechnung meines obigen Kunstwerkes „Meine Stadt“ verwendet habe, zur Verfügung. Das angewandte algorithmische Verfahren heißt CNN-Bildstilübertragung.
So ist das Kunstwerke „Meine Stadt“ entstanden
Ich danke Frau Leonora M. Silbertau, die das Bild „Mallorca“ gemalt hat, dessen Malstil auf das Foto durch die KI übertragen worden ist. Dieses Bild zusammen mit dem Foto von Dubai, dem Algorithmus und der Rechenleistung der GPUs macht das Kunstwerk „Meine Stadt“ möglich.
Hier sind weitere Beispiele von Bildstiltransfers