Veštačka inteligencija (VI) preobražava svet umetnosti na neverovatan način. Jedna od najuzbudljivijih primena VI u umetnosti jeste upotreba opisnih generatora slika. Ovi generatori imaju mogućnost da analiziraju i tumače slike, a zatim stvaraju potpuno nova umetnička dela na osnovu te analize.
U ovom tekstu, razmotrićemo tri takva VI generatora slika: Midjourney, Stable Diffusion i Microsoft Bing Image Creator, i pokušaćemo da utvrdimo koji od ova tri pruža najbolje rezultate na osnovu zadatih tekstualnih upita.
Midjourney
Midjourney, čiji je osnivač Dejvid Holc, predstavlja VI generator slika koji koristi mašinsko učenje kako bi prepoznao obrasce i karakteristike u postojećim umetničkim delima. Te informacije se zatim koriste za kreiranje novih dela.
Midjourney je pušten u otvorenu beta verziju 12. jula 2022. godine. Pre pokretanja Midjourney-a, Holc je bio jedan od osnivača Leap Motion-a, startapa koji je promenio način interakcije sa korisničkim interfejsima, koristeći video snimanje i pokrete ruku. Godine 2019. prodao je Leap Motion kompaniji Ultrahaptics.
Nakon što je Midjourney postao popularan, Holc je delio svoja razmišljanja o tehnologiji i njenom uticaju na umetnost i društvo. On umetnike vidi kao korisnike Midjourney-a, a ne konkurenciju, i veruje da ova platforma može podstaći veću kreativnost i eksperimentisanje u fazi razvoja ideje.
Međutim, postoje zabrinutosti u vezi sa potencijalnim kršenjem autorskih prava koje može proisteći iz Midjourney-ovog skupa za obuku, koji potencijalno može sadržati dela drugih umetnika zaštićena autorskim pravima.
Holc naglašava da je Midjourney zamišljen da unapredi ljudske sposobnosti, a ne da ih zameni. On to poredi sa automobilima, objašnjavajući da to što su automobili brži od ljudi, ne znači da treba da odsečemo noge.
Korišćenjem Midjourney VI za generisanje slika, umetnici mogu istraživati nove mogućnosti i generisati brojne ideje pre nego što kreiraju svoja finalna dela.
Stable Diffusion
Stable Diffusion je model mašinskog učenja otvorenog koda koji je sposoban generisati slike na osnovu teksta, menjati postojeće slike na osnovu teksta, ili popunjavati detalje na slikama niske rezolucije ili sa malo detalja. Obučen je na milijardama slika i može proizvesti rezultate koji su uporedivi sa onima koje generišu DALL-E 2 i Midjourney.
Emad Mostak, osnivač i izvršni direktor Stability AI, je kompanija koja stoji iza razvoja Stable Diffusion-a. Stable Diffusion je model latentne difuzije razvijen od strane CompVis grupe na LMU u Minhenu, a dizajnirali su ga Patrik Eser i Robin Rombah, koji su prethodno kreirali arhitekturu modela latentne difuzije koju koristi Stable Diffusion.
Saradnja između Stability AI, CompVis LMU, Runway, EleutherAI i LAION učinila je Stable Diffusion dostupnim široj javnosti.
Stable Diffusion se može implementirati na različitim platformama, uključujući Windows i Apple uređaje. Korišćenje aplikacije na samom uređaju može zaštititi privatnost korisnika, što je znatno bolje od pristupa koji se zasniva na serveru.
Microsoft Bing Image Creator
Microsoft je predstavio novi alat pod nazivom Bing Image Creator, koji korisnicima omogućava da kreiraju sopstvene slike direktno u Microsoft Edge-u. Kompanija je najavila paket alata za kreatore koji su dizajnirani da podstaknu kreativnost i samoizražavanje. Alat omogućava korisnicima da kreiraju personalizovane slike koje mogu deliti radi ažuriranja informacija iz njihovih života ili u bilo koju drugu svrhu.
Korisnici mogu lako pristupiti Image Creatoru putem bočne trake Microsoft Edge-a. Microsoft je preduzeo proaktivne mere kako bi osigurao da se alat koristi odgovorno i da se njime ne olakšava širenje uvredljivog sadržaja.
Kompanija je postavila politiku sadržaja koja zabranjuje korišćenje Image Creator-a u određenim slučajevima, a korisnici mogu prijaviti bilo kakvo kršenje ove politike. Pored toga, Microsoft je implementirao tehnologiju za rešavanje potencijalnih predrasuda koje mogu nastati u tehnologiji generativne slike.
U ovom tekstu, upustićemo se u evaluaciju rezultata koje generišu različiti opisni VI generatori slika kada im se zadaju identična tekstualna uputstva.
Uputstvo 1: Savremeni Deda Mraz na sankama koje vuku irvasi, po sunčanom danu na autoputu
Uputstvo 2: Krupni plan životinje sa velikim očima, koji hvata njenu nevinost i ljupkost
Uputstvo 3: Ljudski astronaut koji istražuje novu planetu, dočekan od strane neprijateljski nastrojenih vanzemaljskih bića koji drže oružje
Uputstvo 4: Moderna apstraktna umetnost za koricu romana smeštenog u Njujorku, sa upadljivim i svetlim bojama
Uputstvo 5: Čovek se odlučuje između dva tanjira – jednog sa picom, a drugog sa čizburgerom
Uputstvo 6: Ranjeni ratnik jaše konja po snežnoj planini, držeći mač u ruci
Uputstvo 7: Apstraktna slika koja koristi različite nijanse, prikazujući kretanje i protok vode
Uputstvo 8: Losos u reci, sa bujnim zelenim drvećem u pozadini
Uputstvo 9: Čaša vode na stolu, sa limunom koji se cedi u nju, uz pomoć ruke
Uputstvo 10: Pogled na horizont u pustinji iz perspektive osobe koja jaše slona
Uputstvo 11: Šuma u kojoj papirni novac raste na drveću, a ptice su napravljene od kovanica
Uputstvo 12: Posuda ramena, ćelijsko senčenje, večernje osvetljenje, fotorealistično
Uputstvo 13: Elon Musk je siromašan i nezaposlen
Zaključak
Nakon analize rezultata generisanih od strane Midjourney-a, Stable Diffusion-a i Bing Image Creator-a, jasno je da ne postoji apsolutni pobednik.
Svaki generator interpretira upite na svoj jedinstveni način, pri čemu postoje sličnosti u izlazima Bing Image Creator-a i Midjourney-a. Stable Diffusion je efikasan kada upiti sadrže jasne opise, ali često reči shvata previše bukvalno. Iako su Midjourney i Bing Image Creator uglavnom uspešni, ponekad daju rezultate koji ne odgovaraju u potpunosti upitima.
Posebno je važno napomenuti da je Bing Image Creator oprezan kada generiše bilo kakve potencijalno uvredljive ili podsticajne sadržaje, izdajući poruku upozorenja kada mu se zatraži da kreira sliku siromašnog i nezaposlenog Elona Muska. Microsoft zaslužuje pohvalu za usvajanje takvih zaštitnih mera.
U međuvremenu, Midjourney-jeva neuronska mreža je bez problema generisala sliku siromašnog i napuštenog Elona Muska. Dakle, može se zaključiti da će svaki od ovih generatora imati svoju bazu korisnika.