Najpierw VOD, teraz IOD
Imagen oficjalnie jest modelem sztucznej inteligencji zmieniającym tekst w grafiki (ang. text‐to‐image) autorstwa Google Research i Google Brain. Co ważnie nie chodzi o jakieś losowe zlepki pikseli, ani specjalnie przystosowany tekst, tylko o pełnoprawne obrazy opisane użytkowym językiem. Zatem mowa tu o narzędziu generującym przeróżne grafiki, nawet fantastyczne, które zażyczymy sobie zobaczyć.
Ponadto należy jasno zaznaczyć, że Imagen nie podsuwa istniejących obrazów ze swojej bazy danych, tylko tworzy na ich podstawie zupełnie nowe. “Rozumie” jak wyglądają dane obiekty, tekstury, style i potrafi połączyć je z ich tekstową nazwą. Jest również zdolny do łączenia ich ze sobą, gdyż identyfikuje atrybuty i pozycje towarzyszące określonym przedmiotom. Zatem mowa tu o narzędziu prawdziwie wykonującym swoje założenia, a nie tylko podrasowanej wyszukiwarce grafik.
Teoretycznie możemy już zamieniać słowa w obrazy, gdyż istnieje ogólnodostępna funkcja zamiany mowy na tekst. Pytanie tylko, czy marketingowcy przeoczyli tą możliwość, czy raczej wolą pozostać przy samym tekście?
Jak Imagen z „niczego” robi „coś”?
Najprościej mówiąc ‐ po wpisaniu opisu w wyznaczonym polu Imagen wykorzystuje algorytm przeznaczony do rozpoznawania tekstu i po udanej identyfikacji przypisuje słowom obiekty, tekstury i style, które zna ze swojej bazy danych…
Następnie taki osadzony z obrazem tekst zostaje przekształcony przez kolejny algorytm z zaszumionej grafiki w szkic gotowego obrazu o rozdzielczości 64×64 pikseli.
Kolejno następny model sztucznej inteligencji zajmuje się sztucznym zwiększeniem rozdzielczości do 256×256 pikseli i usunięciem niedoskonałości.
Oczyszczona grafika ponownie przechodzi ten sam proces i ostatecznie zostaje powiększona do rozdzielczości 1024×1024 pikseli.
Bazując na skomplikowaniu procesu generowania grafik można domyślić się, że wszelkie obliczenia wykonuje serwer, a nie nasze urządzenie.
Wyobraźnia to nie jedyne ograniczenie Imagen…
Mogłoby się wydawać, że jedynym ograniczeniem takiego oprogramowania jest nasza wyobraźnia, jednakże na oficjalnej stronie Imagen możemy przeczytać co innego.
Jednym z aktualnych „fizycznych” ograniczeń jest rozdzielczość obrazów, która nie może przekraczać 1024 x 1024 piksele. Drugim zaś jest oczywiście jakość grafik przedstawiających elementy, których nie ma zbyt wiele w bazie danych.
A skoro o niej mowa, to należy wspomnieć, że nie jest ona całkowicie przefiltrowana pod względem „nieodpowiednich treści”. W związku z tym cały czas istnieje ryzyko, że przy generowaniu rezultatów użytkownik może się niemiło zaskoczyć. Poza pornografią i wszelkiego typu rozlewem krwi, Imagen ma problem z przypisywaniem pewnych stereotypów do określonych płci, etniczności itp. Rzekomo dlatego też nieco gorzej wizualizuje wizerunki osób od reszty obiektów.
Póki co z powyższych przyczyn autorzy projektu nie zdecydowali się na publikację kodu źródłowego, ani udostępnienie Imagen szerokiej publice.
Zatem zapewne dopóki nie opracują odpowiednio skutecznej cenzury dla algorytmu, to raczej nie przyjdzie nam poznać granic naszej wyobraźni.
Gdzie Imagen może zabłysnąć?
Ciężko wskazać wszystkie możliwe zastosowania zamiany tekstu w obraz, gdyż jest to nowe narzędzie, które ingeruje w ignorowane dotąd fundamenty. Niemniej jednak możemy wskazać kilka prostych zastosowań, które okazałyby się przydatne nawet w naszej redakcji.
Mogłoby się wydawać, że znalezienie darmowych grafik do wzbogacenia artykułu to banał, co częściowo jest prawdą. Owszem istnieją wielkie biblioteki obrazów, ale one zazwyczaj przedstawiają tylko fizyczne obiekty. Natomiast jeżeli chcemy umieścić grafikę przedstawiającą emocje lub jakieś niepopularne zjawisko, to nawet najbogatsza biblioteka nie potrafi zaspokoić naszych potrzeb. Dzięki Imagen moglibyśmy swobodnie, bez obaw o prawo autorskie, generować interesujące nas grafiki tak, aby były adekwatne do tekstu.
Natomiast mniej personalnie, to Imagen może okazać się świetnym narzędziem do szybkiego tworzenia grafik używanych do fotomontażu, oryginalnych emotikon, albo tekstur w projektach 3D.
Oczywiście jeżeli macie jakieś inne pomysły, to zachęcamy do pisania o nich w sekcji komentarzy pod artykułem, albo na naszym Discordzie .
Odpowiednik Imagen vs zawodowiec
Aktualnie każdy model AI wypada gorzej od profesjonalnego grafika, jeżeli chodzi o szczegółowość, precyzyjność i dokładność zleconych obrazów. Aczkolwiek pracę zawodowca liczy się w godzinach, a takiego modelu AI w sekundach i to na 10 podobnych propozycji. Pomimo tak drastycznej różnicy w czasie, efekty prawie wcale od siebie nie odstają i zazwyczaj niedoskonałości widać dopiero po przybliżeniu. Jednakże, aby bezpośrednio o tym się przekonać, to polecam obejrzeć poniższy film prezentujący możliwości modelu DALL‐E, czyli bezpośredniego konkurenta Imagen.
Tak proste w obsłudze i skuteczne narzędzie zdecydowanie niepokoi zawodowych grafików, artystów czy też fotografów. Nie ma co się dziwić ‐ rzeczywiście istnieje spora szansa, że podobne oprogramowanie w przyszłości znacznie zredukuje zapotrzebowanie na wymienione profesje. Jednakże pozostali nadal będą potrzebni do poszerzania bazy danych, a przynajmniej do momentu, aż algorytm nie będzie samowystarczalny.
Przyszłość text‐to‐image
Zapewne zamiana tekstu na obraz podzieli los fotografii i kinematografii ‐ początkowo będą tylko zdjęcia, a jak przybędzie mocy obliczeniowej, to pojawią się również filmy. Niemniej jednak bardziej od wideo ciekawi mnie generowanie obiektów 3D, a może nawet całych przestrzennych scenerii, albo wirtualnych światów. Chociaż na to z pewnością przyjdzie nam jeszcze trochę poczekać, bo Imagen i jego konkurencja dopiero raczkują z grafikami…
Apropos wyobraźni
AI pod postacią Imagen po raz kolejny udowadnia światu, że coraz bardziej liczy się umiejętność obsługi dostępnych narzędzi, a nie talent. Możliwe, że w przyszłości właśnie kreatywność i zdolności poznawcze będą głównym ograniczeniem człowieka, a nie czas potrzebny na zdobywanie doświadczenia. Kto wie, może technologia wcale nie wydłuży już naszego życia, ale za to pozwoli zaoszczędzić czas eliminując długotrwałe nieprzyjemne procesy…
Dodaj komentarz