Sztuczna inteligencja stworzyła obrazy na bazie opisów. Nie wyszło to najlepiej

Naukowcy z Instytutu Sztucznej Inteligencji Allena stworzyli dość ciekawy algorytm, który generuje obrazy na podstawie słów. Program analizuje ich znaczenie i kontekst, po czym pojawia się grafika. Jak się domyślacie, nie jest doskonała, a efekty są naprawdę dziwaczne.

Tak algorytm zinterpretował zdanie: "Fotograf robiący zdjęcie".
Tak algorytm zinterpretował zdanie: "Fotograf robiący zdjęcie".
Marcin Watemborski

02.10.2020 | aktual.: 26.07.2022 14:43

O ile algorytmy tworzące opisy słowne do zdjęć są już w internecie od jakiegoś czasu (Facebook, Google), to w drugą stronę była to czarna magia. Do czasu. Obecnie programiści i inżynierowie z Instytutu Sztucznej Inteligencji Allena pracują nad zaawansowanym rozwiązaniem generowania obrazu na podstawie znaczeń i kontekstów, ale technologia jeszcze raczkuje.

Algorytm sztucznej inteligencji GPT-3 oparty jest na maszynowym uczeniu, to znaczy, że na podstawie zbioru danych uczy się rozumienia konkretnych słów i przetwarzania ich – w tym przypadku na grafikę. Początki tej technologii sięgają czasów systemu językowego Google BERT, który starał się wstawiać słowa w puste miejsca w zdaniach. Wymuszało to na programie uczenie się rozumienia kontekstu.

Obecnie ten model sztucznej inteligencji jest rozszerzany na elementy graficzne. Algorytm nie tylko rozumie kontekst, ale niejako "domyśla się", jaki fragment obrazu powinien się znaleźć na końcowym efekcie. Do testów zostały wykorzystane proste zdania, ale efekty, cóż… wyszły bardzo źle. Poniżej możecie zobaczyć interpretację zdania: "Żyrafa stojąca na ziemi obok drzewa".

"Żyrafa stojąca na ziemi obok drzewa."
"Żyrafa stojąca na ziemi obok drzewa."

Przyznacie, że nijak nie przypomina to żadnego elementu zdania. To jest zrozumiałe dla nas, ludzi. Maszyna jeszcze nie wie, czym jest żyrafa, jak wygląda ani co robi. Nasz mózg bez problemu jest w stanie zwizualizować sobie wspomnianą scenkę. Celem naukowców było przełożenie sposobu naszego wyobrażania sobie znaczenia powyższego zdania na algorytm. Z czasem efekt stał się nieco lepszy, chociaż wciąż daleki od ideału.

Obraz

Na obecnym etapie technologia zamiany słów na obraz jest w powijakach, ale zaczyna nabierać kształtu. Wraz z dalszym treningiem, program zapewne będzie radził sobie coraz lepiej, co widać na powyższych przykładach.

Dla zabawy możecie wypróbować algorytm samemu. Działa on w oparciu o język angielski.

"Czarny aparat leżący na stole."
"Czarny aparat leżący na stole."
Komentarze (1)