Sztuczna inteligencja opisze świat niewidomym. Testy już trwają

Generatywna sieć neuronowa Midjourney znana jest z generowania fotorealistycznych grafik. Potrafi zdziałać istne cuda. Dotychczas działało to tylko w jedną stronę, ale czas na zmiany. Ta sztuczna inteligencja potrafi teraz analizować obrazy i tworzyć ich opis tekstowy. Jak to robi? Zobaczcie sami.

Sztuczna inteligencja coraz częściej przejawia się w świecie fotografii.
Sztuczna inteligencja coraz częściej przejawia się w świecie fotografii.
Źródło zdjęć: © Pexels
Marcin Watemborski

06.04.2023 14:34

Midjourney to generatywna sieć neuronowa, czyli w dużym uproszczeniu algorytm sztucznej inteligencji, które potrafi przerobić informacje wsadowe na coś kompletnie innego. Dotychczas pozwalała na wpisywanie tekstu i zamienianie go w obrazy z wykorzystaniem silników pięciu swoich wersji oraz kilku innych parametrów. Teraz pojawiła się nowa opcja.

Można powiedzieć, że twórcy Midjourney wprowadzili odwróconą funkcjonalność. Wystarczy wgrać zdjęcie i zamiast komendy "/imagine" wpisać "/describe", by algorytm przeanalizował wgrany obraz. W odpowiedzi otrzymamy krótki opis tekstowy, który może pomóc nam zrozumieć działanie programu. Wykorzystane przez Midjourney słowa mogą ponownie zostać przez nas wykorzystane podczas tworzenia innych grafik – chodzi o poznanie sposobu funkcjonowania algorytmu i tego, jakie wyrazy oraz narracja są najbardziej efektywne.

Dalsza część artykułu pod materiałem wideo

To oczywiście nie jest jedyne wykorzystanie. Interesującym zagadnieniem do rozważenia jest opisowa forma dzieł wizualnych pod postacią ułatwień dostępu dla niewidomych i niedowidzących. Po znacznym wytrenowaniu algorytmu być może w przyszłości posłuży on w sieci do tłumaczenia obrazów na słowa, by niepełnosprawni również wiedzieli, o co chodzi. W wielu galeriach sztuki na świecie takie rozwiązanie już jest stosowane, jednak nie działa ono na podstawie SI, a nagranego lektora.

Po wrzuceniu obrazu na Discorda i wpisaniu komendy "/describe" otrzymamy aż 4 różne opisy, z których możemy wybrać ten, który pasuje najbardziej. Mogą one pozwolić na tworzenie nowych grafik, które zostaną urozmaicone. Warto to przetestować samemu, lecz trzeba pamiętać, że obecnie Midjourney nie jest darmowe. W związku z ostatnimi kontrowersjami algorytm jest dostępny jedynie w modelu subskrypcyjnym, gdzie w najtańszej wersji kosztuje on 8$ + VAT za miesiąc, w ramach czego dostajemy 200 minut mocy obliczeniowej.

Marcin Watemborski, redaktor prowadzący Fotoblogii

Wybrane dla Ciebie
Komentarze (0)