Dzięki algorytmowi Google, automatyczne podpisywanie i tagowanie zdjęć to tylko kwestia czasu
Opisywanie zdjęć i tworzenie słów kluczowych to dość mozolna praca. Każdy, kto pracuje na obszernej bibliotece obrazów, na pewno spotkał się z tym zadaniem i niejednokrotnie na nie narzekał. Dzięki opracowanemu przez Google algorytmowi stanie się to o wiele łatwiejsze i szybsze.
27.09.2016 | aktual.: 26.07.2022 18:50
Słowa kluczowe i poprawne podpisanie zdjęcia jest podstawowym zadaniem, które musi wykonać każdy, kto kataloguje zdjęcia w bazie obrazów. Umożliwia to ich łatwiejsze wyszukanie oraz, co za tym idzie – sprzedaż. Od tego zależy, do ilu potencjalnych klientów trafi dana fotografia.
Jako fotoreporter musiałem się zmagać z podpisywaniem zdjęć wg. standardów IPTC. Dwa pola spędzały mi sen z powiek niejednokrotnie – opis zdjęcia oraz słowa kluczowe. Mimo częściowej automatyzacji i stworzenia bazy tagów i tak zabierało to więcej czasu, niż powinno.
Algorytm Google o nazwie „Show and Tell” jest open-source’owym kodem, który każdy z nas może poddać treningowi w rozpoznawaniu i opisywaniu obrazów. Gigant medialny pracuje nad tym rozwiązaniem od kilku dobrych lat. Na obecnym poziomie maszyna potrafi zinterpretować i poprawnie podpisać obraz na poziomie 93,9%, co jest naprawdę zdumiewającym wynikiem.
Można zaryzykować stwierdzenia, że obecnie uczymy sztuczną inteligencję „widzieć” zdjęcia oraz je opisywać, co jakiś czas temu było jeszcze nie do pomyślenia. 10 lat temu nie mogliśmy sobie wyobrazić, że maszyna, po wgraniu zdjęcia, będzie w stanie powiedzieć, że widzi na nim „osobę puszczającą latawiec na plaży”.
Rozpoznawanie obrazów polega na zaimplementowaniu odpowiedniego algorytmu, który uczy się, dzięki ludzkiemu treningowi. Sztuczna inteligencja interpretuje zdjęcia na podstawie pokazania jej określonej sceny oraz podpisania jej we właściwy sposób. Zdjęcia podobne do tego wgranego zostaną poprawnie „zrozumiane” przez maszynę bez większego problemu.
Google ma nadzieję, że dzięki udostępnieniu kodu źródłowego, technologia pójdzie do przodu. Patrząc na to z perspektywy fotografa – niebawem może nam to znacznie ułatwić pracę na polu poprawnego, automatycznego opisywania zdjęć oraz dobierania słów i fraz kluczowych. Nie będziemy musieli się już przedzierać przez setki stworzonych przez nas wyrazów, by odpowiednio skategoryzować zdjęcie.
Drugim zastosowaniem, które widzę dla tej technologii, jest ułatwienie dostępu do treści wyświetlanych w Internecie dla osób niewidzących. Jeśli technologia ta dalej będzie się tak prężnie rozwijała, to w połączeniu z Google Voice osoby z problemami ze wzrokiem nie będą dłużej potrzebowały asystentów i będą bardziej niezależne w korzystaniu z nowych mediów. Mam szczerą nadzieję, że rozwój algorytmu pójdzie właśnie w tym kierunku.
Niestety, rozpoznawanie obrazów działa natywnie w języku angielskim, ale z drugiej strony – co to za problem dla Google, skoro jest automatyczny tłumacz. Jeśli twórcy rozwiną umiejętność programu do rozumienia kontekstów, zyskamy potężne narzędzie, które umożliwi bezproblemową komunikację ludzi na całym świecie.