NVIDIA Maxine zamieni kiepskiej jakości wideo z kamerki internetowej w HD
Kamerki internetowe i rozmowy przez komunikatory wideo są w tym roku na topie. Niestety często jakość obrazu jest bardzo kiepska, a przecież zamiast pikselozy chcemy zobaczyć twarz rozmówcy. NVIDIA ma na to sposób oparty na sztucznej inteligencji. Zastąpiła kodek wideo siecią neuronową.
06.10.2020 | aktual.: 26.07.2022 14:43
NVIDIA Maxine to rozwiązanie oparte na algorytmach sztucznej inteligencji, które ma ulepszyć wideokonferencje. Aplikacje oparte na tej sieci neuronowej będą wykorzystywały jedną dziesiątą przepustowości sieci potrzebnej do strumieniowana kodeku H.264. Innymi słowy – mając wolniejszy internet będzie można odbierać i nadawać obraz lepszej jakości.
Nowa technologia opiera się na tworzeniu mapy twarzy, kierunkowaniu spojrzenia, a nawet poprawie oświetlenia w czasie rzeczywistym. Daje to efekt zwiększonej rozdzielczości zdecydowanie mniejsze szumy. Aplikacje oparte na Maxine i kartach graficznych NVIDIA działają w chmurze, więc można z nich korzystać niezależnie od preferowanego urządzenia – na tabletach, smartfonach czy komputerach obraz będzie wyglądał świetnie.
Inventing Virtual Meetings of Tomorrow with NVIDIA AI Research
Sieć neuronowa NVIDIA opiera się na 4 filarach: animacji twarzy, efektach audio i wideo, sztucznej inteligencji zdolnej do konwersacji oraz znacznym zmniejszeniu niezbędnej przepustowości względem kodeka H.264. Animacja twarzy dotyczy stworzenia mapy twarzy konkretnego rozmówcy nawet na podstawie zdjęcia i wirtualnego ożywienia jej. Dochodzi do tego korekcja spojrzenia, więc osoba po drugiej stronie monitora będzie miała wrażenie utrzymywania kontaktu wzrokowego z animowanym rozmówcą.
Maxine ma również za zadanie upscaling, czyli zwiększenie rozdzielczości strumieniowanego obrazu. Chodzi o to, by internetowo było przesyłane wideo o niskiej rozdzielczości, które później jest przetwarzane przez sztuczną inteligencję tak, by wyglądało lepiej. W ten sposób z wideo w rozdzielczości 360p zrobi się 720p bez dodatkowego obciążania przepustowości sieci. To samo dotyczy dźwięku, który Maxine automatycznie ulepszy. Zredukowane też zostaną artefakty w postaci szumów i zlepków pikseli.
Temat sztucznej inteligencji zdolnej do konwersacji brzmi jak technologia z filmów science fiction. Programiści zaimplementowali do programów opartych na maszynowym uczeniu funkcję asystenta. Algorytm jest w stanie odpowiadać na pytania, sporządzać notatki, wyświetlać napisy czy nawet tłumaczyć wypowiedzi na inny język w czasie rzeczywistym. Dopełnieniem Maxine jest NVIDIA Jarvis, czyli specjalny framework stworzony do wspomnianych zadań.
Zmniejszenie obciążenia przepustowości sieci odbywa się za pomocą specjalnych algorytmów kompresji wideo. Zadanie brzmi prosto, ale wymaga potężnej mocy obliczeniowej. NVIDIA dąży do tego, by wideo w dobrej jakości potrzebowało przepustowości równej jednej dziesiątej prędkości potrzebnej do przesłania wideo w kodeku H.264. Ma to na celu zredukowanie kosztów transmisji, jak również poprawienie wydajności i przekazania końcowemu użytkownikowi obrazu bardzo wysokiej jakości używając gorszych kamerek internetowych.