Google Lumiere sprawia, że ​​wideo AI jest bliższe rzeczywistości niż nierzeczywistości

Nowy model sztucznej inteligencji Google do generowania wideo Lumiere Używane jest A Nazywa się nowy model dyfuzji Space-Time-U-Net lub STUNet, który określa, gdzie znajdują się obiekty w filmie (przestrzeń) oraz w jaki sposób się poruszają i zmieniają w tym samym czasie (czas). Ars Technica Ta metoda pozwala Lumiere stworzyć wideo w jednym procesie, zamiast łączyć ze sobą mniejsze nieruchome klatki, zauważa ta metoda.

Lumiere zaczyna od stworzenia podstawowej ramki z wektora. Następnie wykorzystuje platformę STUNet, aby rozpocząć przybliżanie miejsc, w których obiekty będą się poruszać w tej klatce, aby utworzyć więcej klatek, które przenikają się nawzajem, tworząc wrażenie płynnego ruchu. Lumiere tworzy również 80 klatek w porównaniu do 25 klatek ze Stable Video Diffusion.

Co prawda zajmuję się raczej reporterem SMS-ów niż wideo, ale komunikat prasowy Google wraz z artykułem naukowym przed drukiem pokazują, że narzędzia do tworzenia i edycji wideo oparte na sztucznej inteligencji przekształciły się z doliny niesamowitości w niemal rzeczywiste w ciągu zaledwie kilku lat . Ustanawia także technologię Google w przestrzeni już zajmowanej przez konkurentów, takich jak Runway, Stable Video Diffusion czy Meta's Emu. Runway, jedna z pierwszych masowo produkowanych platform zamiany tekstu na wideo, uruchomiła Runway Gen-2 w marcu ubiegłego roku i zaczęła oferować bardziej realistyczne filmy. Filmy z wybiegu również mają trudności z uchwyceniem akcji.

Google był na tyle miły, że umieścił klipy i podpowiedzi w witrynie Lumiere, co pozwoliło mi umieścić te same podpowiedzi w całym Runway dla porównania. Oto wyniki:

Tak, niektóre z prezentowanych klipów mają industrialny charakter, zwłaszcza jeśli przyjrzeć się fakturze skóry lub jeśli scena jest bardziej klimatyczna. Ale Spójrz na tego żółwia! Porusza się jak żółw w wodzie! Wygląda jak prawdziwy żółw! Wysłałem film wprowadzający Lumiere znajomemu, który jest profesjonalnym montażystą wideo. Chociaż zauważyła, że ​​„od razu widać, że to nie jest całkiem realne”, uznała za imponujące, że gdybym jej nie powiedziała, że ​​to sztuczna inteligencja, pomyślałaby, że to CGI. (Powiedziała też: „To zabrałoby mi pracę, prawda?”)

READ  Ponad 30 najlepszych ofert Apple w Czarny piątek

Inne modele łączą klipy wideo z klatek kluczowych wygenerowanych w miejscu, w którym faktycznie miała miejsce akcja (np. rysunki w papierowej książce), podczas gdy STUNet pozwala Lumiere skupić się na samej akcji w oparciu o to, gdzie powinna znajdować się wygenerowana treść w czasie określonym dla filmu.

Google nie był dużym graczem w kategorii przetwarzania tekstu na wideo, ale powoli wypuszczał bardziej zaawansowane modele sztucznej inteligencji i zaczął skupiać się na multimediach. Jego Model Wielkiego Języka Bliźniąt w końcu umożliwi bardowi generowanie obrazu. Lumiere nie jest jeszcze dostępny do testów, ale pokazuje, że Google może opracować platformę wideo AI, która jest porównywalna – i prawdopodobnie nieco lepsza – od ogólnie dostępnych generatorów wideo AI, takich jak Runway i Pika. A tak dla jasności, to tutaj Google kilka lat temu zajmował się wideo AI.

Klip Google Imagen z 2022 r
Obraz: Google

Oprócz tworzenia konwersji tekstu na wideo, Lumiere umożliwi także konwersję obrazu na wideo, kreację stylizowaną, umożliwiającą użytkownikom tworzenie filmów w określonym stylu, grafikę kinową animującą tylko część wideo oraz rysowanie do zamaskuj obszar wideo, aby zmienić kolor lub wzór.

Jednak w badaniu Google Lumiere zauważono, że „istnieje ryzyko nadużyć polegających na tworzeniu fałszywych lub złośliwych treści przy użyciu naszej technologii, dlatego uważamy, że opracowanie i wdrożenie narzędzi do wykrywania uprzedzeń i przypadków złośliwego użycia jest niezbędne, aby zapewnić bezpieczne i uczciwe doświadczenie .” jest używany.” Autorzy artykułu nie wyjaśnili, w jaki sposób można to osiągnąć.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *