Reprodukcje głosu AI w audiobookach pochodzą od Amazon, Apple i Google

Audiobooki – „mówiące książki”, jak je po raz pierwszy nazywano – są stosunkowo nowym zjawiskiem, ale sięgają znacznie dalej niż Apple i Amazon. Koncepcja książek mówionych narodziła się w latach trzydziestych XX wieku i została udostępniona osobom niedowidzącym. Dopiero w latach 70. książki nagrane na kasety zaczęły uspokajać niepokój pasażerów. Ale dopiero gdy zostały wchłonięte przez nasze telefony, medium naprawdę się rozwinęło.

Od początku ery iPhone’a audiobooki stale się rozwijają. Branża ma dekadę dwucyfrowy wzrost, trend, który ma przyspieszyć. zgodnie z prognozą dot słowaSprzedaż segmentu audiobooków można obecnie szacować na ponad 5 miliardów dolarów – około 2 miliardy dolarów ze Stanów Zjednoczonych, największego na świecie rynku audiobooków – a oczekuje się, że przychody będą rosły o 26,4% rocznie od 2022 do 2030 roku, napędzając sprzedaż audiobooków na północ od 35 dolarów miliardów do 2030 roku. To sprawia, że audiobooki są „najszybciej rozwijającym się formatem książek na świecie z dużym marginesem”, według Wordsrated.

Sprawia to również, że audiobooki są kolejnym rynkiem, na który sztuczna inteligencja próbuje się wkraść, a dźwięki generowane przez sztuczną inteligencję wkraczają, aby odebrać mikrofon aktorom głosowym. Czy konsumenci są gotowi, aby sztuczna inteligencja szeptała im do uszu? Prawda jest taka, że to już się dzieje.

Google Play i Apple Books firmy Alphabet do pewnego stopnia wykorzystują dźwięki generowane przez sztuczną inteligencję i trend ten prawdopodobnie się utrzyma. Google Play oferuje wydawcom możliwość tworzenia audiobooków z automatyczną narracją, o ile wydawcy posiadają prawa do audiobooka i wybierają automatyczną narrację. Żadna z nich nie jest tworzona bez zgody wydawcy, ani też nie jest czymś, co każdy konsument może legalnie stworzyć samodzielnie.

„Dla wielu wydawców produkcja audiobooków może być znaczącą inwestycją” — powiedziała Judy Chang, dyrektor ds. zarządzania produktami w Książkach Google Play. Płacenie aktorów głosowych jest częścią równania kosztów. „Wydawcy mogą ocenić popyt na audiobooki dla swoich tytułów, zanim zainwestują w ludzką narrację” – powiedziała.

Jak ludzie słyszą książki?

Ludzie kochają audiobooki. Ustępują jedynie muzyce jako najpopularniejszy produkt audio. Ale użycie głosu AI w audiobookach przywołuje coś, co można w pewnym stopniu określić jako prywatną formę intymnego korzystania z nowej technologii. To nie jest tak, jak pytać Alexę o pogodę lub grać piosenkę. Może to stanowić ograniczony przypadek tego, jak daleko konsumenci (i firmy) mogą się posunąć lub posuną się – przynajmniej na razie – w zamianie ludzkich narratorów na głosy generowane komputerowo.

„Ludzie są bardzo wrażliwi na głos” — powiedział David Ciccarelli, dyrektor generalny Voices, największego rynku lektorów. Podczas gdy twoje oko może rozpoznawać ruch z szybkością 24 klatek na sekundę, ucho może to robić z dokładnością do 20 000 razy na sekundę. Dodał: „Ponieważ większość ludzi słucha audiobooków w słuchawkach, daje to większe poczucie intymności”.

Ważną kwestią jest również jakość narracji, która w dużej mierze zależy od poczucia połączenia słuchacza z dźwiękiem. „Prawie 60% słuchaczy zrezygnowało z audiobooka, ponieważ nie podobał im się narrator… Ludzie lubią słuchać innych, zwłaszcza gdy opowiadane są historie” – powiedział Chiccarelli.

Nie jest łatwo uzyskać głos AI nie tylko ludzki, ale także komunikować się ze słuchaczami. Głosy są przecież reprezentacją, a sztuka jest trudna do powielenia. „Najlepszą rzeczą, jaką ludzie mogą zrobić, czego nie potrafi sztuczna inteligencja, jest wyczucie czasu”, powiedział Ciccarelli, „niezależnie od tego, czy jest to niezręczna pauza, czy absurdalne poczucie komediowego wyczucia czasu, głos AI ma trudności z poprawnym wykonaniem”.

Tempo może być również problemem dla sztucznej inteligencji, ponieważ tempo narracji będzie się różnić w zależności od tego, co dzieje się w treści czytanego tekstu. Oczywiście niektóre części fabuły lub argumentu czytamy z inną szybkością niż inne, ale dzieje się tak dlatego, że rozumiemy, co czytamy. Sztuczna inteligencja nie. „Profesjonalni gawędziarze wiedzą, kiedy przyspieszyć, a kiedy wrócić do normalnego tempa czytania” – powiedział Chicarel. Wiedzą też, jak wymawiać słowa i nie mają problemu z symetrią.

Głos AI ulegnie poprawie, a co za tym idzie zmniejszy się odporność słuchacza na niego. W przypadku nowych, zmieniających zasady gry technologii pytanie nie brzmi nawet czy, ale kiedy. Ciccarelli o tym wie.

„Branża zdała sobie sprawę, że zmiana jest w powietrzu i że sztuczna inteligencja, teraz, gdy już jest, poprawi się” – powiedział. Dodał: „Z zabawnego stało się przyjemne, a teraz cały czas jest coraz lepiej”. Można oczekiwać reprodukcji głosu przez profesjonalnych lektorów, podkreślając znaczenie etycznego podążania tą drogą i ochrony praw aktorów głosowych do „kredytu, zgody i odszkodowania”.

Nawet z głosem AI gdzieś w tym procesie jest aktor głosowy. Według Bretta Kinselli, założyciela i dyrektora generalnego Voicebot.ai, systemy zamiany mowy na mowę stały się popularne w mediach, ponieważ umożliwiają wyrażanie treści emocjonalnych o wysokiej wierności za pomocą syntetycznych głosów. Ale te nadal wymagają aktora głosowego, którego głos jest następnie przekształcany w inny.

Co mówią aktorzy głosowi

W przypadku niektórych aktorów głosowych wybrano odwrócenie się. „Odmawiam nagrania głosowego, które mówi, że wezmą mój głos i wymodelują go dla sztucznej inteligencji” – powiedział Brad Ziffer, aktor głosowy z 14-letnim doświadczeniem. „Najlepszym sposobem ochrony” – powiedział – „jest trzymanie się z daleka”.

W ciągu ostatnich dwóch dekad narratorzy przeszli od czytania kopii drukowanych książek i redagowania stron do przekształcania dźwięków w czytanie na tablecie. Od nagrywania wyłącznie w studiach po nagrywanie wielu tytułów w domu. Edytorzy audio przestawili się z ostrej jak brzytwa taśmy łączącej na edycję plików cyfrowych poprzez cofanie i nagrywanie z błędami. Wydawcy przeszli od oferowania treści na kasetach na CD do dostarczania cyfrowego. „Z każdą zmianą przychodzi strach i niepewność, ale podczas każdej zmiany nauczyliśmy się, rozwijaliśmy, dostosowywaliśmy i prosperowaliśmy” – powiedziała Michelle Cobb, dyrektor wykonawczy Audio Publishers Association.

Cobb mówi, że rozwój branży audio poszerza zakres możliwości, a nowa technologia jest tego częścią. Powiedział, że w miarę jak liczba słuchaczy rośnie, a treści audio stają się coraz bardziej popularne, wydawcy publikują oryginalne i pierwsze utwory, które pozwalają im rozszerzyć swoje kreatywne podejście i zachęcić więcej konsumentów do wypróbowania dźwięku. Powiedział: „Technologia sztucznej inteligencji może pomóc w przepływie pracy. Sztuczna inteligencja nie jest nowym narzędziem dla talentów wokalnych, producentów i wydawców, ponieważ wielu z nich używa jej do poprawy kontroli jakości w postprodukcji”.

Od zeszłego tygodnia to podejście do produkcji wokalnej obejmuje teraz The Beatles.

Rozwój ten nieuchronnie będzie obejmował zagrożenia stwarzane przez sztuczną inteligencję. „Bez względu na zawód, strach, że maszyna zastąpi czyjeś źródło utrzymania, jest bardzo realny” – powiedział Cobb. Dodał: „Ale wiem, że nie jestem sam w docenianiu głębokich, bogatych występów i inteligencji emocjonalnej mojego ulubionego narratora, który gra ze słowami w potężnej ustnej tradycji opowiadania historii przez ludzi”.

Gdzie spotykają się ChatGPT i Alexa, Siri

Największa zmiana, jaka się teraz dzieje, polega na skupieniu się na tekście i obrazie, a nie na dźwięku, z chatbotami AI prowadzonymi przez ChatGPT OpenAI, które przechwytują więcej tekstu, w tym narracji i grafiki AI produkującej obrazy. Kinsella zauważył, że głos sztucznej inteligencji odegrał wcześniej kluczową rolę w integracji sztucznej inteligencji z codziennym życiem. „Głos był właściwie wcześniejszą falą sztucznej inteligencji… Siri, Alexa i Asystent Google używają sztucznych głosów” – powiedział. Wejścia i wyjścia w tych urządzeniach ewoluowały w kierunku zamiany głosu na mowę, a ostatecznie tekstowe modele sztucznej inteligencji mogą podążać za podobnym schematem rozwoju. „ChatGPT przywraca podejście oparte na tekście. Niektóre przypadki użycia pozostaną tekstowe, podczas gdy inne naturalnie najpierw przełączą się na wprowadzanie głosowe, a następnie głos (sztuczny głos) z czasem” — powiedział Kinsella. „Aplikacja mobilna ChatGPT obsługuje dziś wprowadzanie głosowe, ale nie ma funkcji zamiany tekstu na mowę, aby można było słuchać odpowiedzi. To z pewnością pojawi się w niektórych przypadkach użycia”.

Jeśli chodzi o publikowanie, audiobooki stanowią rosnącą, ale wciąż stosunkowo niewielką część ogólnego tortu wydawniczego, a dodatkowe wymagania dotyczące czasu i kosztów będą nadal wpływać na proces decyzyjny.

„Niektórzy wydawcy wolą nie płacić dodatkowych kosztów, a niektórzy autorzy niechętnie ponoszą te koszty” – powiedział Kinsella. „Jeśli kompozytor nagra to własnym głosem, nadal wiążą się z tym pewne koszty studia i montażu, a ukończenie może zająć kilka dni”.

Sztuczna inteligencja może nieco ułatwić przekraczanie tych barier.

Firma Apple opracowała oprogramowanie, które zmniejsza lub eliminuje tarcia w produkcji audiobooków w ramach swoich wysiłków na rzecz dostarczania czytelnikom większej liczby audiobooków. Autorzy mogą tworzyć własne audiobooki bez żadnych początkowych kosztów bezpośrednich i bez zaangażowania czasu. Firmy obsługujące autorów Apple pobierają opłatę za każdy sprzedany audiobook.

Amazon – który jest właścicielem Audible, jednego z dominujących graczy w branży – ma podobną usługę nagrywania audiobooków, ale używa profesjonalnych aktorów głosowych zamiast mowy syntetycznej. „Rozsądne byłoby dodanie transkrypcji głosu lub ich wielu syntetycznych głosów do tego rodzaju usług, ale nie jestem świadomy żadnej aktywności na tym froncie” – powiedział Kinsella.

Apple odmówił komentarza. Amazon nie odpowiedział na prośby o informacje na temat oferty audiobooków.

Formaty tekstowe są częściej używane przez sztuczną inteligencję

Zephyr jest oczywiście zaniepokojony rolą, jaką sztuczna inteligencja będzie odgrywać w jego zawodzie. „Jestem bardzo ostrożny, jeśli chodzi o świat sztucznej inteligencji. Myślę, że ma on ogromny potencjał… ale łatwo go niewłaściwie wykorzystać. W tej chwili nadal uważam, że prawdziwy ludzki głos nie ma sobie równych. Syntetyczne algorytmy głosowe po prostu nie istnieją jeszcze.” być w stanie odtworzyć wszystkie niuanse ludzkiego głosu.

Z głosem sztucznej inteligencji potrzebnym do przezwyciężenia naturalnej modulacji głosu, rozumienia/interpretacji czytanego materiału oraz bycia w stanie wywołać emocje i zmieniać uczucia, zgodnie z wymaganiami materiału. Ponieważ firmy zaczynają eksperymentować ze sztuczną inteligencją, Zeffer powiedział, że nie byłby zaskoczony, gdyby w jakiś sposób wpłynęło to na jego dochody. Dodał jednak: „Nie spotkałem jeszcze klienta, który powiedziałby mi, że wybrał sztuczną inteligencję zamiast zatrudniania mnie.

Ziffer spodziewa się, że sztuczna inteligencja znajdzie szerokie zastosowanie wśród firm o mniejszych budżetach lub skupionych na skryptach e-learningowych. „Ale dla tych, którzy chcą tego, co najlepsze, pracę najlepiej pozostawić ludziom” – powiedział. „Żywi, oddychający aktorzy, którzy mają prawdziwe uczucia, rozum i emocje i potrafią ożywić dzieło, najlepiej nadają się do dynamicznego i wiarygodnego głosu. Odtworzenie czegokolwiek za pomocą technologii może być łatwe, ale nic nie przebije prawdziwej oferty”.

Andrea Collins, aktorka głosowa z piętnastoletnim doświadczeniem, również uważa, że sztuczna inteligencja zapewnia niektórym firmom niezbędne kompromisy. „Myślę, że stanie się świetnym narzędziem dla klientów, którzy szukają projektu, który można zrealizować szybko i tanio” – powiedziała. Scenariusze, w których firmy oddają głos w kwestii szybkości, obejmują prezentacje i materiały dotyczące zgodności. Szybkość jest również bezwzględnym czynnikiem w produkcji audiobooków.

„Jeśli chodzi o audiobooki, jestem pewien, że zajmą sporo miejsca, ponieważ głos AI może przetworzyć 30 000 słów znacznie szybciej niż człowiek” – powiedział Collins.

Nie widziała jeszcze wpływu sztucznej inteligencji na swoje finanse, ale dodała: „Myślę, że ten dzień nadejdzie. Więc zamiast chować głowę w piasek, staram się to wyprzedzić”.

Collins podejmuje kroki w celu odtworzenia jej głosu w tym roku. „Większość znanych artystów, których znam, robi to samo. Mam nadzieję, że mój odtworzony głos stanie się kolejnym narzędziem w mojej pracy, w którym będę mógł biernie pracować nad projektami, podczas gdy ja będę mógł pracować nad artystami, którzy potrzebują ludzkiego głosu przy większym budżecie. ”

Weteran, aktor głosowy, John Cobain, mówi, że koledzy z jego zawodu muszą mądrze zarządzać nową rzeczywistością sztucznej inteligencji. „Kilka lat temu powiedziałem, kiedy technologia dopiero się rozwijała, że zabije połowę biznesu dla przedstawicieli głosowych… I chociaż nadal uważam, że to prawda, może minąć jeszcze kilka lat”.

Skupia się na nowym segmencie rynku dla długofalowych projektów, w których sklonowane przez sztuczną inteligencję głosy i ludzie mogą spotkać się w środku. „Ponad 100 000 słów scenariusza dla wielu z tych dużych projektów, których nigdy nie dotknąłbym 10-metrowym słupem. Ale dzięki sztucznej inteligencji z radością udzielę licencji na mój głos odtworzony przez sztuczną inteligencję i zbiorę darmowe fundusze” – powiedział Cobain.

Wie, że wielu jego rówieśników może nadal nie zgadzać się co do pójścia do łóżka z maszynami. „Być może jestem jednym z nielicznych twórców/aktorów VO, którzy uważają, że to najlepsza rzecz od czasów krojonego chleba” – powiedział Cobain. Ale z biznesowego punktu widzenia trudno będzie stawić czoła zmianom na skalę AI. Żartowałem przez chwilę: „Gdybym mógł po prostu zarabiać na lektorach… bez konieczności podkładania głosu, byłoby wspaniale! „Dobrze, zaczynamy”.

Ayhan

. „Nieuleczalny entuzjasta muzyki. Bacon geek. Badacz internetu. Hipsterski miłośnik telewizji”.

StrefaMMO.pl

Reprodukcje głosu AI w audiobookach pochodzą od Amazon, Apple i Google

Jak ludzie słyszą książki?

Co mówią aktorzy głosowi

Gdzie spotykają się ChatGPT i Alexa, Siri

Formaty tekstowe są częściej używane przez sztuczną inteligencję

Dodaj komentarz Anuluj pisanie odpowiedzi

JP Morgan spodziewa się w tym roku obniżyć stopę bazową o 100 punktów bazowych

Akcje Nvidii spadają po tym, jak inwestorzy obawiają się spowolnienia wzrostu NVIDIA

Cate Blanchett twierdzi, że we współczesnym społeczeństwie panuje „wyraźny brak wstydu” | Cate Blanchett

Kiedy astronauci wystartują?