Dom Audio Słyszę martwych ludzi? technologia języka naturalnego ożywia dawne i obecne głosy

Słyszę martwych ludzi? technologia języka naturalnego ożywia dawne i obecne głosy

Spisu treści:

Anonim

Obecnie większość głosów komputerowych to passé. Prawdopodobnie nie czujesz się zbytnio zaskoczony cyborgami i robotami, gdy słyszysz „droida” w telefonie, który pomaga ci w opłaceniu rachunku lub pyta, jaki dział chcesz. Ale co jeśli nagle usłyszysz, że Kurt Cobain prosi cię o informacje na temat karty? A może John F. Kennedy mówi ci o cudach wczesnego głosowania? A może Elvis zapisuje twoje imię i adres przed włamaniem do „kawałka, kawałka płonącej miłości?”.


Wszystko to byłoby … trochę dziwne, ale jeszcze bardziej fascynujące jest to, że technologia już tu jest. Zaledwie dziesięć lat temu zadziwiła nas zdolność komputera do w ogóle mówienia. Teraz będziemy zaatakowani przez swobodnie dobiegające, generowane komputerowo głosy, które brzmią jak ludzie, których znamy.

Duże zmiany w NLP

Jeśli zwracasz uwagę na dziedzinę przetwarzania języka naturalnego (NLP), być może słyszałeś o ostatnich postępach, które wykraczają poza rodzaje głosów wirtualnego asystenta w puszkach, które teraz słyszymy w naszych globalnych systemach pozycjonowania (GPS) i zautomatyzowanym biznesie linie telefoniczne.


Początek NLP wymagał wielu badań w zakresie ogólnej mechaniki mowy ludzkiej. Badacze i inżynierowie musieli zidentyfikować poszczególne fonetyki, złożyć je w większe algorytmy do generowania fraz i zdań, a następnie spróbować zarządzać nimi na poziomie meta, aby wygenerować coś, co brzmiało naprawdę. Z czasem liderzy NLP opanowali to i zaczęli budować zaawansowane algorytmy, aby zrozumieć, co mówią ludzie. Łącząc te dwie firmy, firmy wymyśliły sterowniki dla dzisiejszych wirtualnych asystentów i w pełni cyfrowych urzędników płacących rachunki, których maniery - choć irytujące - są nadal niesamowite, gdy przestajesz myśleć o pracy, która się w nie zaangażowała.


Obecnie niektóre firmy wykraczają poza ogólny wirtualny głos, aby stworzyć bardziej spersonalizowany wynik. Wymaga to przejrzenia leksykonu konkretnej osoby i zebrania dużej ilości unikalnych nagrań głosowych, a następnie zastosowania tego archiwum do skomplikowanych rytmów w zakresie fonetyki, nacisku, kadencji i wszystkich innych drobnych wskazówek, które lingwiści często grupują pod szerokim hasłem „prozodii”.


Wydobywa się głos, który słuchacze uważają za „posiadany” przez konkretną osobę - albo kogoś, kogo znają i z kim rozmawiali, albo kogoś, kogo głos rozpoznaje w wyniku sławy tej osoby.


Od Elvisa po Martina Luthera Kinga, każdy głos można teraz „klonować” w ten sposób - pod warunkiem, że istnieje znaczna nagrana wcześniej rozmowa. Stosując jeszcze bardziej szczegółową analizę i manipulację w odniesieniu do pojedynczych małych dźwięków, firmy są w stanie wykonać wirtualną kopię czyjegoś głosu, który brzmi bardzo podobnie do rzeczywistości.

Ekscytujące kreacje „Text to Voice” w VivoText

Na przykład VivoText jest jedną z firm, która zrewolucjonizowała wykorzystanie sztucznych głosów ludzkich do wszelkiego rodzaju kampanii, od audiobooków po interaktywną reakcję głosową (IVR). W VivoText zespoły badawczo-produkcyjne pracują nad procesami, które teoretycznie mogłyby konkretnie powielić głosy zmarłych celebrytów, takich jak sam Ol 'Blue Eyes.


„Aby sklonować głos Franka Sinatry, rzeczywiście przejdziemy przez jego nagranie”, mówi Gershon Silbert, dyrektor generalny VivoText, mówiąc o tym, jak taka technologia mogłaby działać.


Obecnie VivoText pracuje nad archiwizacją głosów tych, którzy wciąż są z nami, takich jak korespondent NPR Neal Conan, który zgłosił się jako model tego rodzaju pionierskiego projektu informatycznego. Film promocyjny pokazuje, że pracownicy VivoText starannie tworzą moduły kodu fonetycznego, korzystając z dostarczonego głosu Conana. Następnie tworzą modele narzędzi do zamiany tekstu na mowę (TTS), które wywołują dramatycznie ludzki i spersonalizowany wynik.


Według Bena Feiblemana, wiceprezesa ds. Strategii i rozwoju biznesu w VivoText, komputer działa na poziomie fonemów (używając najmniejszych unikalnych części mowy), aby dostosować się do modelu prozodycznego dla indywidualnego głosu ludzkiego.


„Wie, jak mówi głos”, mówi Feibleman, dodając, że używając „wyboru jednostki”, komputer wybiera kilka elementów, aby połączyć pojedyncze krótkie słowo, tak jak tam, gdzie słowo „Piątek” ma pięć elementów, które pomagają rozwijać szczególny nacisk i wynik tonalny.

Sztuczny głos w marketingu

Jak to działa w marketingu? Produkty VivoText mogą być niezwykle przydatne w tworzeniu produktów, takich jak audiobooki, które mogłyby dotrzeć do docelowych odbiorców. Na przykład, o ile bardziej skuteczny byłby głos Elvisa w porównaniu do jednego z typowych, martwych, zautomatyzowanych głosów, gdyby był używany do sprzedaży produktów związanych z rozrywką?


A może w polityce? Feibleman pracuje nad różnymi pomysłami na wykorzystanie takich projektów, aby usprawnić marketing dla firm lub innych stron, które potrzebują bardziej efektywnego przesyłania wiadomości.


„Jeśli znasz jakichś polityków ubiegających się o prezydenta, może to doprowadzić do tego, że 10 milionów wyborców w stanie huśtawkowym otrzyma osobisty telefon od kandydata, dziękując im za wsparcie, mówiąc im, gdzie mają głosować, jaka jest pogoda, noc przed wyborami - powiedział Feibleman.

Twój głos żyje dalej

Istnieje jeszcze jedna oczywista aplikacja dla całej tej technologii. Firmy zajmujące się językami naturalnymi, takie jak VivoText, mogłyby stworzyć osobistą usługę, która przesyłałaby wszystkie dane głosowe klienta do produktu, który pozwoliłby tej osobie „mówić wiecznie”.


Praktyczne wdrożenie spowodowałoby prawdopodobnie szereg pytań na temat tego, w jaki sposób słyszymy i internalizujemy wypowiedzi mówione. Na przykład, co trzeba zrobić, aby strumień dźwiękowy brzmiał dokładnie tak, jak ktoś? Jak dobrze musimy znać osobę, aby rozpoznać konkretny głos? Co ciekawe, co się stanie, jeśli usługa języka naturalnego wytworzy prymitywną karykaturę, a nie przekonującą mimikę?


Ocena wyników, mówi Feibleman, często zależy od uwzględnienia kontekstu. Mówi na przykład, że dzieci zwykle nie zadają pytań o to, kto mówi, kiedy słuchają opowieści. Chcą tylko więcej. Ale także wielu dorosłych może nie myśleć o tym, kto z nimi rozmawia, biorąc pod uwagę konkretny scenariusz, taki jak pasywna transmisja lub wiadomość telefoniczna. Ponadto łatwiej jest dać się zwieść komputerowi przez telefon, ponieważ stłumiony dźwięk może maskować usterki lub inne rozbieżności między wynikami komputera a ludzkim głosem.


„Nie przychodzi ci do głowy zakwestionować autentyczność głosu” - mówi Feibleman.

W roku 2525

W miarę jak firmy rozwijają produkty i usługi oraz odpowiadają na te pytania, technologie „żywej mowy” mogą posunąć nas do konwergencji technologii i ludzkiego umysłu, który klasycznie nazywany jest sztuczną inteligencją (AI).


Jeśli komputery mogą mówić tak jak my, mogą nakłonić innych użytkowników do myślenia, że ​​myślą podobnie jak my, wprowadzając większą zasadę osobliwości, o czym mówi nasz leksykon Johna von Neumanna, pioniera techniki z lat 50. ewangelizowanego przez pisarzy i myśliciele tacy jak Ray Kurzweil. Książka Kurzweila z 2005 r. „The Singularity Is Near” podnieca niektórych, a innych przeraża. Kurzweil przewidział, że do 2045 r. „Inteligencja” jako zjawisko zostanie znacznie uwolniona z ludzkiego mózgu i przeniesie się do technologii, zacierając granice między maszynami a ich ludzkimi panami.


Uwieczniony w tekstach utworu Zager & Evans „In the Year 2525” (nikt nie robi przerażających ballad science fiction takich jak ci faceci)…


W roku 4545

Nie będziesz potrzebować zębów, nie będziesz potrzebować

Twoje oczy

Nie znajdziesz nic do przeżuwania

Nikt na ciebie nie spojrzy


W roku 5555

Twoje ramiona zwisają bezwładnie po bokach

Twoje nogi nie mają nic do roboty

Niektóre maszyny robią to za ciebie


Czy głosy komputerowe są krokiem w tym kierunku? Jako nowy sposób na outsourcing niektórych funkcji ludzkiego ciała (lub częściej, aby je symulować), ten rodzaj postępu technologicznego jest jednym z największych - i prawdopodobnie niedoszacowanych - postępów na horyzoncie, gdy patrzymy w szczególną przyszłość . (o „osobliwości” w Czy komputery będą w stanie naśladować ludzki umysł?)

Słyszę martwych ludzi? technologia języka naturalnego ożywia dawne i obecne głosy