Dom Oprogramowanie Technologia rozpoznawania głosu: pomocna czy bolesna?

Technologia rozpoznawania głosu: pomocna czy bolesna?

Spisu treści:

Anonim

Czy kiedykolwiek zadzwoniłeś do firmy, aby uzyskać pomoc lub zapłacić rachunek, ale przywitał cię przyjemny nagrany głos, który chce z tobą porozmawiać - ale nie rozumiesz połowy tego, co mówisz? A może posiadasz iPhone'a i chociaż Siri po raz pierwszy wydawała się dobrym sprzymierzeńcem, zdałeś sobie sprawę, że czasami (OK, bądźmy szczerzy, często) ona po prostu tego nie rozumie? Technologia rozpoznawania głosu (VRT), znana również jako syntezator mowy, wpada w wspólną pułapkę: może być niesamowicie fajna (i chłopcze, szukamy jej), ale częściej jest to zgrzytanie zębami ćwiczyć w frustracji.


Kiedyś pomysł, który należał do dziedziny science fiction, rozpoznawanie głosu rozwinęło się od wczesnych lat pięćdziesiątych, kiedy system Bell Laboratories Audrey został zaprojektowany do rozpoznawania cyfr wypowiadanych jednym głosem, do nowoczesnej sieci elektroniki konwersacyjnej, z którą teraz współpracujemy na co dzień - z mieszanymi wynikami.

Aby porozmawiać z człowiekiem, naciśnij 0

Wiele dzisiejszych firm korzysta obecnie z systemów zwanych interaktywną reakcją głosową (IVR) do obsługi połączeń z obsługą klienta. Najczęstszym zastosowaniem są menu sterowane głosowo, ale niektóre firmy używają systemów IVR, które mają dostęp do informacji o koncie klienta i odpowiadają na drobne pytania. Oprogramowanie Menu IVR zwykle ma ograniczone słownictwo, które może być ograniczone do „tak”, „nie” i cyfr. Bardziej skomplikowane systemy mogą rozpoznawać słowa i frazy specyficzne dla firmy.


Systemy te stają się coraz bardziej popularne - przynajmniej dla firm - z prostego powodu: są opłacalne. Według raportu Wall Street Journal z 2010 r. Typowe połączenie z klientem, które dociera do agenta, kosztuje od 3 do 9 USD, podczas gdy połączenie obsługiwane przez automatyczny system kosztuje tylko od pięciu do siedmiu centów. I oczywiście programy komputerowe nie męczą się, nie wywołują choroby ani nie denerwują klientów (chociaż klienci na pewno denerwują się nimi!).


Na szczęście nie zawsze oznacza to, że IVR odbiera pracę ludziom - a przynajmniej, że wszyscy ludzie znikają z call center. Te aktywowane głosem pomocniki pozwalają przedstawicielom działu obsługi klienta na produktywność, kierując połączenia i odpowiadając na proste pytania.


Oczywiście dla użytkowników korzystających z tych technologii żeglowanie nie zawsze jest płynne. Technologia pomaga w rozwiązywaniu typowych problemów w technologii IVR, takich jak problemy z akcentami, ale zwalnianie zautomatyzowanych systemów jest nadal częstym tematem w Internecie. Sprawdź ten komediowy skecz na temat windy wyposażonej w funkcję rozpoznawania głosu, która podkreśla frustrację, jaką mogą wywołać awarie w systemach IVR.

Aplikacje na telefon osobisty: Siri, Google Now

Większość ludzi zna rozpoznawanie głosu w smartfonach. Podczas gdy większość najnowszych modeli telefonów ma VR, ich popularność i popularność wzrosły, gdy Apple wprowadził Siri, lekko sarkastyczny, aktywowany głosem „osobisty asystent” iPhone'a 4S w 2011 roku. Google wkrótce stworzył bezpośredniego konkurenta: Google Teraz dla systemu operacyjnego Android Jelly Bean. Oba systemy mają głos żeński i zaawansowane funkcje rozpoznawania, które pozwalają użytkownikom „rozmawiać” z telefonami przy użyciu swobodnego języka.


Ale chociaż systemy te są znacznie bardziej wyrafinowane i funkcjonalne niż ich poprzednicy, pokazują również, że technologia ma jeszcze przed sobą długą drogę. Żarty o porażce Siri stały się popularnym memem internetowym. Jeden mężczyzna nawet pozwał Apple za fałszywe reklamy dotyczące możliwości Siri.


Być może dlatego Apple stworzyło Siri, aby było zaawansowane i zawierało wiele informacji, ale oprogramowanie VR jest także nieco bezczelne. Na przykład, jeśli mówisz o jednej z najbardziej niesławnych linii technologii wywiadowczej w historii kina z filmu z roku 1968 „2001: A Space Odyssey” - „otwórz drzwi zatoki pod” - Siri odpowie albo linią odpowiadającą z filmu, „ Przepraszam (twoje imię), obawiam się, że nie mogę tego zrobić ”lub bardziej sarkastycznie:„ my, agenci wywiadu, nigdy tego nie przetrwamy ”.


Wołanie do ciebie po imieniu to tylko jedna z funkcji, które sprawiają, że Siri jest łatwiejsza do kochania i trochę bardziej ludzka. Asystent VR może wykonywać polecenia głosowe, aby nawiązywać połączenia, dyktować i wysyłać SMS-y, wyszukiwać informacje w Internecie, znajdować sklepy w pobliżu, udzielać wskazówek dojazdu itp. Bez konieczności dotykania czegokolwiek. Odpowiedzi są jednocześnie wypowiadane przez telefon i wyświetlane na ekranie.


Google Now, część VR platformy Android Jelly Bean, jest bardzo podobna do Siri. System oferuje te same szerokie możliwości rozpoznawania, tłumacząc swobodną mowę na polecenia, które pozwalają użytkownikom nawiązywać połączenia, wysyłać SMS-y, wyszukiwać, wykonywać obliczenia i konwersje, pobierać definicje słów, ustawiać alarmy, odtwarzać utwory oraz uzyskiwać mapy i wskazówki.


Dzięki osobistym asystentom głosowym, takim jak Siri i Google Now, korzyści są oczywiste. Wszystko - od połączeń i SMS-ów po wyszukiwanie i rozrywkę - jest szybsze i łatwiejsze. Po prostu powiedz, co chcesz, i (przez większość czasu) aplikacja VR pobierze go za Ciebie. Technologia głośnomówiąca VR jest szczególnie pomocna podczas jazdy. I choć wiele osób potępiło wady Siri, a pisarze twierdzili, że zdolność Google Now do prowadzenia życia użytkowników jest strasznie obraźliwa, większość ludzi uważa, że ​​te futurystyczne technologie są całkiem fajne.


Oczywiście aplikacje na telefony osobiste, takie jak Siri i Google Now, są dalekie od ideału - chociaż pokazują, w jakim kierunku ta technologia może zmierzać w przyszłości. Oznacza to, że nawet gdy Siri pojawi się zła odpowiedź, prawdopodobnie będziemy się jej śmiać i wybaczać, wiedząc, że następna wersja będzie znacznie lepsza.

Gdzie VR upada

Jeśli kiedykolwiek spotkałeś się z IVR, kiedy dzwoniłeś do firmy, być może zauważyłeś pewne bariery w komunikacji. Niektóre programy używają robotycznego głosu syntezatora mowy, który źle wymawia słowa i utrudnia zrozumienie. Inni mają problemy z wrażliwością, które powodują, że oprogramowanie nie może przetworzyć tego, co mówisz, jeśli jesteś zbyt głośny, zbyt cichy lub nie wypowiadasz się ostrożnie.


Ponadto wiele osób nadal nie czuje się komfortowo rozmawiając z maszyną. Jeśli przeprowadzisz kilka wyszukiwań IVR, zobaczysz listy, które ludzie wspólnie opracowali sposoby na obejście systemów IVR i dotarcie do „prawdziwej osoby”. Rozwiązania te obejmują „ciągłe naciskanie 0 dla operatora” lub „przeklinanie maszyny, dopóki nie złapie ona człowieka”. W rezultacie znaczna część ostatnich prac nad systemami IVR obracała się wokół nich, czyniąc je bardziej smacznymi dla ludzi; sprawiając, że głosy będą bardziej współczujące i mniej zrobotyzowane, ułatwiając nawigację w systemie, i informując dzwoniących, jak długo zajmie to wszystko od początku do końca. To sugeruje, że lepsza technologia to tylko połowa sukcesu; druga połowa zachęca użytkowników do rozmowy z maszyną.

Co przyniesie przyszłość

Pomimo tych wyzwań technologia rozpoznawania głosu cały czas się rozwija. Aplikacje takie jak Siri i Google Now - wady i wszystkie - wciąż imponują wydajnością, a kilka firm rozszerza możliwości VR na inne aplikacje.


Na przykład Nuance, twórcy oprogramowania Dragon NaturallySpeaking do przetwarzania mowy na tekst, opracował już sterowanie głosowe dla telewizorów i samochodów, a wersje tej technologii są wbudowane w niektóre telewizory Samsung i systemy rozrywki SYNC stosowane w niektórych pojazdach Forda.


A ponieważ Google i Apple wciąż znajdują nowe zastosowania w swoich technologiach rozpoznawania głosu, prawdopodobne jest, że będziemy coraz częściej rozmawiać z wszelkiego rodzaju urządzeniami codziennego użytku, od naszych telewizorów po tostery. I znów wygląda na to, że science fiction miała rację. Musimy mieć tylko nadzieję, że ci sprytni pisarze mylili się co do jednej rzeczy. Jeśli te maszyny przejmą kontrolę, następnym razem możesz poprosić Siri o „otwarcie drzwi wnęki na kapsuły”.

Technologia rozpoznawania głosu: pomocna czy bolesna?