P:
Jaka jest różnica między mową a tekstem i chatbotami?
ZA:Liczne znaczące różnice między technologiami przetwarzania tekstu na mowę i chatbotami są częścią tego, co analizuje się w szybkiej ewolucji projektów chatbotów i chatbotów.
Technologia konwersji tekstu na mowę to po prostu konwersja mowy ustnej na tekst na stronie cyfrowej. To jest jego pełna funkcja, ale nie jest to tak łatwe do zaprojektowania. Aby przekonwertować mowę werbalną na tekst, technologia musi rozbić słowa i zdania na poszczególne fonemy i pracować z nimi zgodnie ze złożonymi algorytmami, aby stworzyć tekst, który jest dokładny i reprezentuje to, co powiedział mówca.
Z drugiej strony Chatboty to technologie, które realizują cel komunikacji z człowiekiem. Istnieją dwa rodzaje chatbotów: chatboty tekstowe i chatboty. Chatboty tekstowe istnieją już znacznie dłużej, ponieważ nie potrzebują elementu mowy na tekst, z którego korzystają.
Główną różnicą między technologiami syntezatora mowy a chatbotami jest zakres. Jak wspomniano, cała technologia zamiany mowy na tekst musi polegać na transkrypcji mowy werbalnej. Z drugiej strony chatbot musi przemawiać w jakiejkolwiek formie, dla której jest przeznaczony, rozumieć go i udzielać odpowiedzi, które chcą przejść test Turinga - test na to, czy technologia może oszukać człowieka, że jest on lub ona rozmawiać z inną osobą.
Mając to na uwadze, chatboty są znacznie łatwiejsze do utworzenia niż roboty głosowe. Chatbot pobiera tekst człowieka i zapewnia odpowiedź tekstową. Nawet stosunkowo proste chatboty były w stanie zapewnić interesujące i przyjemne wyniki dla ludzi od przełomu lat 80. i 90.
Z drugiej strony robot głosowy musi przyjmować mowę werbalną, konwertować ją na tekst, sprawdzać dokładność, uzyskiwać odpowiedź i budować odpowiedź z języka maszynowego na mowę słyszalną. Ta duża liczba dość znaczących zadań oznacza, że robot głosowy wymaga dużej mocy obliczeniowej i dużego projektu.
Projekty takie jak Siri, Cortana i Alexa są częścią awangardy technologii VoiceBot. Pokazują również, że ta technologia jest jeszcze w powijakach. Chociaż Alexa i inne technologie mogą ustnie reagować na ludzką mowę, nie są one wyjątkowo zdolne w tym sensie, że ogólnie kojarzą się z ludzką mową słowną. Innymi słowy, odpowiedzi, które mogą zapewnić te technologie, są dość ograniczone. Dzisiejsza generacja osobistych asystentów ma nawet ograniczoną zdolność do generowania mowy na tekst, na przykład w celu przepisania wiadomości e-mail lub pomocy komuś w napisaniu eseju bez użycia rąk. Niektóre z dostępnych na rynku programów zamiany tekstu na mowę robią to lepiej niż Siri czy Cortana, prawdopodobnie ze względu na alokację zasobów. Istnieją jednak oznaki, że wkrótce rozpocznie się postęp VoiceBota - na przykład platforma Lex firmy Amazon, która pozwala środowisku studyjnemu na budowanie tego rodzaju technologii.
W sprytnym i pouczającym eseju na ten temat Tobias Goebel mówi o różnicy między tymi technologiami, przeciwstawiając proces „transkrybowania”, który ma zamiana tekstu na mowę, na zadanie zrozumienia, jakie mają robić chatboty.
„Chociaż wyeliminowanie potrzeby rozpoznawania mowy ułatwia chatbotowi, głównym wyzwaniem do zbudowania funkcjonujących botów jest zrozumienie języka naturalnego”, pisze Goebel.
Goebel identyfikuje również wielu obecnych graczy w branży:
Liderem na rynku rozpoznawania mowy jest Nuance, który stoi za dobrze znanymi systemami, takimi jak Dragon NaturallySpeaking do dyktowania na PC, który istnieje już od lat dziewięćdziesiątych, ale także Siri: zadanie rozpoznawania / transkrypcji mowy realizowane w chmurze Apple Technologia Nuance za kulisami. Inne to LumenVox, Verbio lub Interakcje, ale rozpoznawanie mowy jest teraz oferowane również jako usługa w chmurze za pośrednictwem interfejsów API takich firm jak Amazon, Google, Microsoft i IBM.
W miarę rozwoju chatbotów zakłada się, że ich zrozumienie będzie nadal rosło na niektórych trajektoriach - i w dużej mierze zakłada się, że więcej technologii botów przejdzie z interfejsów tekstowych na interfejsy słowne, co wymaga dodatkowej mocy obliczeniowej.

