W dzisiejszych czasach rozpoznawanie mowy jest niesamowicie ważnym aspektem nie tylko dla firm, ale także dla osób prywatnych. Ludzie, dzięki tej funkcjonalności mogą kontrolować swoje urządzenia za pomocą komend głosowych, bez użycia dłoni. No wyobraźcie sobie choćby zimę, -20 stopni na dworze, a wy w rękawiczkach chcecie zadzwonić po taksówkę. Najgorszy koszmar nie jest tak straszny.

Oczywiście, mamy na rynku wiele tego typu rozwiązań mniej, lub bardziej zaawansowanych, ale ich jakość pozostawia wiele do życzenia. Ludzie natomiast chcieliby zapewne użyć rozpoznawania mowy do tworzenia dokumentów, a to przy mało idealnym asystencie jest niemożliwe.  Microsoft twierdzi, że ich system sztucznej inteligencji jest w stanie rozpoznać głos z taką samą dokładnością jak ludzie.

Zrobimy sobie może zatem krótki wykład matematyczno-fizyczny. Dokładność rozpoznawania mowy można mierzyć za pomocą współczynnika WER (World Error Rate).

Jest to niesamowicie wymagający test. Do tego wykonania potrzeba porównania aż 300 godzin rozmów. WER oblicza się za pomocą następującego wzoru:

wer

gdzie:

S oznacza liczbę podstawień
D jest liczbą delecji,
I oznacza liczbę insercji
C jest liczba koryguje,
N jest liczbą słów w odniesieniu (n = S + D + C).

[vlikebox]

Jak się okazuje system rozpoznawania mowy od Microsoft ma całkiem ciekawe wyniki.

Osiągnęli oni próg 5,9% WER. Najlepszym aspektem jest to, że wyniki ten nie jest non stop stały. Był on o 0,4% niższy jeszcze przed miesiącem, także nasz gigant z Redmond dokłada wszelkich starań, aby jego narzędzie było coraz lepsze. To cieszy! Microsoft wykorzystuje w swoim rozwiązaniu sieci neuronowe, czyli tak naprawdę samo uczący się mechanizm. Jest on w stanie w szybkim czasie przyswoić kilkanaście słów następujących po sobie. Geoffrey Zweig — szef grupy badawczej do rozpoznawania mowy Microsoft jest strasznie dumny z takiego osiągnięcia. Podobno programiści pracowali nad tym od dwudziestu lat i w końcu wysiłek się mocno opłacił. A jeszcze pięć lat temu nikt nie byłby w stanie nawet pomyśleć o takim przełomie.

Przemek jest mózgiem operacyjnym SpeedTest.pl. Studiował na Politechnice Wrocławskiej elektronikę i telekomunikację. Zarządza projektami IT, relacjami z klientami oraz nadzoruje procesy rozwoju. Prywatnie zaangażowany w rodzinę, wsparcie różnych działalności charytatywnych i projekty ekstremalne.