-
Thomas Edison
Inventa la primera máquina de dictado . -
Bell Laboratories
Creó un sistema para reconocer la pronunciación de dígitos aislados de un solo hablante, utilizando frecuencias de formato (frecuencias que se correlacionan con el habla humana para ciertos sonidos) del espectro de potencia del habla. -
University College de Inglaterra
Pudieron analizar los fonemas para el reconocimiento de vocales y consonantes. -
IBM ShoeBox
Fue capaz de reconocer no solo dígitos sino también palabras como "suma" y "total" y utilizarlas en los cálculos aritméticos para obtener resultados. -
IBM
Creó un sistema de reconocimiento llamado Tangora para proporcionar una "máquina de escribir activada por voz". Este esfuerzo introdujo un enfoque en vocabularios extensos y la secuencia de palabras para gramáticas, lo que llevó a la introducción de modelos de lenguaje para el habla. -
Harpy
"Harpy", es un reconocedor de voz de la Universidad Carnegie Mellon, era capaz de reconocer el habla con un vocabulario de 1011 palabras. -
HMM y ASR
En la década de 1980, el enfoque fundamental de ASR cambió a una base estadística, específicamente métodos HMM para modelar tradiciones entre estados. A mediados de la década de 1980, HMM se había convertido en la técnica dominante para ASR (y sigue siendo una de las más prominentes en la actualidad). -
HTK de Cambridge
Se crearon muchos kits de herramientas para admitir ASR a finales de los años 80 y 90, como HTK de Cambridge, un kit de herramientas modelo de Markov oculto. -
Google
Lanza una aplicación de voz, reconocimiento de voz traer a los dispositivos móviles -
DNN para reconocimiento de teléfonos
Las redes se aplicaron al reconocimiento de teléfonos, logrando un rendimiento de vanguardia en el corpus TIMIT. -
Modelo híbrido DNN / HMM
En una DNN híbrida y se introdujo el modelo de Markov oculto context-dependent (CD) que amplió los avances de la DNN y logró mejoras sustanciales para el reconocimiento de voz de vocabulario extenso. -
End-to-end para ASR
La investigación de end-to-end ha seguido desarrollándose en los últimos años. centrarse en mejorar algunas de las dificultades que surgen de los modelos de End-to-end; sin embargo, las arquitecturas híbridas tienden a seguir siendo más populares en la producción, debido a la utilidad de los modelos de léxico en la decodificación.