La historia de Reconocimiento Automático del Habla. (Daniela González)

1879

Thomas Edison

Inventa la primera máquina de dictado .
1952

Bell Laboratories

Creó un sistema para reconocer la pronunciación de dígitos aislados de un solo hablante, utilizando frecuencias de formato (frecuencias que se correlacionan con el habla humana para ciertos sonidos) del espectro de potencia del habla.
1960

University College de Inglaterra

Pudieron analizar los fonemas para el reconocimiento de vocales y consonantes.
1961

IBM ShoeBox

Fue capaz de reconocer no solo dígitos sino también palabras como "suma" y "total" y utilizarlas en los cálculos aritméticos para obtener resultados.
1970

IBM

Creó un sistema de reconocimiento llamado Tangora para proporcionar una "máquina de escribir activada por voz". Este esfuerzo introdujo un enfoque en vocabularios extensos y la secuencia de palabras para gramáticas, lo que llevó a la introducción de modelos de lenguaje para el habla.
1976

Harpy

"Harpy", es un reconocedor de voz de la Universidad Carnegie Mellon, era capaz de reconocer el habla con un vocabulario de 1011 palabras.
1980

HMM y ASR

En la década de 1980, el enfoque fundamental de ASR cambió a una base estadística, específicamente métodos HMM para modelar tradiciones entre estados. A mediados de la década de 1980, HMM se había convertido en la técnica dominante para ASR (y sigue siendo una de las más prominentes en la actualidad).
1990

HTK de Cambridge

Se crearon muchos kits de herramientas para admitir ASR a finales de los años 80 y 90, como HTK de Cambridge, un kit de herramientas modelo de Markov oculto.
2008

Google

Lanza una aplicación de voz, reconocimiento de voz traer a los dispositivos móviles
2009

DNN para reconocimiento de teléfonos

Las redes se aplicaron al reconocimiento de teléfonos, logrando un rendimiento de vanguardia en el corpus TIMIT.
2012

Modelo híbrido DNN / HMM

En una DNN híbrida y se introdujo el modelo de Markov oculto context-dependent (CD) que amplió los avances de la DNN y logró mejoras sustanciales para el reconocimiento de voz de vocabulario extenso.
2014

End-to-end para ASR

La investigación de end-to-end ha seguido desarrollándose en los últimos años. centrarse en mejorar algunas de las dificultades que surgen de los modelos de End-to-end; sin embargo, las arquitecturas híbridas tienden a seguir siendo más populares en la producción, debido a la utilidad de los modelos de léxico en la decodificación.