Foto1

Historia de la RAH

By HGerman
  • Bell Laboratories creó un sistema para reconocer la pronunciación de dígitos aislados de un solo hablante

    Bell Laboratories creó un sistema para reconocer la pronunciación de dígitos aislados de un solo hablante
    Utilizando frecuencias formantes (frecuencias que se correlacionan con el habla humana para ciertos sonidos) del espectro de potencia del habla. Muchas universidades de investigación construyeron sistemas para reconocer sílabas y vocales específicas para un solo hablante.
  • Shoebox de IBM

    Shoebox de IBM
    Fue capaz de reconocer no sólo dígitos, sino también palabras como "suma" y "total" y utilizarlos en los cálculos aritméticos para obtener resultados. Los investigadores del University College de Inglaterra pudieron analizar los fonemas para el reconocimiento de vocales y consonantes
  • Harpy

    Harpy
    Un reconocedor de voz de la Universidad Carnegie Mellon, era capaz de reconocer el habla con un vocabulario de 1011 palabras. Uno de los principales logros de este trabajo fue la introducción de la búsqueda gráfica para "decodificar" representaciones léxicas de palabras con un conjunto de reglas y una red de estados finitos
  • El enfoque fundamental de ASR cambió a una base estadística

    El enfoque fundamental de ASR cambió a una base estadística
    HMMS se había convertido en la técnica dominante para ASR (y sigue siendo una de las más destacadas en la actualidad)
  • IBM creó un sistema de reconocimiento llamado Tangora

    IBM creó un sistema de reconocimiento llamado Tangora
    Para proporcionar una "máquina de escribir activada por voz". Este esfuerzo introdujo un enfoque en vocabularios grandes y la secuencia de palabras para gramáticas, lo que llevó a la introducción de modelos de lenguaje para el habla.
  • Software Dragon

    tenía un diccionario de 80.000 palabras y la capacidad de adaptar el software a la voz del usuario. Se crearon muchos conjuntos de herramientas para admitir ASR a finales de los años ochenta y noventa, como HTK de Cambridge, un conjunto de herramientas oculto del modelo de Markov.
  • La red neuronal de retardo de tiempo (TDNN)

    Fue una de las primeras aplicaciones del aprendizaje profundo al reconocimiento de voz. Utilizó capas convolucionales 2D apiladas para realizar la clasificación del teléfono. Los beneficios de este enfoque fueron que no variaba el cambio (no requería una segmentación); sin embargo, el ancho de la red limita la ventana de contexto
  • DNN para reconocimiento del teléfono

    Se aplicaron redes de creencias profundas al reconocimiento de teléfonos, logrando un rendimiento de vanguardia en el corpus TIMIT. Estas redes aprenden características no supervisadas para una mejor robustez acústica.
  • DNN y HMM

    Se introdujo un modelo de Markov oculto de DNN híbrido y dependiente del contexto (CD) que amplió los avances de DNN y logró mejoras sustanciales para el reconocimiento de voz de vocabulario extenso.
  • La investigación de un extremo a otro

    Entrándose en mejorar algunas de las dificultades que surgen de los modelos de extremo a extremo; sin embargo, las arquitecturas híbridas tienden a seguir siendo más populares en la producción, debido a la utilidad de los modelos léxicos en la decodificación.