Así es iFlyTek, el sistema que permitió hablar chino a Donald Trump

iFlyTek es una startup que ya ha superado a todas sus competidoras en el campo de reconocimiento y síntesis de voz.

Reconocimiento de voz
iStock

El presidente Donald Trump no sabe hablar chino, ni siquiera llegó a decir que la inteligencia artificial está cambiando el mundo y que iFlyTek es genial. Sin embargo, en el marco de una conferencia de tecnología celebrada en 2017, Trump apareció en una pantalla grande, dio la bienvenida a los asistentes en inglés, y finalmente habló fluidamente en chino mandarín.

Este pequeño “milagro” fue fruto del trabajo de la compañía china iFlyTek, que había concebido un modelo digital de la voz de Trump tan perfecto que imitaba no solo su tono y su entonación, sino también su patrón de habla. Y todo ello gracias la extraordinaria capacitación de sus algoritmos.

 

 

Si bien el discurso de Trump no estaba totalmente sincronizado con el movimiento de sus labios, el hecho de que los asistentes al congreso pudieran escuchar al presidente estadounidense dirigiéndose a ellos en perfecto mandarín eclipsó el pequeño detalle. Sin duda, era un hito tecnológico: permitir que cualquiera dijera cualquier cosa en cualquier idioma conservando su voz y su forma de hablar.

No en vano, esta compañía china ha recibido ya distinciones en diversos concursos internacionales de inteligencia artificial donde se ponían a prueba las bondades del reconocimiento y la síntesis de voz, el reconocimiento de imágenes y la traducción automática. 

 

Otros discursos presidenciales

No es el único ejemplo en el que iFlyTek demostró sus competencias. También el ex presidente Barack Obama ha hablado chino gracias a la misma técnica. Lo que dijo aproximadamente fue: “He aprendido chino con la ayuda de iFlytek. Creo que mi chino es mejor que el de Trump. ¿Qué opináis vosotros?”

La opinión debería ser favorable, porque iFlyTek ha superado en diversas ocasiones en el campo del procesamiento del lenguaje natural (la capacidad de descifrar el significado general en lugar de solo unas palabras) a gigantes como Google, Facebook o IBM. Esto es posible porque debe lidiar con un idioma particularmente complejo en el ámbito del reconocimiento y la síntesis de habla: el chino es un idioma tonal, es decir, que una misma palabra puede significar cosas diferentes en función del tono con la que se pronuncia.

Esto exige que iFlyTek necesite captar más información y separarla en dos flujos distintos para mejorar la fiabilidad, lo que, indirectamente, favorece el desarrollo de sistemas de reconocimiento del habla en condiciones de ruido y otras distorsiones.

La empresa fue fundada por Liu Qingfeng y otros cinco estudiantes de la Universidad de Ciencia y Tecnología de China en 1999. Desde entonces, iFlyTek se ha convertido en la compañía de tecnología de voz más valiosa del mundo. En 2018, la compañía firmó un acuerdo de colaboración de cinco años con el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT. El año pasado, lanzó sistemas que permiten a las personas controlar sus automóviles, televisores y electrodomésticos a través de la voz; y también ha establecido una empresa conjunta para desarrollar productos educativos que incorporen sus características de traducción simultánea.

Por el momento, iFlyTek posee el 80 por ciento de la cuota de mercado de la tecnología de reconocimiento del habla en la República Popular de China. A este ritmo, poco tardarán en conseguir que todos  digamos “ni hao”.

Continúa leyendo