Crean una máquina que transforma los pensamientos en habla

Este sintetizador de voz ayudará a que pacientes con daños neurológicos vuelvan a comunicarse con fluidez.

Las condiciones neurológicas o lesiones que conducen a la incapacidad para comunicarse pueden ser devastadoras. Los pacientes con tal pérdida del habla a menudo dependen de dispositivos de comunicación alternativos que utilizan interfaces cerebro-ordenador o movimientos no verbales de la cabeza o los ojos para controlar un cursor para deletrear palabras, como en el caso del físico Stephen Hawking. Si bien estos sistemas pueden mejorar la calidad de vida, solo pueden producir de 5 a 10 palabras por minuto, mucho más lento que el ritmo natural del habla humana.


Ahora, un equipo de investigadores de la Universidad de California en San Francisco han publicado en la revista
Nature los detalles de un decodificador neuronal que puede transformar la actividad cerebral en un discurso sintetizado inteligible a una velocidad coherente con el habla común.

"Ha sido un objetivo de nuestro laboratorio desde hace muchos años el
crear tecnología para restablecer la comunicación para los pacientes con discapacidades del habla severas", explica el neurocirujano Edward Chang, líder del trabajo. “Queremos crear tecnologías que puedan generar un discurso sintetizado directamente a partir de la actividad del cerebro humano. Este estudio proporciona una prueba de principio de que esto es posible ".

 

Los científicos desarrollaron un método para sintetizar el habla utilizando señales cerebrales relacionadas con los movimientos de la mandíbula, la laringe, los labios y la lengua de un paciente. Para lograr esto, registraron señales de electrocorticografía de alta densidad de cinco participantes sometidos a monitoreo intracraneal para el tratamiento de la epilepsia. Rastrearon la actividad de las áreas del cerebro que controlan el  habla y el movimiento articulador mientras los voluntarios pronunciaban varios cientos de oraciones.

Para reconstruir el habla, en lugar de transformar las señales cerebrales directamente en señales de audio, los investigadores utilizaron un enfoque de dos etapas. Primero, diseñaron una red neuronal recurrente que decodificaba las señales neuronales en movimientos del tracto vocal. Luego, estos movimientos se usaron para sintetizar el habla. "Demostramos que el uso de la actividad cerebral para controlar una versión simulada por ordenador del tracto vocal del participante
nos permitió generar un discurso sintético con un sonido más natural y preciso que intentar extraer directamente los sonidos del habla del cerebro", aclara Chang.


Un discurso claro y comprensible



Para evaluar la inteligibilidad del habla sintetizada, los investigadores realizaron tareas de escucha basadas en la identificación de una sola palabra y la transcripción a nivel de oración. En la primera tarea, que evaluó
325 palabras, encontraron que los oyentes identificaban mejor las palabras a medida que aumentaba la longitud de la sílaba y el número de opciones de palabras (10, 25 o 50) disminuía, en consonancia con la percepción natural del habla.

 

Para las pruebas a nivel de oraciones, los oyentes escucharon oraciones sintetizadas y transcribieron lo que escucharon al seleccionar palabras de un grupo definido (de 25 o 50 palabras), incluidas palabras objetivo y aleatorias. En las pruebas de 101 oraciones, al menos un oyente fue capaz de proporcionar una transcripción perfecta para 82 oraciones con un grupo de 25 palabras y 60 oraciones con un grupo de 50 palabras. Las oraciones transcritas tenían una tasa media de error del 31% con un tamaño de grupo de 25 palabras y del 53% con un grupo de 50 palabras.

"Este nivel de inteligibilidad para el habla sintetizada neurológicamente ya
sería inmediatamente significativo y práctico para la aplicación en el mundo real", escriben los autores.

 

Restableciendo la comunicación



Si bien las pruebas anteriores se realizaron en sujetos con habla normal,
el objetivo principal del equipo es crear un dispositivo para personas con discapacidades de comunicación. Para simular una configuración en la que el paciente no puede vocalizar, los expertos probaron su decodificador en un lenguaje que se imitó en silencio.

Para esto, se les pidió a los participantes que pronunciaran oraciones y luego las imitaran, haciendo los mismos movimientos articulatorios con la boca pero sin sonido. "Después, ejecutamos nuestro decodificador de voz para decodificar estas grabaciones neuronales, y pudimos generar voz", explica Josh Chartier, coautor del estudio. "Fue realmente sorprendente que aún así pudiéramos generar señales de audio de un acto que no creaba sonido en absoluto".

 

Entonces, ¿cómo puede una persona que no puede hablar estar capacitada para usar el dispositivo?

 

"Si alguien no puede hablar, entonces no tenemos un sintetizador de voz para esa persona", dice Gopala Anumanchipalli, primer autor del estudio. “Hemos utilizado un sintetizador de voz entrenado en un tema e impulsado por la actividad neuronal de otro sujeto. Hemos demostrado que esto puede ser posible ".

El equipo ahora tiene dos objetivos. "Primero, queremos mejorar la tecnología, hacerla más natural, más inteligible". El otro desafío es determinar si los mismos algoritmos utilizados para las personas con habla normal funcionarián en una población que no puede hablar, una pregunta que puede requerir un ensayo clínico para ser respondida. Igualmente
el hallazgo es un primer paso para que las personas que hayan perdido el habla debido a enfermedades degenerativas logren recuperarla.

 

También te puede interesar:

Referencia: Speech synthesis from neural decoding of spoken sentences. Gopala K. Anumanchipalli, Josh Chartier & Edward F. Chang. Nature volume 568, pages493–498 (2019) DOI: https://doi.org/10.1038/s41586-019-1119-1

 

Así se escucha el discurso sintético

Sarah Romero

Sarah Romero

Fagocito ciencia ficción en todas sus formas. Fan incondicional de Daneel Olivaw y, cuando puedo, terraformo el planeta rojo o cazo cylons. Hasta que viva en Marte puedes localizarme por aquí.

Continúa leyendo