En una primicia científica, los neuroingenieros de Columbia han creado un sistema que traduce el pensamiento en un lenguaje inteligible y reconocible. Al monitorear la actividad cerebral de alguien, la tecnología puede reconstruir las palabras que una persona escucha con una claridad sin precedentes. Este avance, que aprovecha el poder de los sintetizadores de voz y la inteligencia artificial, podría conducir a nuevas formas en que las computadoras se comunican directamente con el cerebro. También sienta las bases para ayudar a las personas que no pueden hablar, como las que viven con esclerosis lateral amiotrófica (ELA) o las que se están recuperando de un accidente cerebrovascular, a recuperar su capacidad de comunicarse con el mundo exterior.

“Nuestras voces nos ayudan a conectarnos con nuestros amigos, nuestra familia y el mundo que nos rodea, por lo que perder el poder de la voz debido a una lesión o enfermedad es tan devastador”, dijo Nima Mesgarani, PhD, autora principal del documento e investigadora principal del Instituto Mortimer B. Zuckerman Mind Brain Behavior de la Universidad de Columbia. “Con el estudio de hoy, tenemos una manera potencial de restaurar ese poder. Hemos demostrado que, con la tecnología adecuada, los pensamientos de estas personas pueden ser descifrados y entendidos por cualquier oyente”.

Décadas de investigación han demostrado que cuando la gente habla, o incluso se imagina hablando, aparecen patrones reveladores de actividad en su cerebro. Un patrón de señales distinto (pero reconocible) también emerge cuando escuchamos a alguien hablar, o cuando nos imaginamos escuchando. Los expertos, tratando de registrar y descifrar estos patrones, ven un futuro en el que los pensamientos no tienen por qué permanecer ocultos dentro del cerebro, sino que podrían ser traducidos a lenguaje verbal a voluntad.

Pero lograr esta hazaña ha sido todo un reto. Los primeros esfuerzos para decodificar las señales cerebrales del Dr. Mesgarani y otros se centraron en modelos simples de computadora que analizaban espectrogramas, que son representaciones visuales de las frecuencias de sonido.

Pero debido a que este enfoque no ha logrado producir nada que se parezca a un discurso inteligible, el equipo del Dr. Mesgarani recurrió en su lugar a un vocoder, un algoritmo de computadora que puede sintetizar el habla después de haber sido entrenado en grabaciones de personas que hablan.

“Esta es la misma tecnología utilizada por Amazon Echo y Apple Siri para dar respuestas verbales a nuestras preguntas”, dijo el Dr. Mesgarani, quien también es profesor asociado de ingeniería eléctrica en la Escuela de Ingeniería y Ciencias Aplicadas de la Fundación Fu de Columbia.

Para enseñar al vocoder a interpretar la actividad cerebral, el Dr. Mesgarani se asoció con Ashesh Dinesh Mehta, MD, PhD, un neurocirujano del Instituto de Neurociencia Northwell Health Physician Partners y coautor del trabajo de hoy. El Dr. Mehta trata a pacientes con epilepsia, algunos de los cuales deben someterse a cirugías regulares.

“Trabajando con el Dr. Mehta, les pedimos a los pacientes de epilepsia que ya se estaban sometiendo a cirugía cerebral que escucharan las frases pronunciadas por diferentes personas, mientras que nosotros medíamos los patrones de actividad cerebral”, dijo el Dr. Mesgarani. “Estos patrones neurales entrenaron al vocoder.”

Luego, los investigadores pidieron a esos mismos pacientes que escucharan a los oradores recitando dígitos entre 0 y 9, mientras grababan señales cerebrales que luego podrían pasar a través del vocoder. El sonido producido por el vocoder en respuesta a esas señales fue analizado y limpiado por redes neuronales, un tipo de inteligencia artificial que imita la estructura de las neuronas en el cerebro biológico.

El resultado final fue una voz de sonido robótico recitando una secuencia de números. Para comprobar la exactitud de la grabación, el Dr. Mesgarani y su equipo encargaron a los individuos que escucharan la grabación y reportaran lo que escucharon.

“Encontramos que la gente podía entender y repetir los sonidos alrededor del 75% de las veces, lo cual está muy por encima y más allá de cualquier intento anterior”, dijo el Dr. Mesgarani. La mejora en la inteligibilidad fue especialmente evidente cuando se compararon las nuevas grabaciones con los intentos anteriores basados en espectrogramas. “El vocoder sensible y las poderosas redes neurales representaban los sonidos que los pacientes habían escuchado originalmente con sorprendente precisión.”

El Dr. Mesgarani y su equipo planean probar palabras y frases más complicadas a continuación, y quieren realizar las mismas pruebas con las señales cerebrales emitidas cuando una persona habla o imagina hablar. En última instancia, esperan que su sistema pueda formar parte de un implante, similar a los que usan algunos pacientes de epilepsia, que traduce los pensamientos del portador directamente en palabras.

“En este escenario, si el usuario piensa:’Necesito un vaso de agua’, nuestro sistema podría tomar las señales cerebrales generadas por ese pensamiento y convertirlas en un discurso verbal sintetizado”, dijo el Dr. Mesgarani. “Esto cambiaría las cosas. Le daría a cualquiera que haya perdido su capacidad de hablar, ya sea por lesión o enfermedad, la oportunidad de conectarse con el mundo que le rodea”.