Una interfaz cerebro-máquina de última generación creada por neurocientíficos de la Universidad de California en San Francisco puede generar un discurso sintético de sonido natural mediante el uso de la actividad cerebral para controlar un tracto vocal virtual: una simulación por computadora anatómicamente detallada que incluye los labios, la mandíbula,lengua y laringe. El estudio se realizó en participantes de la investigación con habla intacta, pero la tecnología podría algún día restaurar las voces de las personas que han perdido la capacidad de hablar debido a la parálisis y otras formas de daño neurológico.
Accidente cerebrovascular, lesión cerebral traumática y enfermedades neurodegenerativas como la enfermedad de Parkinson, la esclerosis múltiple y la esclerosis lateral amiotrófica ELA o enfermedad de Lou Gehrig a menudo resultan en una pérdida irreversible de la capacidad de hablar. Algunas personas con discapacidades graves del habla aprendenpara deletrear sus pensamientos letra por letra utilizando dispositivos de asistencia que rastrean movimientos muy pequeños de los ojos o los músculos faciales. Sin embargo, producir texto o discurso sintetizado con tales dispositivos es laborioso, propenso a errores y dolorosamente lento, lo que generalmente permite un máximo de 10palabras por minuto, en comparación con las 100-150 palabras por minuto de habla natural.
El nuevo sistema que se está desarrollando en el laboratorio de Edward Chang, MD, descrito el 24 de abril de 2019 en Naturaleza - demuestra que es posible crear una versión sintetizada de la voz de una persona que puede controlarse mediante la actividad de los centros de habla de su cerebro. En el futuro, este enfoque no solo podría restaurar la comunicación fluida a las personas con discapacidad grave del habla,dicen los autores, pero también podrían reproducir algo de la musicalidad de la voz humana que transmite las emociones y la personalidad del hablante.
"Por primera vez, este estudio demuestra que podemos generar oraciones enteras basadas en la actividad cerebral de un individuo", dijo Chang, profesor de cirugía neurológica y miembro del Instituto de Neurociencia Weill de la UCSF. "Esta es una prueba estimulante".de principio que con tecnología que ya está al alcance, deberíamos poder construir un dispositivo que sea clínicamente viable en pacientes con pérdida del habla ".
El tracto vocal virtual mejora la síntesis del habla naturalista
La investigación fue dirigida por Gopala Anumanchipalli, PhD, un científico del habla, y Josh Chartier, un estudiante graduado de bioingeniería en el laboratorio Chang. Se basa en un estudio reciente en el que la pareja describió por primera vez cómo los centros del habla del cerebro humanocoreografía los movimientos de los labios, la mandíbula, la lengua y otros componentes del tracto vocal para producir un habla fluida.
A partir de ese trabajo, Anumanchipalli y Chartier se dieron cuenta de que los intentos anteriores de decodificar directamente el habla de la actividad cerebral podrían haber tenido un éxito limitado porque estas regiones cerebrales no representan directamente las propiedades acústicas de los sonidos del habla, sino más bien las instrucciones necesarias para coordinar los movimientosde la boca y la garganta durante el habla.
"La relación entre los movimientos del tracto vocal y los sonidos del habla que se producen es complicada", dijo Anumanchipalli. "Razonamos que si estos centros del habla en el cerebro están codificando movimientos en lugar de sonidos, deberíamos tratar dehaz lo mismo al decodificar esas señales "
En su nuevo estudio, Anumancipali y Chartier pidieron a cinco voluntarios que fueron tratados en el Centro de Epilepsia de la UCSF, pacientes con habla intacta que tenían electrodos implantados temporalmente en sus cerebros para mapear la fuente de sus ataques en preparación para la neurocirugía, para leer varioscien oraciones en voz alta mientras los investigadores registraron la actividad de una región del cerebro que se sabe que está involucrada en la producción del lenguaje
Basado en las grabaciones de audio de las voces de los participantes, los investigadores utilizaron principios lingüísticos para realizar ingeniería inversa de los movimientos del tracto vocal necesarios para producir esos sonidos: presionar los labios juntos aquí, apretar las cuerdas vocales allí, desplazar la punta de la lengua hacia el techode la boca, luego relajándola, etc.
Este mapeo detallado del sonido a la anatomía permitió a los científicos crear un tracto vocal virtual realista para cada participante que podría ser controlado por su actividad cerebral. Esto comprendía dos algoritmos de aprendizaje automático de "red neuronal": un decodificador que transforma los patrones de actividad cerebral producidosdurante el habla en movimientos del tracto vocal virtual y un sintetizador que convierte estos movimientos del tracto vocal en una aproximación sintética de la voz del participante.
Los investigadores encontraron que el lenguaje sintético producido por estos algoritmos fue significativamente mejor que el lenguaje sintético directamente descodificado de la actividad cerebral de los participantes sin la inclusión de simulaciones de las vías vocales de los hablantes. Los algoritmos produjeron oraciones que eran comprensibles para cientos de oyentes humanosen pruebas de transcripción de crowdsourcing realizadas en la plataforma Amazon Mechanical Turk.
Como es el caso con el habla natural, los transcriptores tuvieron más éxito cuando se les dieron listas más cortas de palabras para elegir, como sería el caso de los cuidadores que están preparados para el tipo de frases o solicitudes que los pacientes pueden pronunciar.Identificó con precisión el 69 por ciento de las palabras sintetizadas de las listas de 25 alternativas y transcribió el 43 por ciento de las oraciones con una precisión perfecta.de oraciones sintetizadas perfectamente.
"Todavía tenemos formas de imitar perfectamente el lenguaje hablado", reconoció Chartier. "Somos bastante buenos para sintetizar sonidos de habla más lentos como 'sh' y 'z', así como para mantener los ritmos y entonaciones del habla yel género y la identidad del hablante, pero algunos de los sonidos más abruptos como 'b's y' p's se vuelven un poco confusos. Aún así, los niveles de precisión que produjimos aquí serían una mejora sorprendente en la comunicación en tiempo real en comparación con lo que está disponible actualmente ".
Inteligencia Artificial, Lingüística y Neurociencia Avanzada
Los investigadores están experimentando actualmente con matrices de electrodos de mayor densidad y algoritmos de aprendizaje automático más avanzados que esperan que mejoren aún más el habla sintetizada. La próxima prueba importante para la tecnología es determinar si alguien que no puede hablar podría aprenderusar el sistema sin poder entrenarlo con su propia voz y hacer que se generalice a todo lo que quieran decir.
Los resultados preliminares de uno de los participantes en la investigación del equipo sugieren que el sistema de base anatómica de los investigadores puede decodificar y sintetizar oraciones novedosas de la actividad cerebral de los participantes casi tan bien como las oraciones en las que se entrenó el algoritmo. Incluso cuando los investigadores proporcionaron el algoritmo condatos de actividad cerebral grabados mientras un participante simplemente articulaba oraciones sin sonido, el sistema aún podía producir versiones sintéticas inteligibles de las oraciones simuladas en la voz del hablante.
Los investigadores también encontraron que el código neuronal para los movimientos vocales se superponía parcialmente entre los participantes, y que la simulación del tracto vocal de un sujeto de investigación podría adaptarse para responder a las instrucciones neuronales registradas en el cerebro de otro participante. Juntos, estos hallazgos sugieren que las personas con hablala pérdida debida a un deterioro neurológico puede ser capaz de aprender a controlar una prótesis de habla modelada a partir de la voz de alguien con habla intacta.
"Las personas que no pueden mover sus brazos y piernas han aprendido a controlar las extremidades robóticas con sus cerebros", dijo Chartier. "Esperamos que algún día las personas con discapacidades del habla puedan aprender a hablar nuevamente usando este cerebro-tracto vocal artificial controlado "
Agregó Anumanchipalli, "Estoy orgulloso de haber podido reunir la experiencia de la neurociencia, la lingüística y el aprendizaje automático como parte de este hito importante para ayudar a los pacientes con discapacidad neurológica".
Fuente de la historia :
Materiales proporcionado por Universidad de California - San Francisco . Original escrito por Nicholas Weiler. Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :