Las personas tienen una habilidad natural para enfocarse en lo que dice una sola persona, incluso cuando hay conversaciones en competencia en el fondo u otros sonidos de distracción. Por ejemplo, las personas a menudo pueden entender lo que alguien está diciendo en un restaurante lleno de gente,durante una fiesta ruidosa, o mientras se miran debates televisados donde múltiples expertos hablan entre sí. Hasta la fecha, ser capaz de imitar computacionalmente y con precisión esta habilidad humana natural para aislar el habla ha sido una tarea difícil.
"Las computadoras están mejorando cada vez más en la comprensión del habla, pero aún tienen dificultades significativas para entenderla cuando varias personas hablan juntas o cuando hay mucho ruido", dice Ariel Ephrat, un candidato a doctorado en la Universidad Hebrea de Jerusalén-Israely autor principal de la investigación. Ephrat desarrolló el nuevo modelo durante su pasantía en Google el verano de 2017. "Los humanos sabemos cómo entender el habla en tales condiciones de forma natural, pero queremos que las computadoras puedan hacerlo tan bien como nosotros., tal vez incluso mejor "
Para este fin, Ephrat y sus colegas en Google han desarrollado un modelo audiovisual novedoso para aislar y mejorar el habla de los oradores deseados en un video. El modelo basado en la red profunda del equipo incorpora señales visuales y auditivas para aislary mejore cualquier orador en cualquier video, incluso en escenarios desafiantes del mundo real, como videoconferencia, donde muchos participantes a menudo hablan a la vez y barras ruidosas, que pueden contener una variedad de ruido de fondo, música y conversaciones competitivas.
El equipo, que incluye a Inbar Mosseri de Google, Oran Lang, Tali Dekel, Kevin Wilson, Avinatan Hassidim, William T. Freeman y Michael Rubinstein, presentará su trabajo en SIGGRAPH 2018, celebrado del 12 al 16 de agosto en Vancouver, Columbia BritánicaLa conferencia y exposición anual muestra a los profesionales, académicos y mentes creativas líderes del mundo a la vanguardia de los gráficos por computadora y las técnicas interactivas.
En este trabajo, los investigadores no solo se centraron en las señales auditivas para separar el habla, sino también en las señales visuales en el video, es decir, los movimientos de los labios del sujeto y potencialmente otros movimientos faciales que pueden prestar a lo que él o ella está diciendo.Las características visuales obtenidas se utilizan para "enfocar" el audio en un solo sujeto que está hablando y para mejorar la calidad de la separación del habla.
Para capacitar a su modelo audiovisual conjunto, Ephrat y sus colaboradores seleccionaron un nuevo conjunto de datos, "AVSpeech", compuesto por miles de videos de YouTube y otros segmentos de videos en línea, como TED Talks, videos instructivos y conferencias de alta calidadA partir de AVSpeech, los investigadores generaron un conjunto de capacitación de los llamados "cócteles sintéticos": mezclas de videos faciales con voz limpia y otras pistas de audio de voz con ruido de fondo. Para aislar la voz de estos videos, el usuario solo debeespecifique la cara de la persona en el video cuyo audio se debe seleccionar.
En múltiples ejemplos detallados en el documento, titulado "Buscando escuchar en el cóctel: un modelo audiovisual independiente del hablante para la separación del habla", el nuevo método arrojó resultados superiores en comparación con los métodos existentes de solo audio en puromezclas de voz y mejoras significativas en la entrega de audio claro de mezclas que contienen superposición de voz y ruido de fondo en escenarios del mundo real. Si bien el enfoque del trabajo es la separación y mejora del habla, el novedoso método del equipo también podría aplicarse al reconocimiento automático de voz ASR y la transcripción de video, es decir, las capacidades de subtítulos en la transmisión de videos y TV. En una demostración, el nuevo modelo audiovisual conjunto produjo subtítulos más precisos en escenarios en los que participaron dos o más oradores.
Sorprendidos al principio por lo bien que funcionó su método, los investigadores están entusiasmados con su potencial futuro.
"No hemos visto la separación del habla 'en la naturaleza' con tanta calidad antes. Es por eso que vemos un futuro emocionante para esta tecnología", señala Ephrat. "Se necesita más trabajo antes de que esta tecnología aterrice enmanos de los consumidores, pero con los prometedores resultados preliminares que hemos mostrado, ciertamente podemos verlo admitiendo una gama de aplicaciones en el futuro, como subtítulos de video, videoconferencias e incluso audífonos mejorados si tales dispositivos se pueden combinar con cámaras."
Los investigadores están explorando actualmente oportunidades para incorporarlo en varios productos de Google.
Fuente de la historia :
Materiales proporcionados por Asociación de Maquinaria de Computación . Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :