Noticias de ciencia

de organizaciones de investigación

Palabras, más palabras ... y estadísticas

Para segmentar palabras, el cerebro podría estar usando métodos estadísticos

Fecha :: 17 de mayo de 2016
Fuente :: Escuela Internacional de Estudios Avanzados SISSA
Resumen :: Escoger palabras individuales en un flujo de voz no es tarea fácil y, según los lingüistas, para lograrlo, el cerebro podría usar métodos estadísticos. Un grupo de científicos ha aplicado un método basado en estadísticas para la segmentación de palabras y midió sueficacia en el lenguaje natural, en nueve idiomas diferentes, para descubrir que el ritmo lingüístico juega un papel importante.
Compartir :

HISTORIA COMPLETA

¿Alguna vez te has estrujado el cerebro tratando de distinguir una sola palabra de un flujo de voz ininterrumpido en un idioma que apenas conoces? Es ingenuo pensar que en el habla hay incluso las pausas más pequeñas entre una palabra yel siguiente como el espacio que insertamos convencionalmente entre palabras escritas: en realidad, el habla es casi siempre un flujo continuo de sonido. Sin embargo, cuando escuchamos nuestro idioma nativo, la palabra "segmentación" es un proceso sin esfuerzo., se preguntan los lingüistas, ¿los mecanismos cognitivos automáticos que subyacen a esta habilidad? Claramente, el conocimiento del vocabulario ayuda: la memoria del sonido de las palabras individuales nos ayuda a distinguirlas. Sin embargo, muchos lingüistas argumentan que también hay subconscientes automáticos "bajos""mecanismos de nivel" que nos ayudan incluso cuando no reconocemos las palabras o cuando, como en el caso de niños muy pequeños, nuestro conocimiento del idioma todavía es solo rudimentario. Estos mecanismos, piensan, se basan en el análisis estadístico de la fSolicitud estimada en base a la experiencia pasada de las sílabas en cada idioma.

anuncio

Un indicador que podría contribuir a los procesos de segmentación es la "probabilidad de transición" TP, que proporciona una estimación de la probabilidad de que dos sílabas coexistan en la misma palabra, en función de la frecuencia con la que se encuentran asociadas en un determinadoEn la práctica, si cada vez que escucho la sílaba "TA" es invariablemente seguida por la sílaba "DA", entonces la probabilidad de transición para "DA", dada "TA", es 1 la más alta.por otro lado, cada vez que escucho la sílaba "BU", la mitad de las veces sigue la sílaba "DI" y la mitad de las veces "FI", luego la probabilidad de transición de "DI" y "FI",dado "BU", es 0.5, y así sucesivamente. El sistema cognitivo podría calcular implícitamente este valor confiando en la memoria lingüística, de la cual derivaría las frecuencias.

El estudio realizado por Amanda Saksida, investigadora científica de la Escuela Internacional de Estudios Avanzados SISSA en Trieste, con la colaboración de Alan Langus, investigador de SISSA, bajo la supervisión de la profesora de SISSA Marina Nespor, utilizó TP para segmentar el lenguaje natural, mediante el uso de dos enfoques diferentes.

Basado en ritmo

El estudio de Saksida se basa en el trabajo con corpus, es decir, cuerpos de textos recopilados específicamente para el análisis lingüístico. En el caso que nos ocupa, los corpus consistieron en transcripciones del "entorno de sonido lingüístico" al que están expuestos los bebés."Queríamos tener un ejemplo del tipo de entorno lingüístico en el que se desarrolla el lenguaje de un niño", explicó Saksida, "Nos preguntamos si un mecanismo de bajo nivel como la probabilidad de transición funcionaba con claves del lenguaje de la vida real, que son muy diferentes de las artificialesseñales normalmente utilizadas en el laboratorio, que son más esquemáticas y libres de fuentes de 'ruido'. Además, la pregunta era si la misma señal de bajo nivel es igualmente eficiente en diferentes idiomas ". Saksida y sus colegas utilizaron corpus de no menos de 9diferentes idiomas, y a cada uno aplicaron dos modelos diferentes basados en TP.

Primero calcularon los valores TP para cada punto del flujo del lenguaje para todos los cuerpos, y luego "segmentaron" el flujo utilizando dos métodos diferentes. El primero se basó en un umbral absoluto: se estableció un cierto valor TP de referencia fijodebajo de la cual se identificó un límite. El segundo método se basó en un umbral relativo: los límites correspondían a la función TP localmente más baja.

En todos los casos, Saksida y sus colegas descubrieron que la probabilidad de transición era una herramienta efectiva para la segmentación 49% a 86% de las palabras identificadas correctamente independientemente del algoritmo de segmentación utilizado, lo que confirma la eficacia de TP.ser bastante eficiente, cuando un modelo fue particularmente exitoso con un idioma, el modelo alternativo siempre tuvo un rendimiento significativamente peor.

"Esta diferencia lingüística cruzada sugiere que cada modelo es más adecuado que el otro para ciertos idiomas y viceversa. Por lo tanto, realizamos análisis adicionales para comprender qué características lingüísticas se correlacionan con el mejor desempeño de un modelo sobre el otro", explica Saksida.La dimensión crucial resultó ser el ritmo lingüístico. "Podemos dividir las lenguas europeas en dos grandes grupos basados en el ritmo: cronometrado por el estrés y cronometrado por la sílaba". Las lenguas cronometradas por el estrés tienen menos vocales y palabras más cortas, e incluyen inglés, esloveno y alemán.Los idiomas de tiempo silábico contienen más vocales y palabras más largas en promedio, e incluyen italiano, español y finlandés. El tercer grupo rítmico de idiomas no existe en Europa y se basa en "morae" una parte de la sílaba, comoJaponés. Este grupo se conoce como "tiempo de mora" y contiene incluso más vocales que los idiomas de tiempo de sílaba.

El modelo de umbral absoluto demostró funcionar mejor en los lenguajes cronometrados por el estrés, mientras que el umbral relativo fue mejor para los cronometrados en mora ". Por lo tanto, es posible que el sistema cognitivo aprenda a usar el algoritmo de segmentación que mejor se adapte al idioma nativo de uno, y que esto lleva a dificultades para segmentar los idiomas que pertenecen a otra categoría rítmica. Evidentemente, se necesitarán estudios experimentales para probar esta hipótesis. Sabemos por la literatura científica que inmediatamente después del nacimiento los bebés ya usan información rítmica, y creemos que las estrategias utilizadas paraelegir la segmentación más adecuada podría ser una de las áreas en las que la información sobre el ritmo es más útil "

El estudio no puede decir si el sistema cognitivo tanto de adultos como de niños realmente usa este tipo de estrategia. "Nuestro estudio confirma claramente que esta estrategia funciona en una amplia gama de idiomas", concluye Saksida.ahora servirá como guía para experimentos de laboratorio "

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionado por Escuela Internacional de Estudios Avanzados SISSA . Nota: El contenido puede ser editado por estilo y longitud.

Referencia del diario :

Amanda Saksida, Alan Langus, Marina Nespor. Estadísticas de concurrencia como una señal dependiente del idioma para la segmentación del habla . Ciencia del desarrollo , 2016; DOI: 10.1111 / desc.12390

Cite esta página :

Escuela Internacional de Estudios Avanzados SISSA. "Palabras, más palabras ... y estadísticas: para segmentar palabras, el cerebro podría estar usando métodos estadísticos". ScienceDaily. ScienceDaily, 17 de mayo de 2016. .

Escuela Internacional de Estudios Avanzados SISSA. 2016, 17 de mayo. Palabras, más palabras ... y estadísticas: para segmentar palabras, el cerebro podría estar utilizando métodos estadísticos. ScienceDaily . Recuperado el 24 de julio de 2020 de www.science-things.com/releases/2016/05/160517131637.htm

HISTORIAS RELACIONADAS

DE ALREDEDOR DE LA WEB

A continuación hay artículos relevantes que pueden interesarle. ScienceDaily comparte enlaces con publicaciones académicas en el red TrendMD y gana ingresos de terceros anunciantes, donde se indique.

1

2

Palabras, más palabras ... y estadísticas

Para segmentar palabras, el cerebro podría estar usando métodos estadísticos

1

2

3

4

5

1

2

3

4

5

Resultados de la prueba de falso negativo COVID-19 si se usa demasiado pronto

Los niños rara vez transmiten COVID-19, los médicos escriben en un nuevo comentario

Pérdida de olor y sabor validado como síntomas de COVID-19 en pacientes con alta tasa de recuperación

Las imágenes de resonancia magnética de los cerebros de 130 mamíferos, incluidos los humanos, indican una conectividad igual

Mejora de la vista mejorada al observar la luz roja profunda

La oxitocina de la 'hormona del amor' podría usarse para tratar trastornos cognitivos como el Alzheimer

Mascarillas críticas para prevenir la propagación de COVID-19

El mejor material para las mascarillas caseras puede ser una combinación de dos telas

La razón que pone los pelos de punta para poner la piel de gallina

En estudios celulares, el extracto de algas supera a Remdesivir en el bloqueo del virus COVID-19

El bloqueo de COVID-19 causó una reducción global del 50 por ciento en las vibraciones de la tierra ligadas a los humanos

Los neandertales pueden haber tenido un umbral más bajo para el dolor

Los antibióticos interrumpen el desarrollo del 'cerebro social' en ratones

Estimuladores espinales reutilizados para restaurar el tacto en la extremidad perdida

¡Muévete, Siri! Los investigadores desarrollan Chatbot basado en la mejora

Dando a los robots una percepción humana de sus entornos físicos

Paso de tiempo distorsionado durante el bloqueo de COVID-19

Nuestra herencia animal: los humanos también levantan las orejas cuando escuchan sonidos interesantes