Un equipo internacional de investigadores, miembros de la Iniciativa de Formatos de Datos Cross-Linguistic CLDF dirigido por el Instituto Max Planck para la Ciencia de la Historia Humana, ha presentado una propuesta de nuevas directrices sobre formatos de datos cross-linguistic, en ordenpara facilitar el intercambio y las comparaciones de datos entre el creciente número de grandes bases de datos lingüísticas en todo el mundo. Este formato proporciona un paquete de software, una ontología básica y ejemplos de uso.
Existe un número cada vez mayor de bases de datos lingüísticas en todo el mundo, lo que aumenta la posibilidad de una amplia red de posibles estudios comparativos. Sin embargo, estas bases de datos generalmente se crean de forma independiente entre sí, y a menudo tienen un enfoque único y limitado. Esto significa que los formatosLos datos utilizados para codificar los datos a menudo son diferentes y esto crea dificultades reales en la comparación efectiva de datos entre bases de datos.
En un esfuerzo por resolver estos problemas, se creó la Iniciativa de Formatos de Datos Interlingüísticos CLDF. En un artículo publicado en Datos científicos , el CLDF establece las pautas propuestas para un formato estandarizado para bases de datos lingüísticas, y también proporciona un paquete de software, una ontología básica y ejemplos de uso de las mejores prácticas. El objetivo de este esfuerzo es facilitar el intercambio y la reutilización de datos enlingüística comparativa.
Normalización de formatos de datos para facilitar el uso compartido y la reutilización
El CLDF proporciona un modelo de datos subyacente a sus recomendaciones que pretende ser simple, pero expresivo, y se basa en el modelo de datos desarrollado previamente para el proyecto de Datos Cross-Linguistic. Este modelo tiene cuatro entidades principales: a Idiomas; b Parámetros; c Valores; y d Fuentes. En el modelo, cada Valor está relacionado con un Parámetro y un Idioma, y puede basarse en múltiples Fuentes. Además, hay Referencias para Fuentes, y las Referencias también pueden tenerContextos que, por ejemplo, para referencias impresas serían números de página.
El modelo de datos CLDF es un formato de paquete, en el que un conjunto de datos estaría compuesto por un conjunto de archivos de datos que contienen tablas y un archivo descriptivo que define las relaciones entre las tablas. Cada tipo de datos lingüísticos tendría un módulo CLDF ycomponentes adicionales, que serían los aspectos de los datos en el módulo que se repiten en múltiples tipos de datos. Los módulos CLDF también contendrían términos de la ontología CLDF. La ontología es una lista de vocabulario que representa objetos y propiedades con semántica conocidaen lingüística comparativa. Esto permite a los usuarios hacer referencia a estos términos de manera uniforme.
Un paquete de software para permitir la validación y manipulación
Las especificaciones CLDF utilizan formatos de archivo comunes, como CSV, JSON y BibTeX, que son ampliamente compatibles, con el objetivo de que estos archivos puedan leerse y escribirse fácilmente en muchas plataformas. Aún más importante, el formato estandarizado permitiráinvestigadores sin habilidades de programación para acceder y manipular los datos con herramientas preexistentes, en lugar de que esta capacidad se limite a investigadores con habilidades de programación suficientes para crear sus propias herramientas. Para facilitar esto, el CLDF ha creado un repositorio de "libros de cocina" para guiones para usar conlas especificaciones CLDF.
"Queremos brindar acceso a estos datos y la posibilidad de compararlos con la mayor cantidad de investigadores posible", afirma Johann-Mattis Lista del Instituto Max Planck para la Ciencia de la Historia Humana. Robert Forkel, una de las fuerzas impulsorasdetrás de la iniciativa CLDF, también señala que el formato CLDF no se limita solo a datos lingüísticos, sino que también puede incorporar bases de datos de datos culturales y geográficos, por ejemplo. "CLDF puede facilitar drásticamente la prueba de preguntas sobre la interacción entre lingüística, cultura,y factores ambientales en la evolución lingüística y cultural ".
Fuente de la historia :
Materiales proporcionado por Instituto Max Planck para la Ciencia de la Historia Humana . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :