Open Science ICAC, un espacio de buenas prácticas para la ciencia abierta

Fecha del post: 15-01-2024

Fotografía de stock

El Centre de documentació i biblioteca del Institut Català d'Arqueologia Clàssica (ICAC) cuenta con el repositorio Open Science ICAC. Esta página web se configura como un espacio donde la ciencia se comparte de forma accesible e inclusiva. El espacio introduce recomendaciones y asesora sobre el proceso de la publicación de contenidos. También, sobre cómo poner a disposición los datos generados durante el proceso de investigación, de forma que sirvan a futuros trabajos de investigación.

La página web, además de ser un repositorio de textos de investigación científica, también es un lugar en el que encontrar herramientas y trucos a la hora de abordar el proceso de gestión de datos de investigación en cada una de sus fases: antes, durante y en el momento de la publicación.

  • Antes de comenzar: recomienda crear un plan de gestión de datos para garantizar que la propuesta de investigación sea lo más sólida posible. El Plan de Gestión de Datos (PGD) es un documento metodológico que describe el ciclo de vida de los datos recogidos, generados y procesados durante un proyecto de investigación, una tesis doctoral, etc.
  • Durante el proceso de investigación: en este punto señala la necesidad de unificar la nomenclatura de los documentos a generar antes de empezar a recopilar archivos o datos, para evitar una acumulación de contenido desorganizado que conducirá a datos extraviados o perdidos. Además, en este apartado se ofrece información sobre la estructura de directorios, nombres de carpetas y nombres de archivos, la creación de un archivo txt (README) que describa las nomenclaturas o el uso de nombres cortos y descriptivos como nombre del proyecto/acrónimo, fecha de creación del archivo, número de muestra o número de la versión. En la página web se pueden encontrar también recomendaciones sobre cómo estructurar cada uno de estos campos para que sean reutilizables y fácilmente buscables.
  • Publicación de los datos de investigación: además de los propios resultados de la investigación en forma de tesis, tesina, paper... recomienda la publicación de los datos que se hayan ido generando con el propio proceso investigador. El propio ICAC señala que los datos de investigación siguen siendo valiosos una vez finalizado el proyecto de investigación para el que se generaron, y que compartir los datos puede abrir nuevas vías de investigación sin que los futuros investigadores tengan que recrear y recopilar datos idénticos. Por último, señala cómo, cuándo y qué tener en cuenta a la hora de publicar los datos de investigación.

Los contenidos gráficos para la mejora de la calidad de datos abiertos

Recientemente, el ICAC ha dado un paso más para incentivar unas buenas prácticas en el uso de datos abiertos. Para ello ha elaborado una serie de contenidos gráficos basándose en la Guía práctica para la mejora de la calidad de datos abiertos”, elaborada por datos.gob.es. En concreto, el ente cultural ha elaborado cuatro infografías, en catalán e inglés, de fácil comprensión sobre buenas prácticas con datos abiertos en el trabajo con bases de datos y hojas de cálculo, textos y docs y formato CSV.

Todas las infografías surgidas de la adaptación de la guía están a disposición del público general y también del personal investigador del centro en Recercat, el repositorio de investigación de Cataluña. Próximamente también estará dentro de la web de Ciencia Abierta del Institut Català d'Arqueologia Clàssica (ICAC), Open Science ICAC.

Las infografías elaboradas por el ICAC repasan diversos aspectos. Las primeras, recogen las recomendaciones generales para garantizar la calidad de los datos abiertos, como el uso de codificación de caracteres estandarizados, tales como el UTF-8, o nombrar las columnas de forma correcta, utilizando solo letras en minúscula y evitando los espacios, siendo estos sustituidos por guiones. Entre las recomendaciones para generar datos de calidad, también recogen cómo mostrar la presencia de datos nulos o la carencia de datos o cómo gestionar la duplicidad de datos, de manera que se centralice la recogida de datos y su procesamiento en un único sistema de forma que, en caso de haber duplicidad, se puedan detectar de forma sencilla y puedan ser eliminados.

Las segundas abordan cómo establecer el formato de las cifras numéricas y de otros datos como las fechas, de manera que sigan el sistema estandarizado ISO, así como utilizar los puntos como decimales. En el caso de la información geográfica, tal y como recomienda la Guía, sus materiales también recogen la necesidad de reservar dos columnas para insertar la longitud y la latitud de los puntos geográficos utilizados.

La tercera temática de estas infografías se centra en la elaboración de buenas bases de datos u hojas de cálculo, de forma que sean fácilmente reutilizables y no generen problemas a la hora de trabajar con ellas. Entre las recomendaciones que destacan se encuentra la consistencia a la hora de generar nombres o códigos para cada ítem incluido en la recogida de datos, así como elaborar una guía de ayuda para las celdas que se encuentran codificadas, de manera que sean inteligibles para quienes necesiten reutilizarlas.

En el apartado de textos y documentos dentro de estas bases de datos, las infografías que ha elaborado el Institut Català d'Arqueologia Clàssica recogen algunas de las recomendaciones más importantes para crear textos y asegurarse de su conservación de la mejor forma posible. Entre ellas, señala la necesidad de guardar materiales adjuntos en los documentos de texto como pueden ser imágenes u hojas de cálculo de forma separada al documento de texto. De esta manera, se asegura que el documento conserva su calidad original, como la resolución de una imagen, por ejemplo.

Por último, la cuarta infografía que se ha puesto a disposición recoge las recomendaciones más importantes a la hora de trabajar con formato CSV (comma separated value) como crear un documento CSV para cada tabla y, en caso de trabajar con un documento con varias hojas de cálculo, ponerlas a disposición de forma independiente. También señala en este caso que cada fila en el documento CSV tiene el mismo número de columnas para que sean fácilmente trabajables y reutilizables, sin necesidad de realizar una limpieza posterior.

Como se mencionaba anteriormente, todas las infografías siguen las recomendaciones ya recogidas en la Guía práctica para la mejora de la calidad de datos abiertos.

La guía para la mejora de la calidad de datos abiertos

La “Guía práctica para la mejora de la calidad de datos abiertos” es un documento elaborado por datos.gob.es dentro de la Iniciativa Aporta y publicado en septiembre de 2022. El documento proporciona un compendio de directrices para actuar sobre cada una de las características que definen la calidad, impulsando su mejora. A su vez, esta guía toma como referente la guía para la calidad de datos de data.europe.eu, publicada en 2021 por la Oficina de Publicaciones de la Unión Europea y la completa para que tanto publicadores como reutilizadores de datos puedan seguir pautas que garanticen la calidad de los datos abiertos.

En resumen, la guía pretende ser un marco de referencia para todas las personas involucradas tanto en la generación como en la utilización de datos abiertos para que tengan un punto de partida que garantice la idoneidad de los datos tanto en su puesta a disposición como a la hora de evaluar si un conjunto de datos posee calidad suficiente para su reutilización en estudios, aplicaciones, servicios u otros.