El Portal de Datos Europeo comparte un informe con algunos estándares para homogeneizar datos de alto valor

Fecha del documento: 23-01-2024

Fotografía de stock

Para cumplir con la Directiva (UE) 2019/1024 y su posterior reglamento de ejecución, los estados miembros de la Unión Europea están trabajando en la puesta a disposición de los llamados datos de alto valor (high-value dataset o HVD, en inglés). El objetivo es que ciudadanos y empresas puedan acceder a dichos datos bajo unos requisitos técnicos que favorezcan su reutilización y su impacto positivo en la sociedad, la economía y el medio ambiente.

La apertura de estos conjuntos de datos supone un gran reto para las administraciones públicas de todos los países de la Unión Europea. Aunque muchos de estos datos ya están a disposición de los usuarios, los países deben identificarlos para poder informar sobre ellos y resolver la alta heterogeneidad en los formatos, estructuras y semánticas. En concreto, a partir de febrero de 2025, los Estados miembros tendrán que informar a la Comisión cada dos años sobre los conjuntos de datos de alto valor disponibles, incluyendo los enlaces a las condiciones de las licencias y las API.

Para ayudar en esta tarea, el Portal Europeo de Datos ha publicado el informe “Report on Data Homogenisation for High-value Datasets donde propone un enfoque metodológico para facilitar la identificación y homogeneización de los HVD. Entre otras cuestiones, el informe ofrece ejemplos de estándares que ayudan a conseguir una mayor interoperabilidad no solo entre datos, sino también entre las aplicaciones que los utilizan.

Un método para la identificación y homogeneización

El informe describe una aproximación metodológica basada en tres pasos:

  1. La identificación de los HVD en los portales de datos ya existentes. Aunque existen algunas pautas para la publicación de HVD,  como estas para aplicar DCAT-AP, la forma de nombrar a los conjuntos de datos ya publicados no es uniforme, lo que hace difícil encontrarlos. El informe propone un protocolo que consiste en definir palabras clave, partiendo de los conjuntos de datos y sus atributos asociados, contenidos en el anexo I del Reglamento de Ejecución. Se trata de utilizar dichas palabras clave para buscar en los distintos portales de datos ya existentes. El informe explica cómo se ha testeado el protocolo de identificación con conjuntos de datos de las categorías de registros empresariales, datos estadísticos y datos sobre redes de transporte, incluyendo tablas con las palabras clave utilizadas.
  2. Localización o desarrollo de modelos de datos, ontologías, vocabularios controlados y/o API comunes. En esta sección, el informe describe algunos recursos de utilidad, los cuales se resumen en la siguiente tabla:

Recurso

Descripción

Categoría de datos en las que más pueden ayudar, según el informe

Directiva Inspire

Características que debe tener la información espacial y sus metadatos.

  • Datos geoespaciales
  • Datos de Observación de la Tierra y medioambientales.
  • Datos meteorológicos
  • Datos sobre redes de transporte.

Especificaciones de datos de la Directiva Inspire

(data specifications)

Modelos, esquemas y reglas de codificación para diferentes áreas temáticas de datos espaciales.

 

 

  • Datos geoespaciales
  • Datos de Observación de la Tierra y medioambientales
  • Datos meteorológicos
  • Datos sobre redes de transporte.

Servicios de red de Inspire (network services)

Conjunto de interfaces comunes para servicios web que permiten el descubrimiento, visualización, descarga y transformación de datos espaciales.

  • Datos geoespaciales
  • Datos de Observación de la Tierra y medioambientales
  • Datos meteorológicos
  • Datos sobre redes de transporte.

Directrices técnicas para los metadatos de Inspire

(Inspire technical guidelines for metadata)

Directrices técnicas para metadatos, con los elementos mínimos a incluir definidos en el Reglamento 1205/2008 de la Comisión.

  • Datos geoespaciales
  • Datos de Observación de la Tierra y medioambientales
  • Datos meteorológicos
  • Datos sobre redes de transporte.

Geo-DCATAP

Extensión del perfil de aplicación DCAT para describir conjuntos de datos geoespaciales.

  • Datos geoespaciales

Core Location Vocabulary

Modelo de datos simplificado que incluye las características fundamentales de una ubicación, representada como una dirección o nombre geográfico, o a través de geometría.

  • Datos geoespaciales

General Multilingual Environmental Thesaurus (GEMET).

Vocabulario controlado especializado en información medioambiental. Dispone de una sección de conceptos ligados con las categorías de datos espaciales incluidas en Inspire.

  • Datos geoespaciales
  • Datos de Observación de la Tierra
  • Datos sobre redes de transporte.

Semantic Sensor Network

Recomendación del W3C para describir los sensores y sus observaciones.

  • Datos meteorológicos

Quantity, unit, dimension and type (QUDT).

Conjunto de ontologías que definen clases básicas, propiedades y restricciones utilizadas para modelar magnitudes físicas, unidades de medida y sus dimensiones en diversos sistemas de medición.

  • Datos meteorológicos

Lista de clasificaciones estadísticas de Eurostat

Clasificaciones estadísticas mantenidas por Eurostat, disponibles como Linked Open Data en XKOS, la extensión de SKOS para modelar clasificaciones estadísticas. Se presentan por familia de clasificación, categorizadas por ámbito estadístico y subdominios (por ejemplo, NACE para la actividad económica, la cual describiremos más adelante).

  • Datos estadísticos

Listas de códigos estándar de Eurostat

Conjuntos predefinidos y organizados de elementos que presentan conceptos estadísticos mediante códigos únicos

  • Datos estadísticos

Statistical Data and Metadata eXchange (SDMX)

Iniciativa mundial para normalizar y armonizar el intercambio de datos y metadatos estadísticos. Ofrece normas técnicas (el modelo de información SDMX), directrices, una arquitectura informática, herramientas y una serie de tutoriales para ayudar a los usuarios.

  • Datos estadísticos

RDF Data Cube Vocabulary

Ontología para describir datos multidimensionales, como las estadísticas, que se basa en el núcleo del modelo de información SDMX 2.0.

  • Datos estadísticos

Core Business Vocabulary

Mencionado por el propio reglamento, consiste en un modelo de datos simplificado que captura las características fundamentales de una entidad jurídica, como su nombre legal, actividad o dirección.

  • Registros empresariales

Código NACE

Códigos para la clasificación de actividades económicas en la Unión Europea. Su revisión NACE 2 fue publicada por la Comisión Europea en octubre de 2022

  • Registros empresariales

Organization ontology

Ontología del W3C para apoyar la publicación de datos enlazados relativos a información organizativa, es decir, proporciona una serie de formas de representar la relación entre las personas y las organizaciones, junto con la estructura de información interna de una organización.

  • Registros empresariales

Global Legal Entity Identifier Foundation

Base de datos centralizada con información sobre las personas jurídicas que participan en los mercados financieros mundiales. Asigna a cada entidad un código único de Identificador de Personas Jurídicas (Legal Entity Identifier o LEI) reconocido a escala mundial.

  • Registros empresariales

Taxonomía NST

Sistema de clasificación para las mercancías transportadas a través de carretera, ferrocarril, vías navegables interiores y mar. Tiene en cuenta la actividad económica asociada al origen de las mercancías.

  • Datos sobre redes de transporte.

Tabla de autoridades de "Transport service"

Lista de códigos de los distintos tipos de servicios de transporte facilitada por la sección de Vocabularios de la UE.

  • Datos sobre redes de transporte.

 

Fuente: Report on Data Homogenisation for High-value Datasets

El informe también menciona algunos modelos a utilizar en el ámbito de ciudades inteligentes, como  Smart Data Models y la española Ciudades Abiertas.

  1. La aplicación de dichos modelos. El último paso es la armonización real de los datos. Una vez seleccionados los modelos a utilizar, es el momento de aplicarlos. En esta fase se realizarán los procesos de conversión necesarios para proporcionar los datos en los formatos adecuados y con metadatos de calidad unificados. La forma de aplicar estas transformaciones variará en función del resultado final previsto. Por ejemplo, puede consistir en transformar datos tabulares (valores separados por comas o CSV, Excel, bases de datos relacionales, etc.) en otras fuentes de datos también tabulares pero que sigan la estructura proporcionada en los modelos de datos comunes. También se puede ir más allá y transformarlos en representaciones basadas en árboles (como JSON) o en RDF de acuerdo con las ontologías y vocabularios controlados que se seleccionen.

Conclusiones del informe

El informe finaliza con una serie de conclusiones y recomendaciones. Todavía existen retos en torno a la identificación de los HVD y la aplicación del Reglamento de ejecución en todos los países europeos, sobre todo a la hora de concienciar y difundir sobre su importancia. En las categorías de HVD en las que existen grandes iniciativas de armonización de datos, como Inspire sobre datos geoespaciales o Eurostat sobre HVD estadísticos, podemos encontrar una mayor cantidad de datos disponibles de manera interoperable y armonizada. Por el contrario, en las categorías en las que no existe una iniciativa adoptada de forma mayoritaria, como las empresas y la propiedad de las empresas, aún queda camino por recorrer para aplicar el reglamento.

Las recomendaciones que plantea el informe del Portal Europeo de Datos ayudan a configurar una hoja de ruta para publicar los conjuntos de datos de alto valor en cada una de las categorías definidas por la Comisión Europea. Un reto que las administraciones deberán abordar durante 2024 y que facilitará la reutilización de la información pública.