La Unión Europea amplía las categorías a considerar datos de alto valor

Fecha de la noticia: 04-12-2023

Imagen con iconos y un ordenador que representa los datos de alto valor

El concepto de datos de alto valor (High-Value datasets) fue introducido por el Parlamento Europeo y el Consejo de la Unión Europea hace 4 años, en la Directiva (UE) 2019/1024. En ella se definían como una serie de conjuntos de datos con un gran potencial para generar “beneficios para la sociedad, el medio ambiente y la economía”. Por ello, los estados miembro debían impulsar su apertura de manera gratuita, en formatos legibles por máquinas, a través de APIs, en forma de descarga masiva y descritos de forma exhaustiva mediante metadatos.  

De manera inicial, la directiva proponía en su anexo seis categorías temáticas a considerar como de alto valor: datos geoespaciales, observación de la tierra y medioambientales, meteorológicos, estadísticos, registros empresariales y datos sobre redes de transporte. Estas categorías fueron detalladas posteriormente en un reglamento de ejecución publicado en diciembre de 2022. Además, para facilitar su apertura, en junio de 2023 se editó un documento con pautas sobre cómo usar DCAT-AP para su publicación.

Nuevas categorías de datos a considerar de alto valor 

Estas categorías iniciales siempre estuvieron abiertas a su ampliación. En este sentido, la Comisión Europea acaba de publicar el informe “Identification of data themes for the extensions of public sector High-Value Datasets” donde se incluyen siete nuevas categorías que se estudia considerar como datos de alto valor 

  • Pérdida climática: Hace referencia a los datos relacionados con los enfoques y acciones necesarios para evitar, minimizar y abordar los daños asociados al cambio climático. Ejemplos de conjuntos de datos de esta categoría son las pérdidas económicas y no económicas derivadas de los fenómenos meteorológicos extremos o los cambios de evolución lenta, como el aumento del nivel del mar o la desertificación. También incluye datos relacionados con los sistemas de alerta temprana ante desastres naturales, la repercusión de las medidas de mitigación o datos de investigación sobre la atribución de fenómenos extremos al cambio climático. 

  • Energía: Esta categoría incluye estadísticas completas sobre la producción, transporte, comercio y consumo final de fuentes de energía primarias y secundarias, tanto renovables como no renovables. Algunos ejemplos de conjuntos de datos a considerar son los indicadores de precios y consumo o la información sobre seguridad energética.  

  • Finanzas: Se trata de información sobre la situación de las empresas privadas y las administraciones públicas, que puede utilizarse para evaluar el rendimiento empresarial o la sostenibilidad económica, así como para definir estrategias de gasto e inversión. Incluye conjuntos de datos sobre registros de empresas, estados financieros, fusiones y adquisiciones, así como informes financieros anuales. 

  • Gobierno y administración pública: Esta temática incluye aquellos datos que los servicios y empresas públicas recopilan para informar y mejorar la acción de gobierno y la administración de una unidad territorial específica, ya sea un estado, una región o un municipio. Incluye datos relativos al gobierno (por ejemplo, actas de reuniones), los ciudadanos (censos o registro en los servicios públicos) y las infraestructuras gubernamentales. Estos datos se reutilizan posteriormente para fundamentar la elaboración de políticas, prestar servicios públicos, optimizar los recursos y la asignación presupuestaria, así como proporcionar información procesable y transparente a ciudadanos y empresas. 

  • Salud: Este concepto identifica los conjuntos de datos que cubren el bienestar físico, y mental de la población, haciendo referencia tanto a aspectos objetivos como subjetivos de la salud de las personas. También incluye indicadores clave sobre el funcionamiento de los sistemas de asistencia sanitaria y la seguridad en el trabajo. Algunos ejemplos son los datos relativos a la Covid-19, la equidad sanitaria o el listado de servicios prestados por los centros sanitarios. 

  • Justicia y asuntos jurídicos:  Identifica conjuntos de datos que permiten reforzar la capacidad de respuesta, la rendición de cuentas y la interoperabilidad de los sistemas judiciales de la UE, cubriendo ámbitos como la aplicación de la justicia, el sistema jurídico o la seguridad pública, es decir, aquella que garantiza la protección de los ciudadanos. Los conjuntos de datos sobre justicia y asuntos jurídicos incluyen documentación de jurisprudencia nacional o internacional, decisiones de tribunales y fiscales generales, así como actos jurídicos y su contenido. 

  • Datos lingüísticos: Hace referencia a expresiones escritas u orales que están en la base de la inteligencia artificial, el procesamiento del lenguaje natural y el desarrollo de servicios relacionados. La Comisión ofrece una definición bastante amplia de esta categoría de datos, todos ellos agrupados bajo la denominación de "datos lingüísticos multimodales". Pueden incluir repositorios de colecciones de textos, corpus de lenguas habladas, recursos de audio, o grabaciones de vídeo. 

Para realizar esta selección, los autores del informe llevaron a cabo una investigación documental, así como consultas a administraciones públicas, expertos en datos y empresas privadas mediante una serie de talleres y encuestas. Además de esta evaluación, el equipo del estudio cartografió y analizó el ecosistema normativo en torno a cada categoría, así como las iniciativas políticas relacionadas con su armonización y puesta en común, especialmente en relación con la creación de Espacios Comunes Europeos de Datos

Potencial para las PYMEs y las plataformas digitales 

Además de definir estas categorías, el estudio también ofrece una estimación de alto nivel sobre el impacto de las nuevas categorías en las pequeñas y medianas empresas, así como en las grandes plataformas digitales. Una de las conclusiones del estudio es que la relación coste-beneficio de la apertura de datos es similar en todos los nuevos temas, destacando especialmente aquellos relativos a las categorías "Finanzas" y "Gobierno y administración pública".  

Basándose en los conjuntos de datos disponibles públicamente, también se realizó una estimación del grado de madurez actual de los datos pertenecientes a las nuevas categorías, según su cobertura territorial y su grado de apertura (teniendo en cuenta si estaban abiertos en formatos leíbles por máquinas, con metadatos adecuados, etc.). Para maximizar la relación coste-beneficio global, el estudio sugiere seleccionar para cada categoría temática una aproximación distinta: en base a su nivel de madurez, se recomienda indicar un mayor o menor número de criterios obligatorios para su publicación, asegurándose así el evitar solapamientos entre los nuevos temas y con los datos de alto valor ya existentes. 

Puedes leer el estudio completo en este enlace