Entrevista a Alberto González Yanes, Jefe de Servicio de Estadísticas Económicas del Instituto Canario de Estadística (ISTAC)

Fecha: 19-10-2022

Nombre: Alberto González Yanes

Sector: Ciencia y tecnología

Organismo, Institución o Empresa: Servicio de Estadísticas Económicas del Instituto Canario de Estadística

País: España

Imagen entrevista Alberto Gonzalez, ISTAC

El Instituto Canario de Estadística (ISTAC) es el órgano central del sistema estadístico autonómico y centro oficial de investigación del Gobierno de Canarias. Se encarga de proporcionar información estadística de interés relativa a la comunidad autónoma, atendiendo a las singularidades del territorio. Además, coordina la actividad estadística pública, facilitando su promoción y gestión.

Alberto González Yanes, Jefe de Servicio de Estadísticas Económicas del ISTAC ha hablado con datos.gob.es para contarnos cómo trabajan y cuál es el impacto de los datos que atesoran.  

Entrevista completa:

1. Los datos estadísticos están considerados datos de alto valor por la UE. Además, la propia ONU ha resaltado la importancia de contar con iniciativas que generen datos enfocados en las realidades locales. ¿Por qué considera que son tan valiosos este tipo de datos? ¿Cuál es su potencial impacto?

Respecto a la importancia de los datos estadísticos, hemos de tener en cuenta una cuestión no muy conocida: generan deberes y derechos de la ciudadanía, pero también de los Estados. Por ejemplo, ahora mismo lo estamos viendo con el IPC, que conlleva el deber de pagar más de alquiler y, a su vez, el derecho a obtener un salario mayor.

Además, son instrumentos de los que se dotan los Estados para poder conocer la realidad de forma objetiva e independiente. Es importante resaltar este rol de la estadística pública frente a cualquier papel diferente de otros datos públicos, que no tienen el mismo valor desde el punto de vista que nos ocupa. No en vano, la estadística pública aparece en todo el bloque constitucional, desde la propia carta magna (con artículo propio), hasta los diferentes Estatutos de Autonomía. Nuestra legislación constituye órganos independientes para la elaboración de los datos estadísticos y lo hace mediante un modelo que podríamos considerar federal, en el que existen, al menos, dieciocho sistemas, uno con fines estatales y diecisiete para fines autonómicos y locales.

La descentralización es un elemento importantísimo porque permite el apoyo a la toma de decisiones basadas en datos en cada territorio, mientras que la producción estatal solamente llega, en el mejor de los casos, a una escala provincial. Si queremos una sociedad que genere derechos y deberes en los ámbitos autonómico, provincial, insular, municipal, incluso submunicipal, es imprescindible sustentarlos en datos locales fiables.

Con respecto a su impacto, tenemos un ejemplo actual y muy significativo. Desde el ISTAC, acabamos de publicar la Estadística de Población Activa Registrada (EPA-Reg), que produce datos de población activa a escala submunicipal. Ello supone un salto cualitativo respecto a la EPA, que solamente alcanza un nivel provincial o, como mucho, insular para algunos indicadores exigidos por Eurostat y elaborados por el Instituto bajo acuerdo con el INE.

La descentralización es un elemento importantísimo porque permite el apoyo a la toma de decisiones basadas en datos en cada territorio.

En EPA-Reg construimos indicadores aproximados a los conceptos que ofrece la Organización Internacional del Trabajo a la hora de medir la población y su relación con la actividad económica. De este modo, se facilita información de cada barrio y de cada pueblo del Archipiélago. Y, sin duda, los Agentes de Desarrollo Local, las Concejalías de Empleo y el propio Servicio Canario de Empleo necesitan esos datos para tomar decisiones y realizar una mejor intervención a pequeña escala.

2. El ISTAC genera gran cantidad de datos estadísticos desde hace más de 30 años. ¿Cómo fue el proceso de incorporar la filosofía del open data a su actividad diaria? ¿Qué retos se encontraron y cómo los solventaron?

La apertura de datos tiene dos elementos clave: por una parte, la puesta a disposición pública de datos y, por otro lado, el modo de presentarlos en un formato abierto, fácilmente reutilizable por terceros.

Respecto al primer aspecto, la apertura de datos está en los genes de la estadística pública a escala internacional. Toda la legislación estadística contempla la obligatoriedad de publicar datos: el Reglamento Europeo de Estadística, la Ley 12/89 de la Función Estadística Pública o la Ley 1/91 de Estadística Pública de la Comunidad Autónoma de Canarias, en lo que compete al ISTAC. Pero difundir los datos es mucho más que una obligación, es la razón de ser de la estadística. Además, ha de hacerse de forma igualitaria, planificada en el tiempo, con un calendario conocido previamente para garantizar a la ciudadanía transparencia y confianza, así como la seguridad de poder usar esos resultados para la toma de decisiones.

Otro asunto distinto es el de los formatos en los que se venían publicando esos datos, que muchas veces eran cerrados: PDF, Excel y otros muchos. Es cierto que las oficinas estadísticas estamos acostumbradas a trabajar con una ingente cantidad de datos y eso implica, necesariamente, el metadocumentarlos para intentar gestionarlos adecuadamente. Pero una buena gestión no implica que toda esa información tenga que estar en abierto.

Queremos facilitar la información que tenemos, así que la normalización semántica nace desde el principio, todos los conjuntos de datos están bien estructurados para que puedan ser reutilizables.

Hay que tener en cuenta que los primeros reutilizadores de los datos que publicamos éramos y seguimos siendo nosotros mismos. Muchas veces, los departamentos del gobierno, el propio ISTAC, sufríamos por los cambios de formato o, por ejemplo, por tener que rescatar información de un pdf no editable, algo insostenible. Así que, en la práctica e, incluso, desde una perspectiva egocéntrica, se nos hizo evidente la necesidad de tener formatos abiertos para una mejor gestión de datos.

Y, mientras estábamos en ese proceso, subió a la palestra internacional la apertura de datos, el open data, lo que casaba muy bien con el momento en el que estaba el ISTAC, por lo que se decidió avanzar por ese camino. De igual modo que nosotros necesitábamos tener buenos formatos y una óptima organización de toda la información, debíamos ofrecer las mismas ventajas a los usuarios finales, a la ciudadanía. Por tanto, desde un principio, en la redefinición de toda la estrategia de difusión del Instituto, se planteó esa necesidad que enlazaba estupendamente con toda la cultura open data.

Y así, alrededor de 2008, planteamos todo un sistema de gestión de datos públicos que permitiese una buena gestión de metadatos, lo que nos ha llevado, por ejemplo, a tener 85 metadatos por cada dataset, de los que solamente una parte se difunden externamente. Del mismo modo, en aquella etapa comenzamos a metadocumentar estructuralmente los conjuntos de datos, con una primera aproximación semántica (clasificaciones, códigos, conceptos, etc). Esa fue la génesis y, con el tiempo, a través de diferentes proyectos hemos logrado que la cultura de la apertura de datos esté incorporada desde el diseño, desde que el producto estadístico se está pensando hasta que se difunde. Queremos facilitar la información que tenemos, así que la normalización semántica nace desde el principio, todos los conjuntos de datos están bien estructurados para que puedan ser reutilizables y se está pensando siempre en cómo va a ser la difusión para facilitar, no solamente la accesibilidad, sino también la usabilidad por terceras partes.Los principales retos, inicialmente (2005 - 2006), fueron los internos y los tecnológicos. No teníamos una cultura organizacional de gestión de datos ni de metadocumentación estandarizada. Tampoco había en el mercado suficientes estándares ni aplicaciones que nos permitieran abordar el problema. Así que lo que hicimos, a través de diversos proyectos, varios de ellos con financiación europea, fue montar toda una infraestructura de datos con diferentes tecnologías. Durante esa fase, nos dotamos de estándares internos, acogiéndonos a los internacionales como el SDMX (Statistical Data and Metadata eXchange) o DCAT-AP, entre otros.  Con todo, fuimos cocinando y construyendo el caminito que teníamos que transitar, lo que nos ha llevado a tener actualmente un sistema de gestión de datos muy potente.

3. ¿Cómo es el proceso de gobernanza de sus datos abiertos? ¿Con qué tipo de perfiles cuentan en el equipo?

Somos algo así como una fábrica de datos, que recorre todo su ciclo de vida: captura, procesamiento, es decir, depuración, limpieza, imputación, integración, georreferenciación, generación de información a escala de microdatos, anonimización, generación de datos de todo tipo (no solamente datos agregados en cubos, sino también en cuadro de mandos, en tableros, en información geográfica…). Por tanto, cubrimos todo el espectro de negocio dentro de la gobernanza de datos que, como decía antes, desde el principio hasta el final está atravesada por la cultura de la apertura de datos. Sabemos que lo que estamos produciendo es para ponerlo a disposición de la ciudadanía. Así que tenemos muchos tipos de perfiles dentro de la organización:

  • Encuestadores/as, cuya labor, la de todo el personal que está en el trabajo de campo, es muy importante aunque no siempre lo resaltemos.
  • Perfiles tradicionales de técnicos estadísticos.
  • Los que se han ido incorporando en los últimos tiempos, vinculados a la arquitectura de datos, ingeniería de datos, ciencia de datos y especialistas en sistemas de información geográfica.
  • Y, recientemente, estamos incorporando profesionales vinculados a la comunicación de datos porque tenemos una ingente producción y difusión de datos, pero queremos avanzar en un aspecto fundamental, que es la divulgación. La ciudadanía tiene el derecho, no solamente de acceder, sino también de comprender la información que producimos, por lo que hace falta una importante labor en ese sentido.

4. Desde el ISTAC están haciendo una apuesta potente por facilitar el acceso automatizado a los datos mediante APIs. ¿Qué impacto está teniendo esta estrategia en términos de reutilización de los datos? ¿Considera que el acceso vía API en combinación con la descarga de archivos de datos es el camino a seguir por publicadores de datos estadísticos o una de las dos alternativas es la preferente para el tipo de usuario que consume esta categoría de datos?

Con respecto al uso de API, desde el principio, desde que comenzamos a plantear nuestra estructura tecnológica de datos, allá por el 2008, incluso antes de que estuviesen contempladas en la actual Directiva de Reutilización, decidimos que toda nuestra información estuviera sostenida sobre un ecosistema de API. Y así es, tenemos unas ocho API públicas, con diferentes métodos, y vamos a seguir ampliándolas. Creemos tanto en este tipo de estrategia que nuestras propias aplicaciones son usuarias de nuestras API. Eso quiere decir que no ponemos API paralelas a los sistemas para que sean consumidas por el público, sino que nuestros sistemas son también consumidores de esas API. Eso es un elemento importante, porque al ser tú el primer reutilizador de tus API, te permite descubrir las limitaciones y los problemas de todo tipo que pueden aparecer a la hora de difundir los datos a través de ellas.

Con respecto al impacto, detectamos que no es suficiente poner a disposición de la ciudadanía API. Muchas veces una parte de las personas que acceden trabajan sobre cierto tipo de aplicaciones de analítica de datos como Tableau, PowerBI, QGIS, QLIK u otras comerciales o no comerciales. Así que nos planteamos, una vez que ya habíamos puesto a disposición las API, incluir conectores para todo ese tipo de aplicaciones que facilitasen la traslación de los datos a esos sistemas de analítica de datos.

El impacto de dicha instrumentación ha sido bastante potente porque ha facilitado, a las administraciones y a empresas privadas, la fácil reutilización de la información publicada vía API. Así, podemos encontrar muchísimos cuadros de mando por toda la geografía canaria que están utilizando esos conectores, especialmente vinculados al ámbito turístico. En cuanto a entidades locales, por ejemplo, el Observatorio Socioeconómico del Ayuntamiento de Santa Cruz de Tenerife tiene un tablero en Tableau que se actualiza con nuestras API, con todos los indicadores municipales. Igualmente, hay diferentes experiencias en el sector privado. Creemos que el ecosistema de API más conectores, ese tándem, está teniendo un impacto importante para democratizar el acceso a los datos del ISTAC por parte de terceros, principalmente para el propio sector público.

Una vez que ya habíamos puesto a disposición las API, nos planteamos incluir conectores para todo ese tipo de aplicaciones que facilitasen la traslación de los datos a esos sistemas de analítica de datos.

En general, no entramos en el dilema de si es mejor la descarga de ficheros que el uso de API. Para el ISTAC, la propia descarga es un método de la API, ya que se puede consultar en caliente cualquier dataset o solicitar su descarga. La cuestión no es tanto el método sino la lógica de necesidad. Por ejemplo, cuando tenemos los ficheros de microdatos de una encuesta, ¿tiene sentido servirlo por API? Está servido, pero lo lógico no es consumirlo por esa vía sino como descarga, para subirlo después a los entornos en los que vayan a hacerse los análisis de estos microdatos. Al respecto, tenemos en nuestra hoja de ruta incorporar sistemas bulk, sistemas masivos de descarga automática de todos los dataset vinculados a una determinada solicitud.

5. Además de la API, en su plataforma de datos abiertos cuentan con diversos tipos de herramientas de consulta que facilitan el acceso y uso de los datos. ¿Qué puede contarnos sobre ellas?   

Como comentamos anteriormente, nuestro objetivo final es difundir datos. Pero esta misión no concluye cuando incluimos en un catálogo de datos todos los dataset con los que contemos, sino cuando facilitamos a la ciudadanía un primer acercamiento de consulta sencilla a esos resultados. En este sentido, tenemos diferentes visualizadores que lo posibilitan. Disponemos de un visualizador general que permite explorar cualquier tipo de dataset y visualizadores más específicos: el de los indicadores de ODS, el del Sistema de Información Electoral, el Atlas Estadístico de Canarias o las Fichas de Datos Municipales. Para nosotros era y sigue siendo importante contar con un conjunto de instrumentos generalistas o especializados para la población que no es usuaria habitual de sistemas de analítica de datos. Se trata de herramientas sencillas, pero algo más que simples visualizadores de tablas, con las que puedan acceder a un dataset y consultar los más importantes descubrimientos que surgen de ese conjunto de datos.

6. ¿Realizan algún tipo de monitorización del uso de los datos? ¿Tienen identificado algún caso de uso concreto?

En la planificación de la nueva web del ISTAC hay toda una estrategia de monitorización de uso de datos, al menos, en tres niveles:

  • La del uso de nuestras API que, actualmente, no están monitorizadas. Este sería el primer elemento porque, como ya señalamos, todo lo que va a consumirse será mediante API.
  • La analítica web tradicional, de consulta de cada una de las páginas.
  • La interacción ciudadana con nuestras aplicaciones para poder hacer análisis de usabilidad en caliente, de tal manera que podamos distinguir cómo utiliza la ciudadanía el sistema del ISTAC, y a partir de ahí, tomar decisiones de mejora en ese ámbito o implantar un sistema de recomendaciones.

7. ¿Cuáles son los planes de futuro del ISTAC en materia de datos abiertos y reutilización?

Respecto a los planes de futuro en esta materia tenemos varias líneas de trabajo. Una primera, muy importante para nosotros es la cooperación con el ecosistema de datos del Gobierno de Canarias. De este modo se está configurando un modelo de gobernanza de datos, que es de carácter federado y cooperativo, en la que participamos cuatro Departamentos del Gobierno de Canarias: la Dirección General de Modernización y Calidad de los Servicios, la Dirección General de Telecomunicaciones y Nuevas Tecnologías, la Dirección General de Transparencia y Participación Ciudadana, y el ISTAC.

En materia de datos abiertos es fundamental la coparticipación con las Direcciones Generales de Transparencia y de Telecomunicaciones. Ello nos ha llevado a hacer un acompañamiento en la normalización semántica de datos para la apertura del portal de Canarias. Pero el proceso va a más, estamos iniciando la asistencia y la puesta en producción a escala interna de todo el ecosistema de API de normalización semántica, para que los conjuntos de datos que se gestionan dentro del Gobierno de Canarias usen la misma, en cumplimiento del Esquema Nacional de Interoperabilidad, que en su artículo 10 establece que las clasificaciones y los conceptos que se utilicen por parte de los proyectos administrativos tengan como referencia los conceptos y clasificaciones aportados por el sistema estadístico. Para nosotros es importante porque conlleva trabajar ya, desde el origen, una buena gestión de la calidad semántica de los datos para su posterior apertura. Es un plan de futuro potente para intentar tener una mejor calidad de datos.

Estamos trabajando intensamente en la mejora de la web, en generar una nueva dirigida a facilitar el entendimiento de la información estadística por la ciudadanía.

También estamos trabajando en otros elementos reseñables: por una parte, vamos a poner en el Catálogo de Datos Abiertos todas las clasificaciones y conceptos que utilizamos, en formato reutilizable, para que cualquier persona pueda beneficiarse de esa posibilidad. Y, por otro lado, vamos a abrir nuevas API, entre ellas una muy importante que es la que utilizamos para la georreferenciación estadística, de tal modo que cualquier información podrá ser georreferenciada por terceros con la calidad que tiene el ISTAC.

A su vez, estamos trabajando intensamente en la mejora de la web, en generar una nueva dirigida a facilitar el entendimiento de la información estadística por la ciudadanía, más allá de difundir un catálogo de datos como hemos hecho hasta ahora. Así, por ejemplo, incluiremos problemas o debates que estén planteándose a escala pública y los correspondientes descubrimientos basados en datos que podamos aportar. Por poner un caso, ahora mismo está debatiéndose si en Canarias tenemos o no superpoblación. Ahí la estadística pública tiene mucho que decir, pero hay que plantearlo de tal manera que sea fácilmente entendible. Para ello, estamos realizando una importante inversión, tanto en la tecnología de la web, como en la base para la comunicación clara de la información estadística.