Entrevista a Manuel Gertrudix y Juan Jesús Alcolea, Proyecto UniversiDATA-Lab

Fecha: 13-08-2021

Nombre: Manuel Gertrudix y Juan Jesús Alcolea

Sector: Ciencia y tecnología

Organismo, Institución o Empresa: Proyecto UniversiDATA-Lab

País: España

UniversiDATALab

El primer premio de nuestro III Desafío Aporta ha sido para UniversiData-Lab, un portal público para el análisis avanzado y automático de los datasets publicados por las universidades. Se trata de un proyecto complementario a UniversiData: mientras que el objetivo de UniversiDATA es facilitar el acceso a conjuntos de datos universitarios de alta calidad y con formatos y criterios estándar, el objetivo de UniversiDATA-Lab es poner en valor esos datasets, llevando a cabo análisis avanzados y automáticos de los mismos, aprovechando la homogeneidad del contenido.  

Hablamos con dos de sus creadores: Manuel Gertrudix y Juan Jesús Alcolea.

Entrevista completa:

1 ¿En qué consiste su proyecto?

UniversiDATA-Lab es una iniciativa público-privada, en la que participan, además de la empresa Dimetrical, seis universidades públicas, en este momento, la Universidad Rey Juan Carlos, la Universidad Complutense de Madrid, la Universidad Autónoma de Madrid y también se han incorporado la Universidad Carlos III, la Universidad de Valladolid y muy recientemente, este próximo viernes, tenemos la oportunidad de se que incorpore la Universidad de Huelva.

Es una iniciativa que, sobre todo, lo que trata es de valorizar el enorme potencial que tienen los datos que se publican en UniversiDATA, una iniciativa que provee multitud de dataset sobre la actividad de las universidades en sus múltiples ámbitos de trabajo y que va a permitir de una forma absolutamente novedosa presentar de una manera dinámica informes, consultar los datos que publicamos a través de esta iniciativa, ofreciendo una posibilidad tanto a la ciudadanía y a la propia comunidad universitaria, de comprobar cómo esa información es comparable entre universidades y, sobre todo, contribuir decisivamente a la rendición de cuentas ya a la publicación de información fácil y accesible para la ciudadanía.

2 ¿Qué mejoras aporta su proyecto, basado en datos abiertos, al sector educativo?

Yo creo que UniversiDATA-Lab aporta en dos ámbitos fundamentalmente. El primero es que yo creo que contribuye a completar la cadena de valor del dato que han iniciado las universidades abriendo esta ingente cantidad de datos. UniversiDATA-Lab procesa toda esa información, procesa todos esos datos, los convierte en información. Esa información es presentada al usuario correspondiente, que idealmente se convierte en conocimiento y ese conocimiento idealmente en una acción que modifica la realidad para bien. Esa es la cadena de valor del dato y esa es la idea que tenemos en UniversiDATA-Lab, poder facilitar toda esa cadena de valor del dato a los usuarios. ¿Quién está interesado en este tipo de resultados? Cualquier persona que pertenezca a la comunidad universitaria, desde la capa de gestión hasta los propios estudiantes o cualquier persona, cualquier ciudadano que esté remotamente relacionado con la universidad superior. Yo creo que encontrará algo de interés en UniversiDATA-Lab.

Por otra parte, creemos y queremos hacer también una labor didáctica en este tipo de análisis, porque no solo mostramos qué se puede hacer sino cómo se está haciendo, ya que, evidentemente, las fuentes de datos son públicas pero también, el código de los propios análisis los vamos a hacer públicos, de tal forma que todo el mundo pueda ver cómo están implementados y esperamos también tener un efecto facilitador para que otros colectivos, otras personas, puedan hacer análisis similares a los que presentamos.

¿Quién está interesado en este tipo de resultados? Cualquier persona que pertenezca a la comunidad universitaria, desde la capa de gestión hasta los propios estudiantes o cualquier persona, cualquier ciudadano que esté remotamente relacionado con la universidad superior. Yo creo que encontrará algo de interés en UniversiDATA-Lab.

3. ¿Cómo ha sido su experiencia en el Desafío Aporta?

Creo que el Desafío Aporta, sin duda alguna, es un ejemplo de iniciativas que estimulan la acción, en este caso, del conjunto de las administraciones públicas para incentivar algo que creo que es fundamental, que es cómo contribuir a la apertura de datos, a la gestión de información pública, a hacernos comparables y medibles, en este caso, entre universidades… Y sin duda alguna, este tipo de iniciativas, promovidas y que son un claro ejemplo del impulso que, durante muchos años, viene desarrollando tanto la iniciativa Aporta, a través de Red.es, como desde el propio ministerio, supone para nosotros, para el conjunto de las universidades públicas que participamos en UniversiDATA-Lab, pero también, como no puede ser de otra forma, para el conjunto de nuestra comunidad universitaria, un estímulo para seguir trabajando en lo que es importante, que es ofrecer información abierta, contribuir a ese ecosistema de datos abiertos y, sobre todo, hacer que esa información sea reutilizable, y que genere valor añadido, para que no solamente las instituciones, sino en general el sector infomediario y la propia comunidad de reutilización, puedan ayudarnos a descubrir nuevas potencialidades de estos datos.

Quiero agradecer sinceramente también, no solamente a la organización del Desafío, sino al resto de compañeros de propuestas que hemos tenido la oportunidad de conocer en este Desafío Aporta relacionado con la educación porque, sinceramente creo que el nivel ha sido altísimo, creo que muestra el vigor y la vigencia de iniciativas como esta. Así que, para nosotros ha sido un verdadero placer poder contribuir a esta propuesta y a esta iniciativa este año.

4. ¿Qué retos ha encontrado a la hora de reutilizar información pública y cómo los ha solventado?

Yo clasificaría los retos en dos tipologías. Por un lado retos puramente técnicos y por otro lado retos más funcionales. Dentro de los retos técnicos, el primero que nos encontramos tenía que ver con el volumen de los datasets. Algunos de los datasets, puesto que se está publicando información al máximo nivel de detalle, son muy voluminosos, son millones de datos, y eso planteaba algún problema desde el punto de vista de las transferencias de datos y el retraso que eso podía implicar a la hora de un análisis ágil. Bueno, eso se solucionó aplicando unas políticas de caché bastante eficientes y quedó resuelto. 

El otro reto, y este es muy importante, es que precisamente porque las universidades decidieron publicar la información al máximo nivel de detalle, tuvieron también que publicarla de manera anonimizada. Para proteger los derechos de los individuos que aparecen recogidos. Esto es fabuloso desde el punto de vista de la reutilización, es una demanda de los reutilizadores de largo tiempo, que la información se publique al máximo nivel de detalle, pero claro, hay que pagar un precio y el precio se paga en este caso en forma de complejidad. Analizar, procesar un dataset anonimizado no es tan sencillo como procesar un dataset agregado, contiene muchos más datos, mucha más información, pero también hay que conocer muy bien las implicaciones de los procesos de anonimización para que los análisis sean correctos. Por tanto el reto es ahí leer mucha documentación y enterarse muy bien de cómo están implementados esos procesos de anonimización de tal forma que conozcamos la implicaciones y el análisis que hagamos sea correcto y respetuoso con los procesos que están implícitos en esa publicación de datos.

Analizar, procesar un dataset anonimizado no es tan sencillo como procesar un dataset agregado, contiene muchos más datos, mucha más información, pero también hay que conocer muy bien las implicaciones de los procesos de anonimización para que los análisis sean correctos.

Desde el punto de vista funcional, yo creo que la principal fuente de complejidad está asociada a la propia complejidad del dominio en sí, es decir, la gestión universitaria es un dominio bastante complejo. A pesar de que los datos que se publican en UniversiDATA-Lab son datos perfectamente armonizados, con formatos compartidos y consensuados, con semánticas compartidas y consensuadas, nos hemos encontrado con pequeñas diferencias a la hora de representar determinadas realidades administrativas entre distintas universidades. Esas diferencias se detectan en el momento de preprocesamiento de datos, se habla con las universidades, se explican las realidades que hay detrás y lo que implica desde el punto de vista del análisis es que tenemos que hacer algunos ajustes previos en determinados casos y en determinadas universidades.

Por otro lado, y esto ya no es específico de los datos de universidad, sino de cualquier dataset, no siempre están todos los datos que uno querría tener o no están con la precisión que a uno le gustaría que estuvieran. El hecho de que un dataset recoja un determinado tipo de dato en concreto, no quiere decir que venga siempre informado, o no quiere decir que venga siempre informado con una precisión que a veces es necesaria. En este caso lo que hemos tenido que hacer es identificar esos casos e introducir en el análisis la incertidumbre que se deriva de la ausencia de determinados datos o de la imprecisión de determinados datos.