Open Data

 Open Data

 

Open Data es uno de los pilares de la Ciencia Abierta, es el movimiento global digital que permite el acceso libre a los datos de investigación, abiertos a todos los ciudadanos, en formatos que faciliten:

  • la reutilización para cualquier fin,
  • la replicabilidad de la investigación -posibilidad de duplicar los resultados de un estudio si se siguen los mismos procedimientos, pero se recopilan nuevos datos-
  • la reproducibilidad de la investigación -capacidad de duplicar los resultados de un estudio con los mismos materiales del investigador original-.

 De esta manera se accede a los datos que sustentan una investigación, al proceso de registro reconocido por la comunidad científica, a los datos que sirven para certificar los resultados de una investigación, salvo legítimas excepciones o cuando proceda con un proceso de anonimizar datos sensibles, en definitiva, el acceso a datos de investigación con el objetivo de que se puedan usar, reutilizar y distribuir.

Esta iniciativa mundial que promueve el acceso abierto a los datos de investigación se engloba en un proceso más amplio que afecta también a los datos generados por los gobiernos y las administraciones públicas, - como el portal de datos abiertos del gobierno de España-, para aportar transparencia a la gestión, favorecer la participación ciudadana, la innovación ypara generar riqueza y bienestar.

Vinculado al concepto de Open Data para favorecer la confluencia entre transparencia y reutilización de los datos tenemos las tecnologías de la web semántica y el Linked Open Data con los estándares que permiten la descripción de recursos, datos y metadatos que permiten el acceso a datos abiertos enlazados provenientes de diversas fuentes e instituciones. Se trata de integrar todas las partes y procesos que intervienen en la producción, comunicación y preservación de los resultados de la investigación financiada con fondos públicos.

Los datos de investigación son aquellos materiales generados y registrados en los que se sustenta una investigación. Los conjuntos de datos -datasets y otros materiales complementarios- pueden ser de muchas clases, numéricos, descriptivos, visuales, de tipo experimental, observacionales y computacionales, disponibles en estado bruto o sometidos a algún proceso de análisis.

Para que los datos científicos sean publicables y estén disponibles deben seguir los principios FAIR que fueron reseñados en la revista Scientific Data de Nature (2016) e incorporados al programa Horizonte 2020 de la Unión Europea en Guidelines on FAIR Data Management in Horizonte 2020 (2016):

  • Findable (Localizables): que se puedan encontrar los datos y los metadatos después de su publicación mediante herramientas de búsqueda, esto es, recuperables con identificadores persistentes.
  • Accessible (Accesibles): que los datos y metadatos cumplan los estándares de accesibilidad y puedan ser descargados por otros investigadores utilizando sus identificadores.
  • Interoperable (Interoperables): que los datos y metadatos sean descritos según estándares abiertos y normalizados que permitan el intercambio y la reutilización.
  • Reusable (Reutilizables): que los datos y metadatos puedan ser utilizados por otros investigadores, que quede clara la procedencia, los derechos y permisos de licencias, con las condiciones de reutilización.

En el actual programa Horizonte Europa (2021-2027) contamos con el portal europeo para datos https://data.europa.eu/

FAIR

FAIR-Aware es una herramienta en línea que ayuda a los investigadores e investigadoras y al personal que administra los datos de investigación a evaluar los requisitos necesarios para hacer que los conjuntos de datos cumplan los principios de que sean localizables, accesibles, interoperables y reutilizables (FAIR) antes de cargarlos en un repositorio.

Además, según EOSC los datos de investigación tienen que ser:

  • Reliable (De confianza): que los datos y metadatos procedan de una fuente certificada, segura y que ofrezca garantías.
  • Reproducible (Reproducible): que los datos y metadatos se puedan convertir en estándares.

EUROPA

Toda la información sobre investigación, innovación y desarrollo en la Unión Europea están accesibles en CORDIS que es el Servicio de Información Comunitario sobre Investigación y Desarrollo.

CORDIS

Horizonte Europa (2021-2017) es el sucesor de Horizonte 2020 continúa con las obligaciones de los beneficiarios de proyectos de investigación en relación con la publicación y gestión de los datos de investigación -datasets- y sus metadatos de los proyectos financiados con cargo a dicho programa. Establece el acceso abierto a los datos de investigación según el principio “tan abierto como sea posible y tan cerrado como sea necesario”.  Los beneficiarios están obligados a:

  • Elaborar un Plan de Gestión de Datos (PGD) de los proyectos de investigación.
  • Cumplir los requisitos FAIRFindable, Accessible, Interoperable, and Reusable.
  • Depositar los conjuntos de datos en algún repositorio de datos de investigación.
  • Se permitirá el acceso, difusión y explotación de los datos mediante licencias abiertas, preferiblemente Creative Commons o equivalentes, debiendo especificar qué herramientas son necesarias para usar los datos. Se establece un periodo máximo de embargo de 12 meses.

Se crea OPEN RESEARCH EUROPE (ORE), una plataforma de publicación en acceso abierto disponible para los beneficiarios de los programas H2020 y Horizonte Europa.

Y se amplía la infraestructura OPENAIRE para la publicación de datos de investigación para impulsar la Ciencia Abierta con el objetivo de hacer que todos los resultados de las investigaciones financiadas con fondos públicos sean accesibles en formato digital.

ESPAÑA

El Plan Estatal de Investigación Científica y Técnica y de Innovación (PEICTI) y la Estrategia Española de Ciencia y Tecnología y de Innovación (EECTI) 2021-2027, que gestionan las ayudas estatales de I+D+i a través de la Agencia Estatal de Investigación (AEI) establecen el acceso abierto a los resultados y a los datos de investigación de todas las actividades subvencionadas con recursos públicos. Los datos de investigación se depositarán en repositorios institucionales, nacionales y/o internacionales, en cumplimiento de lo establecido en la Ley 14/2011, de 1 de junio, de la Ciencia, la Tecnología y la Innovación, modificada por Ley 17/2022, de 5 de septiembre, en su artículo 37 sobre Ciencia Abierta.

Plan de Gestión de Datos -DMP Data Management Plan-

El Plan de Gestión de Datos (Data Management Plan) es el instrumento que facilita el control y gestión de los datos de investigación -datasets- mediante la formalización de un documento que describe el ciclo de vida de los datos recopilados, generados y procesados durante el desarrollo del proyecto de investigación, desde el momento en que se realiza la solicitud del proyecto hasta su depósito en abierto y preservación futura.

Deberá reunir los siguientes elementos:

  • Quién se responsabiliza de la custodia de los datos de investigación.
  • Tipos de datos y metadatos que se van a recoger durante la investigación.
  • Estándares para la recogida y preservación de los datos.
  • Políticas de acceso y reutilización de los datos.
  • Medidas de seguridad, propiedad intelectual, privacidad y confidencialidad.
  • Archivo y preservación de los datos.

Directrices para elaborar el Plan de Gestión de Datos (PGD)

Las directrices de la Comisión Europea para publicar datos de investigación en abierto están recogidas en el Manual del participante  de H2020 y Horizonte Europa:

 

Herramientas y plantillas para elaborar el Plan de Gestión de Datos (PGD)

Grupo G9 de universidades

GRUPO 9 DE UNIVERSIDADES, G9 Sectorial de Investigación y Bibliotecas. Ha traducido la Plantilla Básica para elaborar el Plan de Gestión de Datos: Ver plantilla PDFVer plantilla WordInstrucciones.  La Universidad de Castilla-La Mancha pertenece a este grupo.

DMP Online

DMPOnline herramienta elaborada por el Digital Curation Centre  (DCC) que permite editar y exportar los planes de gestión de datos de forma colaborativa, así como hacerles seguimiento, además de disponer de una plantilla particular para los proyectos europeos H2020. Incluye un Checklist for a Data Management Plan (versión 4.0, 2014).

argos

ARGOS es una plataforma abierta de OpenAIRE que simplifica la gestión, validación, seguimiento y mantenimiento de los Planes de Gestión de Datos, bajo los principios FAIR, de manera que sean interoperables entre diferentes sistemas.

Madroño

PGD ONLINE  es una herramienta en línea sencilla para crear el Plan de Gestión de Datos, desarrollada por el DCC y adaptada por el Consorcio Madroño de Universidades, es necesario un registro previo.

European Research Council

DMP Template Open Research Data Management Plan (DMP). European Research Council (ERC). Plantillas adaptadas a Horizonte Europa (v. 4.1, 2022)

 

Repositorios y herramientas para trabajar con datos de investigación

Zenodo

ZENODO es el repositorio europeo de acceso abierto y gratuito para compartir y depositar datos de investigación en diversos formatos. Creado por OpenAIRE y el CERN con el apoyo de la Comisión Europea con el objetivo de favorecer la Ciencia Abierta. La UCLM cuenta con una comunidad dentro de ZENODO "Universidad de Castilla-La Mancha Research Data Collection", para que los investigadores depositen los Planes de Gestión de Datos (PGD) y/o conjuntos de datos de sus investigaciones: Tutorial Zenodo. Registro y subida de datos Novedad

Registry of Research Data Repositories

Re3Data.Orgregistro de repositorios de datos de investigación es una herramienta de ciencia abierta que ofrece a los investigadores, organizaciones de financiación, bibliotecas y editores una descripción general de los repositorios internacionales existentes para datos de investigación.

Data Repository Finder

DATA REPOSITORY FINDER, versión beta, es un buscador de repositorios de datos de investigación, para encontrar el más adecuado para cada disciplina, auspiciado por el MIT.

Figshare

FIGSHARE, repositorio digital en línea de datos de ciencia abierta para que los investigadores puedan preservar, compartir los datos y resultados de la investigación haciéndolos accesibles mediante un identificador DOI que se asigna de forma automática, y de conformidad con el principio de datos abiertos.

OSF

OSF, Open Science Framework del Center for Open Science, Charlottesville, Virginia, proyecto de software gratuito de código abierto que facilita la colaboración en la investigación científica. Como herramienta de colaboración permite a los equipos trabajar en proyectos de forma privada o bien hacer que todo el proyecto sea de acceso público. Promueve proyectos de reproducibilidad de la ciencia y permite el depósito de datos en este recurso.

Datacite

DATA CITE, es una organización internacional sin fines de lucro que proporciona identificadores persistentes (DOIs) para datos de investigación y asignación de metadatos. Su objetivo es ayudar a la comunidad de investigación a localizar, identificar y citar datos de investigación.

The Dataverse Project

DATAVERSE es una aplicación web de código abierto para compartir, preservar, citar, explorar y analizar datos de investigación. Facilita que los datos estén disponibles para otros y le permite replicar el trabajo de otros más fácilmente. Los investigadores, revistas, autores de datos, editores, distribuidores de datos e instituciones afiliadas reciben crédito académico y visibilidad web.

Openrefine

OPENREFINE  es una aplicación de escritorio de código abierto para organizar datos desordenados, limpiarlos y transformarlos en otros formatos, una actividad comúnmente conocida como data wrangling.

Amnesia

AMNESIA aplicación de OpenAIRE para anonimizar datos personales en la gestión de datos de investigación.  de software que nos permitirá anonimizar nuestros datos. 

FAIRsFAIR
FAIRSFAIR F-UJI Automated FAIR Data Assessment Tool. De forma sencilla, introduciendo el DOI de los datasets, te facilita información sobre el cumplimiento de los principios FAIR.