Revista Cartográfica 100 - Artículos - ISSN
(impresa) 0080-2085 - ISSN (en línea) 2663-3981 - enero-junio 2020: 155-172
DOI: https://doi.org/10.35424/rcarto.i100.668| Este es un artículo de acceso abierto bajo la licencia CC BY-NC-SA 4.0
Reproducibilidad
en AGILE: experiencias, logros y recomendaciones
Reproducibility
in AGILE: experiences, achievements, and recommendations
Carlos Granell*
Barbara Hoferp
Daniel Nüst·
Frank O.
Ostermann·
Rusne Sileryte¡
Recibido
3 de enero de 2020; aceptado 30 de enero de 2020
Resumen
Este artículo
describe las experiencias, actividades realizadas, recursos generados y
recomendaciones para la promoción e incentivación de prácticas en investigación
reproducible en el campo de la ciencia de la información geográfica. Aunque el
artículo se centra en la comunidad y conferencia AGILE (Association
of Geographic Information Laboratories in Europe), creemos
que los recursos y lecciones aprendidas pueden ser extrapolables a comunidades
y asociaciones científicas afines en otras regiones, como puede ser
Latinoamérica. En este sentido, hacemos especial hincapié en la descripción de
las directrices para la redacción de artículos reproducibles propuestas en el
seno de AGILE, así como en una serie de recomendaciones dirigidas
principalmente a asociaciones y organizadores de conferencias científicas para
la adopción y promoción paulatina de dichas prácticas. Se trata pues de
una llamada a la comunidad latinoaméricana de la ciencia de la información geográfica
a que consideren los recursos aquí detallados con el fin de incentivar la
investigación reproducible en sus comunidades científicas.
Palabras clave: reproducibilidad, investigación reproducible, directrices para artículos reproducibles, ciencia de la información geográfica, AGILE.
Abstract
This article describes the experiences, activities carried out,
resources generated and recommendations for the promotion of practices in
reproducible research in the field of geographic information science. Although
the article focuses on the AGILE (Association of Geographic Information
Laboratories in Europe) community and conference, we believe that the resources
and lessons learned can be extrapolated to related scientific communities and
associations in other regions, such as Latin America. In this regard, we place
special emphasis on the description of the guidelines for reproducible articles
proposed within AGILE, as well as on a series of recommendations directed
mainly to associations and organisers of scientific
conferences for the gradual adoption and promotion of these practices. It is
therefore a call to the Latin American GIScience
community to consider the resources detailed here in order to encourage
reproducible research in their scientific communities.
Key words: reproducibility, reproducible
research, guidelines for reproducible papers, GIScience,
AGILE.
Introducción
Este artículo
reflexiona sobre la aplicación en general de la investigación reproducible en
las Ciencias de la Información Geográfica y, en particular, se centra en el
caso de la conferencia internacional AGILE (https://agile-online.org/). No se trata de un artículo donde se discute la
definición del término reproducibilidad científica, y su importancia para la
ciencia moderna y nuestra comunidad investigadora. Respecto a la primera
cuestión, la definición, existe una extensa bibliografía científica al uso
(véase, por ejemplo, Barba, 2018). Respecto a la segunda, su importancia, no
podemos más que subrayar de nuevo la relevancia de la reproducibilidad como un
pilar básico de la ciencia. Otros autores también han escrito mucho sobre ello
incluyendo un reciente artículo en la Revista Cartográfica (Ballari, 2018), por lo que no vamos a incidir de nuevo en
esta cuestión, aunque sí que repasaremos brevemente algunos trabajos recientes
que se centran explícitamente en la reproducibilidad en la Ciencia de la
Información Geográfica (CIG). A estas alturas, está fuera de toda duda para el
lector que la investigación reproducible, la ciencia abierta, la
reproducibilidad computacional y replicación son imprescindibles para la buena
práctica y la integridad en la investigación y ciencia actual.
Este artículo relata la experiencia de un
pequeño grupo de investigadores en la CIG (los autores) para la promoción e
incentivación de prácticas en investigación reproducible en la comunidad AGILE.
Describimos nuestra historia, las acciones y actividades llevadas a cabo y los
logros conseguidos y nos centramos, especialmente, en uno de los recursos
generados —las directrices para artículos reproducibles—, que se ponen en
práctica por primera vez en la conferencia AGILE 2020. De ningún modo nuestra
intención es elevar nuestro ego personal con este artículo. Nuestra intención
es mucho más prosaica, regida por la simple idea de compartir experiencias y
resultados tanto positivos como negativos.
Queremos que el relato de nuestras
actividades y experiencias sirvan de ejemplo de primera mano para aquellos
lectores interesados en la investigación reproducible, que las hagan suyas y
las adapten a sus entornos. Creemos firmemente que la fórmula para incentivar
progresivamente las prácticas en investigación reproducible en una comunidad
y/o conferencia en la CIG es exportable y aplicable a otras situaciones y
regiones (Granell et al., 2018). Por ello, este artículo incluye una
serie de recomendaciones para la puesta en marcha de la investigación
reproducible, que puede aplicarse a diversos contextos, como por ejemplo dentro
de un grupo de investigación, en un departamento, o incluso a comunidades
relacionadas con la CIG de ámbito nacional o supranacional.
Si el primer objetivo es transmitir
nuestras experiencias y logros obtenidos en la comunidad AGILE, el segundo
objetivo de este artículo es una “llamada” a la comunidad CIG de América Latina
en cuanto a la investigación reproducible. En especial, creemos que América
Latina está bien posicionada para la adopción de prácticas reproducibles en la
investigación, ya que la cultura de lo abierto (acceso abierto, software
abierto, etc.) ha estado tradicionalmente bien enraizada en el mundo académico
y educativo.
A continuación, introducimos a grandes
rasgos el concepto de reproducibilidad en la investigación, citando algunos
trabajos recientes en el campo de la CIG, así como recursos docentes
relacionados. Luego, enumeramos las actividades realizadas en el marco de
nuestra iniciativa para la promoción de las buenas prácticas en investigación
reproducible tanto en la comunidad AGILE como en su conferencia anual. Uno de
los recursos generados de especial relevancia para la conferencia AGILE son las
directrices para autores para la elaboración de artículos reproducibles, que se
tratan en una sección aparte. Finalmente, terminamos el artículo con una serie
de recomendaciones, dirigidas a los distintos actores que forman parte del
proceso de investigación científica (investigadores, universidades, entidades
editoras, entidades de política científica, etc.) y que, desde su posición e
intereses particulares, pueden influir significativamente en la promoción de
hábitos y buenas prácticas en la investigación reproducible.
Breve reseña sobre la
reproducibilidad en CIG
En esta sección definimos el término reproducibilidad. Luego, indicamos algunos trabajos recientes o de especial relevancia en la aplicación o estudio de aspectos reproducibles a la CIG, que dan fe del creciente interés de la comunidad investigadora de la CIG en las prácticas reproducibles. Finalmente, a modo informativo, añadimos algunos recursos docentes que se centran en la reproducción desde la óptica de la educación y de la realización de materiales docentes. Este artículo no trata la reproducibilidad como concepto en la docencia, pero definitivamente será un aspecto clave en el futuro próximo para que la próxima generación de científicos y científicas adquieran las prácticas de investigación reproducibles como parte natural de sus actividades diarias.
Nuestro interés en
reproducibilidad se centra en las publicaciones en conferencias (como AGILE) y,
por lo tanto, nos basamos en la definición adoptada en trabajos previos (Ostermann y Granell, 2017; Nüst et
al., 2018). Otros trabajos como Stodden et al.
(2014), Barba (2018), Nüst et al. (2018) y la
colección de artículos y editoriales de Nature
(https://www.nature.com/collections/prbfkwmwvz)
abordan en detalle la literatura en cuanto a las diferentes interpretaciones
del concepto de reproducibilidad, desde disciplinas y áreas del conocimiento
científico dispares. En este trabajo, nos ceñimos a la siguiente definición:
“un documento reproducible garantiza que un revisor o lector pueda recrear el
flujo de trabajo computacional de un estudio o experimento, incluidos los
conocimientos previos y el entorno computacional. El primero implica que el
argumento científico es comprensible y sólido. El último requiere una
descripción detallada del software y los datos usados, y que ambos están
disponibles de forma abierta.” (Nüst et al., 2018: 7).
Con respecto a la literatura científica
focalizada en la reproducibilidad en la CIG, Richardson et al. (2015) ya
alertaba de las barreras a la reproducibilidad en la CIG con respecto a la
revelación de la localización y otros datos confidenciales de participantes en
un proyecto de investigación o experimento. Sin embargo, ha sido a partir de 2018
cuando la comunidad de la CIG ha puesto el ojo con mayor atención a las
prácticas de investigación reproducible. Por ejemplo, nuestro trabajo previo,
Ostermann y Granell (2017) y Nüst
et al. (2018) ya ponen el foco en la reproducción y replicación de
estudios en la CIG, bien en los datos geoespaciales generados por el usuario o
en trabajos de investigación en el marco de la conferencia AGILE,
respectivamente. El último de ellos lo trataremos en detalle en la siguiente
sección. En la línea de la reproducción de estudios que procesan datos
generados por el usuario, Cerutti et al. (2019)
examina la utilidad de los sistemas de gestión del flujo de trabajos científicos
para reproducir tres estudios que investigan las redes sociales y los incendios
forestales en Australia.
Gahegan (2019),
reflexiona sobre las dificultades de la reproducción desde el punto de la eCiencia (eScience en
inglés), donde el campo de la geo-computación es determinante, es decir, la
aplicación de análisis computacionales a casos de usos donde las dimensiones
espacial y temporal son claves. El autor sugiere distintas aproximaciones para
la mejora de la reproducción de flujos de trabajo geo-computacionales.
Relacionado con la compartición de análisis computacionales, Konkol et al. (2020) comparan exhaustivamente una
serie de herramientas y aplicaciones para la publicación y ejecución de flujos
de trabajos computacionales de forma reproducible.
Otro hilo de trabajos relacionados se
centra en el plano teórico en lugar de aspectos prácticos en el uso de
herramientas de ayuda a la reproducción, como en los ejemplos anteriores. Los
trabajos de Kedron y colegas (Kedron,
2018 y Kedron et al., 2019), se contextualizan
en la investigación relacionada con la rama de la geografía humana o económica.
Los autores discuten la incertidumbre que va aparejada a las distintas
conceptualizaciones e interpretaciones en la difusión y comunicación de los
resultados de los análisis geográficos. Todo ello, sin lugar a dudas, afecta
seriamente a la reproducción y replicación de estudios y análisis en el campo
de la geografía humana y económica. Otro ejemplo destacable es la reflexión de Kray et al. (2019) con respecto a la investigación
reproducible en el campo de la geo-informática. Los autores, se alejan un tanto
de la aproximación teórica de los dos ejemplos anteriores, para reflexionar
sobre los retos y ventajas de la reproducción en la geo-informática, y en la
CIG en general, donde la tecnología y las ciencias de la computación son
fundamentales.
Terminamos esta reseña con un guiño a una
serie de recursos docentes sobre la reproducción en la ciencia en general y
aplicada a la CIG. Cabe destacar la iniciativa FORRT (Framework
for Open and Reproducible Research Training, en
inglés) (FORRT, 2019) que teoriza sobre las dimensiones y factores a tener en cuenta
para la incorporación de prácticas reproducibles en el currículum docente. Crüwell et al. (2018) mantienen una lista
debidamente curada de recursos y artículos relevantes que van desde la
problemática inicial hasta cuestiones de análisis estadístico que minan la
reproducción. Aunque la lista de recursos tiene un cierto sesgo hacia la
psicología, debido a que la reproducibilidad ha sido tradicionalmente un
aspecto crítico en esta disciplina, resulta relevante para el diseño y
confección de un hipotético currículum sobre la reproducibilidad y replicabilidad
de la ciencia.
Si miramos a la CIG, ya empiezan a surgir
recursos docentes, en los cuales la reproducción ocupa una posición
predominante. Por ejemplo, como parte de la visión que integra la ciencia de
los datos y la CIG (Singleton
y Arribas‐Bel, 2019), Arribas-Bel (2019) describe un curso completo que incluye
módulos didácticos, junto con código y datos, en una mezcla única que aplica
técnicas de análisis de datos desde la perspectiva geográfica, atendiendo por
supuesto a aspectos de reproducibilidad, especialmente con el uso de Jupyter Notebooks (Millman y Pérez, 2014).
Iniciativa de
reproducibilidad en AGILE: experiencias y actividades
En esta sección resumimos
las actividades y acciones realizadas en los tres últimos años, desde el primer
encuentro del grupo en la conferencia de AGILE 2017 (mayo 2017) hasta las
actividades en curso y planteadas para la próxima conferencia de AGILE en 2020.
No se trata únicamente de trazar una línea temporal de los acontecimientos, la
cual resulta por sí sola interesante, sino de recalcar el hecho de que un grupo
reducido y apasionado en la promoción de las prácticas reproducibles en la
investigación puede influir de manera considerable en un grupo mucho mayor, la
comunidad AGILE, hasta el punto de introducir cambios estructurales en la
próxima conferencia, en cuanto a la ciencia abierta y prácticas reproducibles
de los trabajos de investigación enviados. El camino no ha sido fácil, y
nuestros objetivos iniciales no eran ni mucho menos tan ambiciosos. Como
veremos en las actividades realizadas en el resto de esta sección, en todo
momento nuestro contexto de actuación se limitó a la comunidad AGILE, y no a
otras comunidades CIG en otras latitudes y regiones. Delimitar un campo de
actuación manejable y de acorde a las posibilidades, pero a la vez lo bastante
ambicioso, ha sido sin duda uno de los factores de éxito de nuestra iniciativa
(Granell et al., 2018).
El mensaje que queremos transmitir es que
un pequeño grupo puede llevar a cabo grandes cambios, hasta el punto de
influenciar la comunidad de la cual forma parte. Esperamos que las actividades
y recursos aquí relatados, junto con las recomendaciones expuestas en la
próxima sección, surjan de ejemplo para que (pequeños o grandes) colectivos en
Latinoamérica impulsen el cambio hacia prácticas de reproducibilidad en sus
propias comunidades de ámbito regional o nacional, o incluso, supra nacional,
en el ámbito de la investigación en la Ciencia de la Información Geográfica.
Origen y contexto
Nuestras actividades nacen y se desarrollan en el ámbito de AGILE. Al tratarse de una asociación europea, cabe incluir unas breves líneas sobre sus objetivos y trayectoria para aquellos que la desconozcan. En primer lugar, AGILE es una asociación que agrupa actualmente a unos 100 miembros, provenientes de diversos países europeos. Un miembro es un grupo de investigación o departamento de universidad cuya investigación, tanto teórica como aplicada, se desarrolla en torno a la CIG. Como asociación, AGILE lleva a cabo diversas acciones para sus miembros con el fin de incentivar la comunicación y la transferencia de conocimiento. Destaca la conferencia homónima, que se celebra anualmente de forma ininterrumpida desde 1998. La conferencia AGILE cumple ya 23 ediciones en 2020 y por ello se puede considerar una de las más longevas en su campo.
Los autores de este artículo son miembros de la Asociacón y la conferencia ha sido un evento fundamental desde el inicio de sus carreras investigadores, hasta el punto que podríamos considerarla como nuestra alma mater, si tal calificativo fuera aplicable a conferencias tal como lo es para la universidad de formación. De lo anterior se desprende una motivación compartida del grupo para mejorar AGILE y regenerar la conferencia tradicional (hasta 2019) de forma que la reproducibilidad y los datos abiertos sean características de los artículos de la conferencia (para la próxima edición de 2020).
Por lo tanto, una de las claves de éxito fue la acertada elección de la comunidad. Podríamos haber elegido nuestras universidades o nuestros grupos de investigación. Sin embargo, nuestra motivación, la red de contactos, e incluso, un cierto sentimiento para mejorar el evento científico que nos ha visto crecer y desarrollarnos científicamente, fueron sin lugar a dudas factores decisivos a la hora de optar por AGILE como objetivo. Asimismo, creemos que estos mismos factores pueden ser perfectamente válidos para la elección de comunidades objetivo en otras regiones como en América Latina.
A continuación desglosamos la lista de acciones (https://o2r.info/reproducible-agile/) y como han crecido en complejidad, en cuanto a los resultados obtenidos, y en eficiencia, a la hora de estimular cambios estructurales en la conferencia AGILE.
Acciones realizadas
El primer encuentro del
grupo tuvo lugar en la conferencia AGILE 2017 (Wageningen, Países Bajos), que
justo marcaba el vigésimo aniversario de la conferencia y, por esa razón, el
evento volvía al país donde se celebró la primera edición. En el taller previo
a la conferencia Reproducible Geosciences Discussion Forum (https://o2r.info/reproducible-agile/2017/),
discutimos el tema de la investigación
reproducible en general y si la “crisis de reproducibilidad” que se anunciaba
en economía (Ioannidis, Stanley y Doucouliagos,
2017), neurociencia (Button et al., 2013), y en
otros tantos campos del conocimiento (Ioannidis,
2005) también había llegado a la CIG. El intercambio de opiniones llevó
rápidamente al hecho de que la reproducibilidad, la reproducibilidad
computacional, replicación, y otros términos relacionados (véase Barba, 2018),
no parecían ocupar un lugar destacado en la agenda de la comunidad de AGILE.
Como resultado, el taller se reorientó hacia el intercambio de conocimiento y
la colaboración entre el grupo con el fin de profundizar más sobre el estado de
reproducibilidad de los trabajos de investigación publicados en la conferencia AGILE
y explorar cómo podría mejorar y extenderse la conferencia con buenas prácticas
de investigación reproducible.
De esta primera toma de contacto cabe
destacar dos acciones fundamentales. 1) marcó la senda de la colaboración del
grupo. La distribución geográfica del grupo hacía difícil las reuniones
presenciales, a excepción de los encuentros anuales en cada edición de la
conferencia, por lo que organizamos teleconferencias periódicas (que siguen
todavía en curso) para debatir y consensuar próximas acciones y repartir
responsabilidades. 2) acordamos la redacción de un artículo para la siguiente conferencia
AGILE (2018), en el cual responderíamos a las siguientes preguntas: ¿Qué
aspectos hay que tener en cuenta para reproducir un artículo concreto? ¿Cuál es
el estado de reproducibilidad de los mejores artículos presentados en edición
pasadas de la conferencia AGILE? ¿Qué podría hacer AGILE (como asociación) para
fomentar la reproducibilidad en las próximas ediciones de la conferencia?
Nüst et al.
(2018) plasmaron algunas de las
respuestas para las preguntas anteriores. El trabajo analizó el nivel real de
reproducibilidad de un conjunto de artículos (32) nominados para las sesiones
de mejores trabajos (tanto completos como cortos) de las conferencias AGILE
realizadas entre 2010 y 2017 (ambos inclusive). Con respecto a la primera
pregunta, propusimos una serie de criterios —datos, pre-procesamiento, métodos,
entorno computacional, y resultados—, y asignamos un nivel de reproducibilidad
entre 0 (no reproducible) y 3 (completamente reproducible). De esta forma,
calculamos fácilmente el nivel de pre-reproducibilidad
(Stark, 2018) de cada trabajo, sopesando el nivel de cada criterio basado en la
lectura de cada artículo. Los resultados arrojaron una valoración pobre en
cuanto a los niveles de reproducibilidad, coincidiendo en gran medida con la
opinión de los propios autores de los trabajos analizados (Nüst
et al., 2018). Respecto a la tercera pregunta del párrafo anterior,
planteamos una serie de medidas y recomendaciones para atajar el problema de la
falta de reproducibilidad, que comentaremos más adelante en la sección
“Recomendaciones”.
Llegó la siguiente conferencia AGILE 2018
(Lund, Suecia) y realizamos el taller Reproducible Research Publications (https://o2r.info/reproducible-agile/2018/). Con una asistencia más bien mediocre,
presentamos los resultados de nuestro análisis (Nüst et
al., 2018) para poner de relieve las carencias en reproducibilidad de los trabajos
presentados en conferencias pasadas de AGILE. El caso de estudio despertó el
interés de los participantes, pasando inmediatamente de un plano conceptual a
uno práctico y experimental. El concepto de reproducibilidad en sí es sencillo,
lo difícil es responder a la pregunta ¿por dónde empiezo para adquirir
prácticas reproducibles en mi investigación? La segunda parte del taller, versó
justo en la reproducción por parte de los participantes del flujo de trabajo
computacional depositado en un repositorio abierto (Nüst,
2018) asociado al análisis publicado (Nüst et al.,
2018).
Los resultados de la reproducción fueron
dispares y desiguales, dependiendo del conocimiento previo de los
participantes, desde expertos hasta principiantes, en el lenguaje utilizado (R)
y en las herramientas (RStudio). Sin embargo, lejos
de ser un fracaso, la experiencia fue fructífera, ya que demostró que la
reproducción de un trabajo por un investigador no experimentado no es una tarea
imposible. Algunos de los participantes, sin el conocimiento previo en el
lenguaje R, lograron reproducir en menos de dos horas un compendio de
investigación bien preparado (Nüst et al.,
2017), es decir, un paquete reproducible que integra código y datos. En la
parte negativa, la instalación del entorno computacional adecuado para la
ejecución del código y las dependencias entre paquetes de software, como apuntado
posteriormente por Konkol et al. (2019),
fueron las mayores dificultades encontradas por los participantes. Aunque
parezca banal, es una lección valiosísima para los autores de artículos
reproducibles: si deseas que los no expertos puedan reproducir tu trabajo, no
asumas que saben lo que es fácil de hacer (para el autor).
El taller finalizó con un debate abierto.
Los participantes admitieron que la reproducción manual es una experiencia de
aprendizaje eficaz siempre y cuando se parta de un trabajo reproducible bien
preparado. Conocer de primera mano los problemas con los que se encuentran a
menudo otros investigadores al reproducir un trabajo, es una ayuda invaluable
para motivar los cambios de hábitos en un investigador en cuanto a la adopción
de buenas prácticas de investigación reproducibles. No todos los problemas son
previsibles, por supuesto. Hubo consenso en admitir que una sala llena de gente
con conocimientos e intereses diversos, y con sistemas operativos y versiones de
software variopintos, encontrará siempre alguna dificultad en la reproducción
que el autor no pudo prever con antelación.
Una de las apreciaciones más destacables
del taller, fue que el concepto de reproducción no es difícil de entender. Todo
el mundo lo entiende y aprecia su importancia para la ciencia. Sin embargo,
parece ser que su simplicidad conceptual correlaciona negativamente con la
complejidad experimental. Todos los participantes expresaron serias dudas en
cuanto por dónde empezar para adquirir hábitos reproducibles en su trabajo de
investigación diario. Aun reconociendo que no existen proyectos de
investigación “típicos”, y que por lo tanto la reproducción está sujeta a las
idiosincrasias de cada proyecto o trabajo de investigación, hubo un clamor
popular por la disponibilidad de materiales educativos, guías o directrices
para ayuden a los investigadores en la aplicación de la investigación
reproducible.
Nosotros escuchamos e hicimos de las
directrices nuestro siguiente reto.
Con una aportación económica de la
asociación AGILE, los autores junto con un grupo reducido de expertos
internacionales en ciencia abierta, curación de datos y reproducibilidad (véase
https://o2r.info/reproducible-agile/initiative/), nos reunimos tres días (abril, 2019) en
Delft (Países Bajos) para abordar la creación de unas directrices para autores
y revisores para la elaboración de artículos reproducibles para AGILE. Las directrices
deberían ayudar tanto a los autores, para preparar los manuscritos, como a los
revisores, para evaluarlos. Las directrices deberían ser lo bastante genéricas
para cubrir la mayoría de los tipos de trabajos enviados a la conferencia
AGILE, pero al mismo tiempo lo bastante detalladas para que sirvieran de ayuda
a los autores, incluyendo por ejemplo recomendaciones en cuanto a repositorios de
datos (p.e. Zenodo, etc.) y
de código (p.e. OSF, GitLab), flujos de trabajo transparentes (p. ej., Notebook
en Binder), normas de citación y tipo de licencias de
software y datos. Posteriormente, en la sección “Directrices para la redacción de
artículos reproducibles”, las describimos en detalle.
El tercer taller de la serie se realizó en la Conferencia AGILE 2019 (Limassol, Chipre), con el título de “Reproducible Research” (https://o2r.info/reproducible-agile/2019/). Con un registro de asistentes mayor que en la edición anterior, el taller se centró en la difusión de las directrices recién publicadas (Nüst et al., 2019), reforzado con la presentación de dichas directrices en la sesión de posters (Hofer et al., 2019). En definitiva, por un lado, sopesamos que tal las directrices habían sido recibidas por parte de la comunidad AGILE. Por otro, seguimos enfatizando en el taller la parte práctica de la reproducibilidad, planteando sesiones de reproducción de trabajos para niveles básico y avanzado.
Recientes actividades ponen de manifiesto
el calado de las prácticas en investigación reproducibles en la comunidad
AGILE. Por ejemplo, la quinta edición, celebrada en Tartu (Estonia) en
noviembre de 2019, dedicó, por primera vez, un día completo a la
reproducibilidad. Además, el grupo (los autores) seguimos adelante con la
cuarta edición de talleres sobre reproducibilidad para AGILE 2020 (https://o2r.info/reproducible-agile/2020/).
Políticas realizadas
Las actividades en
el plano técnico (la serie de talleres, las directrices, etc.) son necesarias,
pero no suficientes para llevar a cabo cambios estructurales de calado. Sin la apuesta
clara de la Asociación, en su compromiso por la integración de la
reproducibilidad en las conferencias AGILE, todo el trabajo realizado hasta el
momento corría el serio peligro de quedar en papel mojado.
Por fortuna, el Consejo apoyó la
reproducibilidad. El siguiente paso lógico fue instaurar oficialmente dichas
directrices en AGILE, como parte fundamental de la próxima conferencia en el
2020, lo cual acarreó cambios substanciales en la estructura organizativa de la
conferencia:
· La obligatoriedad para los autores de
ajustarse a las directrices para la redacción de artículos reproducibles
enviados a la conferencia AGILE (Nüst et al., 2019).
· La creación de un nuevo Comité de
Reproducibilidad, para asegurar que todos los manuscritos enviados cumplieran
las directrices de artículos reproducibles para AGILE.
· La creación de un servicio de discusión en
línea para ayudar a los autores en la adaptación de las directrices en sus
trabajos.
· La creación de unas recomendaciones para
los revisores (Nüst et al. 2020), para tener en cuenta los aspectos relacionados con la
reproducibilidad en la revisión de artículos.
· La transformación lógica de la conferencia
AGILE a una conferencia de acceso abierto. Para la edición de 2020, los
artículos largos se publicarán en Springer con licencia en acceso abierto,
mientras que los artículos cortos lo harán con Copernicus
Publications, un reputado editor de acceso abierto.
Muchos más cambios se entreven
para futuras ediciones de la conferencia AGILE, con el fin de convertirla en un
referente de reproducibilidad en el campo de la CIG. Pero como en todo, los
cambios radicales deben ser progresivos, sobre todo para dar tiempo a la
comunidad a interiorizar los hábitos y prácticas en investigación reproducible,
resumidos someramente en las directrices que comentamos a continuación.
Directrices
para la redacción de artículos reproducibles
En esta sección nos
centramos en las directrices para la redacción de artículos reproducibles para
la conferencia AGILE. El recurso de referencia es la versión inglesa (Nüst et al., 2019a), la cual se actualiza
periódicamente a media que se incorporan comentarios, aclaraciones y ejemplos
de los propios autores. También hay disponible una versión traducida al
castellano (Granell, 2019).
Las directrices no son exhaustivas en
cuanto a los pasos a realizar. Existen excelentes recursos que describen reglas
y pasos concretos para que los datos y análisis computacionales asociados a un
trabajo científico sean reproducibles (p.e. Sandve et al., 2013; Wilson et al., 2017,
Rule et al., 2019). Sin embargo, las directrices aportan un valor
adicional con respecto a estos recursos más generalistas, en cuanto que se
centran en las características propias de los trabajos de investigación en la
CIG, aportando ejemplos específicos a esta disciplina.
¿Qué elementos o aspectos son los más
destacables en las directrices? Por su utilidad práctica, el primero es sin
lugar a dudas la lista de verificación de la reproducibilidad de un artículo
previo al envío. Los autores/as pueden comprobar fácilmente si algún elemento
de la lista todavía requiere su atención. Resulta un recurso muy útil y rápido
para asegurar que los artículos enviados cumplen con todos los requisitos
pertinentes a la reproducibilidad.
Otro elemento destacable es el contenido
de la nueva sección “Disponibilidad de Datos y Software”. Con ella forzamos a
los autores/as a indicar dónde se encuentran publicados los datos y el código,
para que otros investigadores/as puedan acceder a esos recursos. Evidentemente,
la reproducibilidad implica necesariamente el acceso público a los recursos
asociados a una investigación. Esta sección por lo tanto permite aglutinar en
un único lugar toda la información necesaria para acceder a los datos y código
utilizados en el propio artículo. En caso de que existan restricciones, como
por ejemplo que los datos utilizados se rigen por una licencia restrictiva que
no permite su acceso y compartición, entonces sugerimos que se indique también
los motivos. El objetivo de esta sección es que sea homogénea a todos los
artículos y que permita fácilmente evaluar el nivel de pre-reproducibilidad
(Stark, 2018) de un artículo simplemente leyendo la información de la sección.
Las directrices incluyen una plantilla para el contenido de la misma, que puede
tomarse como base para otros tipos de documentos como por ejemplo trabajos de
maestrías.
Como los datos y el código son elementos
clave para la reproducción de un trabajo, el documento de directrices los trata
en dos apartados independientes. El apartado de datos se refiere a la
información de entrada en una investigación; a los datos intermedios y
resultados finales (p.e. mapas, tablas, graficas),
que normalmente forman parte del artículo. El segundo apartado engloba tanto el
código (o paquete de software, biblioteca, etc.) pertinente al análisis
computacional realizado, como al entorno necesario para ejecutar dicho código.
Ambos apartados siguen una estructura
similar. Organizamos las sugerencias a los autores en una tabla de dos
dimensiones. Por un lado, respondemos los cuestionamientos de: qué, dónde y
cómo; y por otro, planteamos para cada una de las tres preguntas anteriores,
requisitos mínimos, que todos los autores deben cumplir, y también requisitos
ideales. La reproducción de un artículo de investigación no es una cuestión de
todo o nada, sino que hay un espectro de posibilidades entre los dos extremos.
Por lo tanto, queremos transmitir la idea que la redacción de un artículo
reproducible es un proceso gradual, de menos (mínimo) a más (ideal), y
reconocemos que los autores sin experiencia se fijen con los requisitos mínimos
y, a medida que adquieren experiencia y destrezas en el uso de herramientas y
aplicaciones de soporte a la reproducibilidad, tengan en consideración las
sugerencias ideales.
Destaca también que ambos apartados
incluyen una serie de ejemplos (“que pasa si”) en el contexto de la CIG, que
aportan sugerencias concretas a los autores para cada uno de los supuestos
planteados. Por ejemplo, si los datos no están debidamente anonimizados y se
publican con el nombre de los autores, damos información de cómo crear enlaces anónimos
a los datos depositados en repositorios para permitir el proceso de revisión por
el sistema de doble ciego. Para que las directrices fuesen un recurso conciso y
breve para la comunidad investigadora, mantenemos un sitio web y wiki asociado
(https://osf.io/phmce/wiki/home/) donde se incluyen muchos otros ejemplos
para que los autores reconozcan su situación particular y sepan cómo actuar
para hacer que sus artículos sean (más) reproducibles.
Recomendaciones
Sin lugar a dudas,
adquirir un nuevo hábito requiere esfuerzo y persistencia. A diferencia de
hábitos que se centran únicamente en el individuo como la adquisición de
hábitos saludables, la ciencia actual ya no se limita a la labor de un
investigador individual, sino que se ve afectada por un ecosistema de actores
con diferentes intereses que moldean el proceso científico. Desde
investigadores, grupos de investigación, universidades, asociaciones, pasando
por las editoriales que publican las revistas académicas, hasta las agencias
públicas y privadas que subvencionan la investigación, y los comités de
selección y promoción que evalúan los méritos científicos, todo ellos influyen
de alguna manera en cómo se realiza la labor científica diaria. Por lo tanto,
para mejorar significativamente la reproducibilidad en la investigación, se
deben realizar cambios en cada uno de estos actores, con mejoras en los planes
de estudio educativos, en los procesos de laboratorio, la política científica
de las universidades, las normas de publicación de artículos de las editoriales
de revistas académicas y en los criterios de las agencias de financiación, de
modo que los esfuerzos requeridos para llevar a cabo las buenas prácticas en la
investigación reproducibles sean reconocidos y debidamente valorados.
Es esta sección no abordamos cada uno de
estos actores, sino que nos centramos en recomendaciones para las asociaciones
relacionadas con la CIG, que tienen el poder para influir positivamente en una
comunidad amplia de investigadores/as en la promoción de prácticas de
investigación reproducible. Este aspecto es especialmente relevante en
Latinoamérica, por ejemplo, con el Instituto Panamericano de Geografía e
Historia (ipgh,
https://www.ipgh.org/), ya que puede jugar un papel trascendental a la
hora de promocionar la investigación reproducible en la región. Para autores
individuales, remitimos a la discusión en Nüst et
al. (2018), que a su vez incluye una buena selección de recursos para
autores.
Por lo tanto, ¿qué pueden hacer las asociaciones
relacionadas con la CIG para fomentar la reproducibilidad? Un prerrequisito
clave es que las propias asociaciones científicas como IPGH u otras, que
proveen soporte para la publicación científica ya sea por medio de revistas
académicas o conferencias, reconozcan el papel primordial de las prácticas de
investigación reproducible para la comunidad de la CIG. Otra recomendación
obvia es que las publicaciones sean en acceso abierto, y con licencias
permisivas para los propios autores y para el resto de la comunidad
investigadora. En este sentido, las publicaciones periódicas del ipgh ya se
licencian en “Creative Commons”,
los artículos están en abierto, y el sistema de gestión y publicación de
revistas se basa en código abierto (Open Journal System),
lo cual allana el camino hacia las siguientes recomendaciones.
Las directrices para autores son un recurso fundamental para sentar las bases de una conferencia o revista reproducible. Como hemos visto en la sección anterior, unas directrices deben incluir instrucciones claras sobre cuándo, cómo y dónde publicar material complementario (datos, código) al artículo escrito. Además, las directrices deben sensibilizar a los autores para que hagan visible la información relacionada con la reproducibilidad para los revisores y otros investigadores, por ejemplo, mediante una sección específica del artículo al estilo de la sección de “Disponibilidad de datos y software”. No hace falta empezar de cero. Las directrices para la redacción de artículos reproducibles (Nüst et al., 2019a; Granell, 2019) están a disposición de todas las asociaciones y comunidades científicas que editen publicaciones periódicas o que promueven conferencias para que las personalicen a sus particularidades, con el fin de promover la investigación reproducible entre la comunidad de autores. Cabe destacar aquí el trabajo de Liu y Salganik (2019) que describen con sumo detalle su experiencia como editores de un número especial centrado únicamente en artículos reproducibles. Los retos, problemas, y las recomendaciones que plantean los autores son sin duda una guía práctica de gran ayuda para editores y organizadores de conferencias.
Relacionado con las directrices, las
asociaciones tienen a su disposición otros elementos que puede llevar a cabo
sin demasiado esfuerzo, pero con un impacto considerable en cuanto a la
motivación y reconocimiento de la labor de los autores de artículos
reproducibles. Uno de estos elementos son los premios para los mejores artículos
reproducibles, similares a los tradicionales premios a los mejores artículos
científicos. Esta práctica ya existe en algunas comunidades y conferencias
(véase Nüst et al., 2018), y poco a poco se va
instaurando. En el caso de la conferencia AGILE 2020, se pondrá en marcha una
sesión especial para los tres mejores trabajos reproducibles, con el fin de
visibilizar y reconocer el esfuerzo de los autores y que sirvan de ejemplo para
la comunidad AGILE.
Otro elemento son los “badges”
o insignias. Kidwell et al. (2016) demuestran
que las insignias han tenido un efecto positivo en la publicación de datos asociados
a artículos publicados en la revista Psychological
Science. Otras asociaciones de renombre como ACM (Association
for Computing Machinery)
disponen de un amplio rango de insignias para reconocer aspectos distintivos de
los artículos, como por ejemplo la disponibilidad de datos en abierto o que el
artículo sea reproducible (https://www.acm.org/publications/policies/artifact-review-badging). En el ámbito de las CIG,
Nüst et al. (2019b) presentaron recientemente
un sistema de insignias integrado en motores de búsqueda de literatura
científica como Google Scholar.
Con estas básicas recomendaciones,
dirigidas a distintos actores que forman parte del proceso de investigación
científica, queremos destacar que la promoción de hábitos en investigación reproducible
no es una odisea imposible. Se trata más bien de una cuestión de voluntad y que
todos los actores implicados expresen su convencimiento por la instauración
progresiva de estas prácticas. Los investigadores y grupos de investigación
pueden hacer esfuerzos de forma individual, pero para que despegue
definitivamente la cultura de la ciencia abierta y reproducible, todos los
demás actores, desde agencias de política científica hasta universidades y
asociaciones científicas, deben apostar definitivamente por la investigación
reproducible para que la próxima generación de investigadores e investigadoras
desarrolle su trabajo de forma transparente, integra y honesta.
Conclusiones
En este artículo
hemos presentado nuestras experiencias, actividades y logros en la promoción de
recomendaciones para la investigación reproducible, contextualizada a la
comunidad AGILE. Destacamos sobre todo las directrices para autores de artículos
reproducibles, un recurso disponible para cualquier investigador interesado en reproducibilidad
para que pueda adoptarlas a su propio entorno, ya sea de forma individual, en
su grupo de trabajo, departamento, universidad, e incluso en la comunidad científica
de la cual es miembro.
Este artículo también es una llamada de la
comunidad latinoamericana, para que haga suya los recursos descritos en este
trabajo y, sobretodo, promocione de forma activa la investigación reproducible
en la CIG en su entorno local. Pero es también una llamada a colaboración, para
que se establezcan sinergias entre la comunidad AGILE y asociaciones similares
en la región latinoamericana. Necesitamos una apuesta clara por la ciencia
abierta, la reproducción y replicación, así como por los datos y códigos en
abierto y públicamente accesibles, como prevención a una crisis de
reproducibilidad en nuestra disciplina.
Agradecimientos
Los autores agradecen
la predisposición de los miembros del Consejo, así como el apoyo en interés de
la comunidad AGILE, con respeto a las acciones y recursos generados para la promoción
de la investigación reproducible en AGILE. También agradecen la ayuda
financiera de AGILE para la redacción de las directrices de artículos,
reproducible (https://bit.ly/2vxlspv). Carlos Granell ha sido parcialmente
financiado por el programa Ramón y Cajal del Ministerio de Ciencia e Innovación
de España (referencia RYC-2014-16913). Daniel Nüst ha
sido financiado por el proyecto “Opening Reproducible
Research” (https://o2r.info) de la Fundación de Investigación Alemana (DFG, referencia PE1632/17-1).
Bibliografia
Ballari, D. (2018). “Reproducibilidad científica: ¿Qué es y por qué debemos interesarnos en geo-ciencias?” Revista Cartográfica, 97: 147-155. https://doi.org/10.35424/rcar.v0i97.179
Barba, L.A. (2018). “Terminologies for reproducible research”, ArXiv, preprint arXiv: 1802.03311.
Button, K.S.,
Ioannidis, J.P.A., Mokrysz,
C., Nosek, B.A., Flint, J., Robinson, E.S.J. & Munafò, M.R. (2013). “Power failure: why small sample size
undermines the reliability of neuroscience”, Nature Reviews Neuroscience, 14(5): 365-376.
Cerutti,
V., Bellman, C., Both, A., Duckham, M., Jenny, B., Lemmens,
R.L.G. & Ostermann, F.O. (2019). “Improving the
reproducibility of geospatial scientific workflows: the use of geosocial media
in facilitating disaster response”, Journal
of Spatial Science. https://doi.org/10.1080/14498596.2019.1654944.
Crüwell,
S., van Doorn, J., Etz, A.,
Makel, M.C., Moshontz, H., Niebaum, J.C. & Schulte-Mecklenbeck,
M. (2018, November 16). “7 Easy Steps to Open Science: An Annotated Reading
List”. https://doi.org/10.31234/osf.io/cfzyx.
FORRT (2019,
December 13). Introducing a Framework for Open and Reproducible Research
Training (FORRT)”. https://doi.org/10.31219/osf.io/bnh7p.
Gahegan,
M. (2019). “Reproducible Geocomputation: an open or
shut case?”, GeoComputation
2019, 1-4 pp. https://doi.org/10.17608/k6.auckland.9870089.v1
Granell,
C., Nüst, D., Ostermann, F.O. & Sileryte, R. (2018). “Reproducible Research is like riding
a bike”, PeerJ Preprints,
6: e27216v1. https://doi.org/10.7287/peerj.preprints.27216v1
Granell, C. (2019). “Directrices para artículos reproducibles”. https://doi.org/10.17605/OSF.IO/MF9BE. Traducción en castellano del recurso https://doi.org/10.17605/OSF.IO/CB7Z8
Hofer, B.,
Broman, K.W., Granell, C., Graser, A., Hettne, K., Daniel Nüst, D. & Teperek, M.
(2019). “Reproducible Publications at AGILE Conferences – Proposed Guidelines
for Authors and Reviewers”, en Kyriakidis,
P., Hadjimitsis, D., Skarlatos, D. & Mansourian, A. (eds.), Accepted
Short Papers and Posters from the 22nd AGILE Conference on Geo-information Science,
Limassol, Chipre, Editorial, Stichting
AGILE.
Ioannidis,
J.P.A. (2005). “Why most published research findings are false”, PLOS Medicine, 2(8): 124.
Ioannidis,
J.P.A., Stanley & T.D., Doucouliagos, H. (2017). “The
power of bias in economics research”, The
Economic Journal, 127(605), F236-F265.
Kedron, P. (2019). “Can Reproducible and replicable research facilitate causal explanation
in Geography?”, en Kyriakidis,
P., Hadjimitsis, D., Skarlatos, D. & Mansourian, A. (eds.) (2019). Accepted Short Papers and Posters from the 22nd AGILE Conference on
Geo-information Science. Limassol, Chipre. Editorial, Stichting AGILE.
Kedron, P.,
Frazier, A.E., Trgovac, A.B., Nelson, T. &
Fotheringham, A.S. (2019). “Reproducibility and Replicability in Geographical Analysis”,
Geographical Analysis. https://doi.org/10.1111/gean.12221.
Kidwell, M.C.,
Lazarević, L.B., Baranski,
E., Hardwicke, T.E., Piechowski,
S., Falkenberg, L.-S. & Nosek, B.A. (2016). “Badges
to Acknowledge Open Practices: A Simple, Low-Cost, Effective Method for
Increasing Transparency”, PLOS Biology,
14(5), e1002456. https://doi.org/10.1371/journal.pbio.1002456
Konkol,
M., Kray, C. & Pfeiffer, M. (2019). “Computational reproducibility in
geoscientific papers: Insights from a series of studies with geoscientists and
a reproduction study”, International
Journal of Geographical Information Science, 33(2): 408-429. https://doi.org/10.1080/13658816.2018.1508687.
Konkol, M., Nüst, D. & Goulier, L. (2020). “Publishing
computational research -- A review of infrastructures for reproducible and
transparent scholarly communication”, ArXiv, preprint arXiv: 2001.00484.
Kray, C., Pebesma, E., Konkol, M., & Nüst, D. (2019). “Reproducible Research in Geoinformatics:
Concepts, Challenges and Benefits”, en Timpf S. et al. (eds).
14th International Conference on Spatial
Information Theory (COSIT 2019), (8:1-8:13). https://doi.org/10.4230/LIPIcs.COSIT.2019.8
Liu, D.M.
& Salganik, M.J. (2019). “Successes and Struggles with
Computational Reproducibility: Lessons from the Fragile Families Challenge”, Socius: Sociological Research for a Dynamic
World, 5, 237802311984980. https://doi.org/10.1177/2378023119849803.
Millman, K.J. & Pérez, F. (2014). “Developing open-source scientific practice”, en
Stodden, V., Leisch, F.
& Peng, R.D. (eds.). Implementing
Reproducible Research, Editorial Chapman and Hall/CRC, pp. 169-204.
Nüst, D.,
Konkol, M., Schutzeichel,
M., Pebesma, E., Kray, C., Przibytzin,
H. & Lorenz, J. (2017). “Opening the Publication Process with Executable
Research Compendia”, D-Lib Magazine,
23(1-2). https://doi.org/10.1045/january2017-nuest.
Nüst, D.
(2018). Reproducibility Package for “Reproducible research and GIScience: an evaluation using AGILE conference papers”
(Version 6-fixed) [Data set]. Zenodo. http://doi.org/10.5281/zenodo.2575062.
Nüst, D.,
Granell, C., Hofer, B., Konkol,
M., Ostermann, F.O., Sileryte, R. & Cerutti, V. (2018). “Reproducible research and GIScience: an evaluation using AGILE conference papers”, PeerJ, 6:e5072. https://doi.org/10.7717/peerj.5072
Nüst, D., Ostermann, F.O, Sileryte, R., Hofer, B., Granell, C. Teperek, M. & Hettne, K. (2019a). AGILE Reproducible Paper Guidelines, versión 2, julio 2019. https://doi.org/10.17605/OSF.IO/CB7Z8
Nüst, D., Lohoff, L., Einfeldt,
L., Gavish, N., Götza, M., Shahzeib Tariq Jaswal, S.T. & van Eek, A. (2019b). “Guerrilla Badges for Reproducible Geospatial
Data Science”, en Kyriakidis,
P., Hadjimitsis, D., Skarlatos, D. & Mansourian, A. (eds.), Accepted
Short Papers and Posters from the 22nd AGILE Conference on Geo-information
Science, Limassol, Chipre, Editorial: Stichting AGILE. https://doi.org/10.31223/osf.io/xtsqh
Nüst, D. et al. (2020). Reproducibility Review at AGILE 2020 Conference. Recuperado de https://osf.io/vq34n/
Ostermann, F.O. & Granell, C. (2017). “Advancing science with VGI: reproducibility and
replicability of recent studies using VGI”, Transactions
in GIS, 21(2): 224-237. https://doi.org/10.1111/tgis.12195.
Richardson,
D.B., Kwan, M.-P., Alter, G. & McKendry, J.E. (2015). “Replication of
scientific research: addressing geoprivacy, confidentiality, and data sharing
challenges in geospatial research”, Annals
of GIS, 21(2): 101-110. https://doi.org/10.1080/19475683.2015.1027792.
Rule, A.,
Birmingham, A., Zuniga, C., Altintas, I., Huang, S.
C., Knight, R. & Rose, P.W. (2019). “Ten simple rules for writing and
sharing computational analyses in Jupyter Notebooks”,
in PLoS computational biology, 15(7). https://doi.org/10.1371/journal.pcbi.1007007
Sandve, G.K., Nekrutenko, A., Taylor, J.
& Hovig, E. (2013). “Ten simple rules for
reproducible computational research”, PLoS computational
biology, 9(10). https://doi.org/10.1371/journal.pcbi.1003285
Singleton, A.
& Arribas‐Bel, D. (2019). “Geographic Data
Science”, Geographical Analysis. https://doi.org/10.1111/gean.12194
Stodden,
V., Leisch, F. & Peng, R.D. (eds) (2014). Implementing Reproducible Research, Boca
Ratón. FL, EEUU. CRC Press.
Stark, P. B.
(2018). “Before reproducibility must come preproducibility”,
Nature, 557(7706): 613-614.
Wilson, G.,
Bryan, J., Cranston, K., Kitzes, J., Nederbragt, L. & Teal, T.K. (2017). “Good enough
practices in scientific computing”, PLoS computational
biology, 13(6). https://doi.org/10.1371/journal.pcbi.1005510
* Universitat Jaume I de
Castellón, España, correo electrónico: carlos.granell@uji.es.
ORCID:
http://orcid.org/0000-0003-1004-9695
p University of
Salzburg, Austria, correo electrónico: barbara.hofer@sbg.ac.at.
ORCID: http://orcid.org/0000-0001-7078-3766
· University of
Münster, Alemania, correo electrónico: daniel.nuest@uni-muenster.de.
ORCID: http://orcid.org/0000-0002-0024-5046.
· University of
Twente, Enschede, Países Bajos, correo electrónico: f.o.ostermann@utwente.nl. ORCID: http://orcid.org/0000-0002-9317-8291
¡ Delft University
of Technology, Países Bajos,
correo electrónico: r.sileryte@tudelft.nl
ORCID: http://orcid.org/0000-0002-8245-3016