Thinkepi
    Thinkepi


Anuario ThinkEPI


ISSN: 1886-6344

Referenciado en:

Dialnet
DICE
Latindex

Tablas de contenidos:

Anuario 2009
Anuario 2008
Anuario 2007

Formulario de pedido

Canales de difusión:




Suscripción a ThinkEPI



ThinkEPI en Facebook



ThinkEPI en Twitter





Add to Technorati Favorites



Enlaces patrocinadores:








Temporada actual:





Twitter y las (micro)arquitecturas de información social



Más sobre iSchools



¿El año de las tabletas y los e-readers? Dispositivos de lectura para medios de comunicación



Arquitectura de información y Diseño de interacción, dos disciplinas diferenciadas en el marco de la Experiencia de usuario



Biblioteca, aprendizaje y acceso a la información en medio del temporal tecnológico



Software para el acceso a la información. Situación del mercado en 2009



Sobre usabilidad y experiencia de uso



Los libros electrónicos: una realidad emergente



Archivos y software libre



Reflexiones y buenas prácticas sobre la presencia personal en la Web académica



Las bibliotecas escolares en España ante una nueva década: brotes verdes e incertidumbres



Gestores de referencias sociales: la información científica en el entorno 2.0



Del correo electrónico a la conversación dinámica, la comunicación como documento



Los recursos de información sobre cómics: la nueva base de datos especializada en Carlos Giménez (y II). Definición y alcance del proyecto



Los recursos de información sobre cómics: la nueva base de datos especializada en Carlos Giménez (I). Estado de la cuestión



RIA (Rich Internet Applications): la pluralidad del contenido



Primeros pasos hacia la gestión de datos de investigación en las universidades: la iniciativa DAF



El libro como excepción



Los servicios de publicaciones de las universidades en épocas de esplendor de la evaluación científica



Dr Paper & Mr Web



La revolución de internet y los paradigmas bibliotecarios emergentes: las bibliotecas digitales comerciales



Visibilidad y accesibilidad de las tesis de Documentación en España



Algunas reflexiones otoñales a propósito de la ‘infoxicación’



La acción de las bibliotecas públicas en tiempos de crisis



Compartir datos (data sharing) en ciencia: el contexto de una oportunidad



Biblioteca pública Sociedad Limitada



Las interfaces de usuario del mañana, hoy: ¿están siendo los dispositivos móviles el acicate necesario?



El vídeo en los cibermedios: algunas certezas y muchas dudas



Congresos españoles de biblioteconomía y documentación: de la inevitable fragmentación a la necesaria transversalidad



¿Qué nos aportan las redes sociales?



Implicaciones éticas de la minería de datos



Leyendo (y gestionando) blogs desde el móvil



Ranking de universidades en la Unión Europea: aproximación multidimensional a una realidad compleja



Repositorios digitales: un concepto, múltiples visiones



Academia y Ciencia colectiva



El debate de la formación universitaria en ByD: más allá de Bolonia



¿Por qué “Bolonia” en los estudios de Información y Documentación?



El fomento de la lectura en la biblioteca pública 2.0: una apuesta por la innovación y el riesgo



Revistas españolas en WoS



Google Scholar: ¿una herramienta para la evaluación de la Ciencia?



Rediseñando Google: Propuesta base para el desarrollo de un sistema operativo multimodal ubicuo




Buscador:




Archivos:






Presentación del Grupo Thinkepi Objetivos y áreas de actuación de Thinkepi Participantes del Grupo Calendario de textos Wiki del Grupo Notas ThinkEPI Anuario Enlaces de interés Buzón de sugerencias Menú en Thinkepi

Compartir datos (data sharing) en ciencia: el contexto de una oportunidad

Por Daniel Torres-Salinas
1 October 2009

Introducción

Recientemente, la revista Nature ha dedicado un número especial1 a un tema relevante relacionado con la comunicación científica, el data sharing; es decir, la acción de compartir con otros colegas los ficheros de datos (lo que solemos llamar raw data), generados durante el curso de una investigación.

Si trabajas en medicina, por ejemplo, consistiría en poner en línea para descarga todos los datos, convenientemente organizados, de los pacientes que han participado en un ensayo clínico o, si trabajas en bibliometría, los ficheros .txt, .xls o .mdb con las publicaciones que has analizado.

En fin, un concepto bastante fácil de entender y qu,e aunque pueda parecer muy en la línea de la ciencia 2.0, ya Galton en 1901 afirmaba que no se debería dejar publicar estudios biométricos si previamente los datos no se depositaban en algún lugar para su consulta2 (Hrynaszkiewicz, 2009).

Asimismo, en lo que a repositorios se refiere, uno de los más veteranos, el Protein Data Bank3, se inició en 1971 y una de las primeras revista en exigir los datos como condición para la publicación fue el Journal of Biological Chemistry en 1983 (Crawford et al., 1996).

Por tanto, estamos ante un viejo tema cuyo debate parece reabrirse periódicamente y en el que tal vez los documentalistas tengamos algo que decir; por ello, en esta nota, expondremos brevemente algunas de las cuestiones que rodean a esta práctica científica.

A favor, en contra

Según Nelson (2009), la publicación en Acceso abierto de los datos es percibida por la mayor parte de los investigadores como un ideal científico y algo beneficioso; sin embargo, no deja de ser una corriente muy minoritaria. En la literatura se ha dado buena cuenta de sus bondades ya que compartir datos contribuye a reproducir, replicar y verificar resultados obtenidos por otros (Renolls, 1997), favorece la posibilidad de reutilización de esos datos para otro tipo de análisis diferente al original (Piwowar y Fridsman, 2007), permite combinar diferentes archivos para realizar metaánalisis (Ramasamy et al., 2008) y es un arma eficaz en la lucha contra el fraude.

Y si esto no nos convence, además, produce una aceleración en la citación e incrementos en el número de citas del 70% (Piwowar et. al, 2008). Sin embargo pese a la percepción positiva y al puñado de argumentos, los científicos no se animan y el investigador prefiere mantener sus ficheros en su disco duro hasta que un día éste dé “error fatal” y desaparezcan para siempre.

Claro, si uno analiza la cuestión, no les falta razón ya que por ahora son muchas las dudas en torno al tema. La cuestión básica “¿dónde deposito mis datos?” aún no está resuelta ya que apenas existen repositorios ni infraestructuras y, además, en el caso de que se crearan, las incertidumbres sobre el destino de los datos son enormes; la escasa protección en caso de apropiaciones indebidas, la falta de reconocimiento a la hora de ser citado o la posibilidad de que otros hagan papers a costa de nuestro esfuerzo, son cuestiones a resolver.

Pero principalmente no olvidemos que los datos son el motor de las publicaciones y éstas, para el científico, son un bien intercambiable por dinero en forma de tramos o de financiación y nadie en su sano juicio va a poner a disposición de desconocidos su pequeño capital.

Por todo esto, el data sharing como práctica generalizada implica no sólo un cambio cultural sino también unas reglas de juego bien establecidas; y aunque puede generar beneficios colectivos también puede provocar perjuicios individuales y al final, estos últimos, decantan la balanza.

Compartir datos por decretazo

Sin embargo ya hay algunos que se están tomando el tema en serio y si no quieren compartir voluntariamente se les obliga. Esta posición se entiende desde el punto de vista de una Administración pública ya que ellas financian la investigación y el output de sus proyectos no debe ser sólo un conjunto de resultados y conclusiones.

Ellas también tendrían que reclamar los datos generados que deberían poder ser utilizados por otros científicos del mismo sistema público. Asimismo se reciclarían todos esos proyectos que no alcanzaron los resultados esperados pero cuyos datos sí pueden ser de interés y, en última instancia, se podrían evitar investigaciones duplicadas ahorrándose un poco de dinero.

En fin, las agencias pagan y tendrían que darse cuenta que los datos no son de los científicos que ejecutan los proyectos sino de ellas, que para eso ponen el dinero sobre la mesa.

Aunque esta política pueda parecer exagerada, agencias y organismos, nacionales y supracionales se están poniendo en marcha (Fukasaku, 2007). El ejemplo más claro es el de los National Institutes of Health (NIH)4, que desde 2003 exigen a todos los proyectos financiados con más de 500.000 US$ que compartan sus datos.

El plan de los NIH es muy sencillo: los investigadores al presentar la solicitud deben incluir un plan para compartir los datos generados por el proyecto. Además los NIH no han dejado solos a los investigadores y han creado diversos repositorios como el GenBank5, Protein Cluster6 o PubChem7.

Si a esta política le sumamos la reciente, relativa a que todas las publicaciones sufragadas por los NIH deben ponerse en acceso abierto (Martínez, 2008), podemos sospechar cuál puede ser el siguiente paso a unos años vista.

Se puede concluir que si los investigadores no se animan a compartir de forma natural, lo mejor es actuar con políticas de decretazo como la de los NIH, lo que pensado en frío no deja de ser un poco triste.

Una buena oportunidad

Dejando tristezas a un lado, si estas políticas se extendieran y al final los argumentos a favor prevalecieran sobre los argumentos en contra, el tema nos presentaría un buen puñado de problemas técnicos bastante estimulantes; y es que colgar datos no es igual que colgar ppts o compartir enlaces; nos encontramos con información mucho más compleja, con especificidades propias de cada especialidad, a veces sujeta a leyes de protección de datos (por ejemplo de pacientes), con formatos múltiples (numéricos, textuales, multimedia…; sas, html, raw…), que requerirían pautas de normalización y presentación para su depósito, que necesitarían de sistemas de recuperación más complejos y más amigables y que necesitarían de una conservación de los datos a largo plazo.

A todo esto habría que sumar unas normas éticas y un contexto legal para proteger a los depositantes y por supuesto encontrar quien corra con los costes de las infraestructuras y formación de los científicos. En fin, toda una serie de cuestiones que no se resuelven en dos días ni en dos años.

Está claro, por tanto, que en toda esta historia puede haber algo positivo para nosotros, si las grandes triunfadoras del Open Access han sido las bibliotecas universitarias, como las entidades encargadas de tutelar los repositorios, con los repositorios de datos puede o debe ocurrir lo mismo y quizás deberían ser los profesionales de la información los encargados de comenzar a resolver los problemas reseñados y abonar el terreno.

El editorial de Nature (2009) no puede ser más explícito al respecto: la comunidad científica, para llevar a cabo el data sharing, necesita el equivalente digital de las bibliotecas actuales, es decir, alguien que preserve y haga accesible todos esos datos y se apunta directamente a las bibliotecas universitarias, como instituciones, y al data management, como rama del conocimiento, como los pilares sobre los que se debe apoyar el futuro del data sharing.

Ante estas afirmaciones no voy a apuntar qué es lo que se debe o no se debe enseñar en las facultades de documentación, simplemente apuntar que estamos ante otra muy buena oportunidad: la especialidad denominada data curation.

Notas y enlaces

1. http://www.nature.com/news/specials/datasharing/index.html

2. Texto original de Galton (Biometrika, n. 1, 1901): “’I have begun to think that no one ought to publish biometric results, without lodging a well-arranged and well-bound manuscript copy of his data in some place where it should be accesible”.

3. http://www.rcsb.org/pdb/home/home.do

4. http://grants.nih.gov/grants/policy/data_sharing/

5. http://www.ncbi.nlm.nih.gov/Genbank/index.html

6. http://www.ncbi.nlm.nih.gov/sites/entrez?db=proteinclusters

7. http://pubchem.ncbi.nlm.nih.gov/

Referencias

Crawford, Susan Y.; Hurd, Julie M.; Weller, Ann C. “From print to electronic: the transformation of scientific communication”. Medford: ASIS, 1996.

Fukasaku, Yukiko. International initiatives in data sharing: OECD, CODATA and GICSI. 2007. Disponible en:
http://www.aepic.it/conf/viewabstract.php?id=269&cf=10

Hrynaszkiewicz, Iain; Altman, Douglas. “Towards agreement on best practice for publishing raw clinical trial”. Trials, 2009, v. 10, n. 17. Disponible en:
http://www.trialsjournal.com/content/10/1/17

Martínez, Luis-Javier. “Más acceso abierto”. Observatorio de Martinej, 2008. Disponible en:
http://martinej.wordpress.com/2008/01/24/mas-acceso-abierto-nih/

Martínez-Uribe, Luis; Macdonald, Stuart. “Un nuevo cometido para los bibliotecarios académicos: data curation”. El profesional de la información, 2008, v. 17, n. 3, mayo-junio, pp. 273-280.

Data’s shameful neglect. Nature, 2009, v. 461, n. 7261, p. 145.

Nelson, Bryn. “Empty Archives”. Nature, 2009, v. 461, n. 10, pp. 160-163.

Piwowar, Heather; Fridsma, Douglas B. “Examining the uses of shared data”. Nature Preceedings, 2007. Disponible en:
http://precedings.nature.com/documents/425/version/3

Piwowar, Heather; Day, Roger S.; Fridsma, Douglas B. “Sharing Detailed Research Data Is Associated with Increased Citation Rate”. Plos One, 2007, v. 3, e308.

Ramasamy, Adaikalavan; Mondry, Adrian; Holmes Chris C.; Altman, Douglas G. “Key Issues in Conducting a Meta-Analysis of Gene Expression Microarray Datasets”. Plos Medicine, 2008, v. 5, n.9, e184.

Rennolls, Keith. “Science demands data sharing”. BMJ, 1997, v. 315, n. 7106. Disponible en:
http://www.bmj.com/archive/7106/7106l7.htm

Roba-Stuart, Óscar. “Archivos de datos en línea para ciencias sociales”. El profesional de la información, 2003, v. 12, n. 5, sept.-oct., pp. 400-410.

Daniel Torres-Salinas
Miembro del Grupo ThinkEPI





documenéame documenéame -


Otras aportaciones

LA SINCERIDAD DE LOS INVESTIGADORES

Por: Oskar Calvo

Yo creo que compartir es crecer, y (perdonad que sea pesado) la comunidad de software libre a nivel mundial es un buen ejemplo de ello.

En muchos aspectos de la informática, los desarrollos, crecimientos y mejoras no vienen de las grandes empresas, sino de las comunidades de software libre. El hecho de compartir el conocimiento (código fuente, manuales de trabajo, etc.) ha permitido que muchos programadores puedan partir de desarrollos más avanzados a la hora de crear sus propios programas, es la diferencia de los sofware privativos, que sus desarrollos parten de cero, y/o últimamente estan añadiendo librerías de software libre (aunque no lo dicen).

Lo más importante, y donde la comunidad de software libre es más seria, es en el respeto de las licencias y autorías, normalmente se referencia e indica los autores originales de donde se han cogido parte de código, ideas, formas de trabajar etc.

Al final, todo responde a la sinceridad de los investigadores en reconocer de dónde parten y con qué datos.

Creo que es una gran oportunidad para la comunidad.