martes, 27 de mayo de 2025

La investigación y la estadística

 

Ayer me dio por mirar mi estatus en ResearcheGate (RG).

Para los profanos aclararé que RG, según la define Wikipedia, es una red social y una herramienta de colaboración dirigida a personas que hacen ciencia de cualquier disciplina. Según la defino yo, RG es una especie de Twitter para investigadores científicos.

En ese portal están colgadas todas mis publicaciones, que no es que sean muchas, pero algo es algo y ahí están. Visito la web de tarde en tarde y casi siempre que lo hago es por la turra que me da en forma de correos esa red social: «Tu trabajo ha sido citado en otra publicación», «Enhorabuena, Paloma, tu estatus ha subido mogollón de puntos», «Tienes nuevos seguidores que leen tus publicaciones, sigue así», etcétera, etcétera. El caso es que ayer uno de esos correos me llamó la atención porque me decía que «mi puntuación de interés de investigación es superior a la del 66% de los miembros de ResearchGate». Estoy por encima de la media (por los pelos, pero por encima). ¡Olé, olé y olé!

Reconozco que me puse muy contenta, para qué os voy a engañar. Pero eso fue ayer. Hoy, tras descansar adecuadamente durmiendo mis ocho horas preceptivas y con la mente más despejada, me he puesto a reflexionar y el dato del día anterior me ha dejado más dudas que certezas porque me han surgido unas cuantas preguntitas: ¿Hasta qué punto es fiable esa información? ¿De dónde salen esos números? ¿Con quién me han comparado para salir tan bien parada? ¿Han hecho una estadística lineal o han elegido los datos que mejor se adaptaban para darme una alegría?

En resumidas cuentas, me he puesto en plan susceptible y muy escéptica, porque el escepticismo, después de la demencia, es un pilar fundamental de la ciencia y yo, sobre todo con las alabanzas, soy muy, pero que muy escéptica.

Mi incredulidad o mosqueo se basa en el mal concepto que tengo de la estadística.

La estadística y yo no nos llevamos bien. Ella se porta muy mal conmigo. Sobre todo, me trató fatal durante la realización de mi tesis doctoral. Las horas infinitas que empleé para obtener un dato medianamente publicable con los resultados extraídos de los experimentos del estudio nutricional en el que se basó mi doctorado me han dejado secuelas irreversibles y un estrés postraumático de padre y muy señor mío. Mis cuitas con las p-value ya las expliqué en otra publicación y no voy a seguir haciéndome sangre, pero aún arrastro una penita muy grande por culpa de esa maldita p. En busca de la significación perdida

Si algo aprendí de aquella etapa del doctorado fue que no te puedes fiar de la estadística. Los recursos aplicables para encaminar una información por donde más interesa o, lo que es lo mismo, para darle la vuelta a la tortilla, son infinitos, todo es cuestión de saber utilizar correctamente esas herramientas y segmentar los datos de manera que aquello se muestre como tú quieres. Esto es así. Y no quiero decir que actuando de esa manera se esté incurriendo en una mala praxis, en absoluto, solo que los datos nos pueden informar de una cosa u otra según lo que busquemos.

Por eso, porque lo he vivido en primera persona, cuestiono la estadística en todos los niveles, incluso cuando me beneficia. Además, después de todo lo pasado con mi «amiga» la estadística, hay cosas que sigo sin entender.

Por ejemplo, la información que ayer me facilitó RG:



 


 

Según estos datos, me han citado un 34,42%. ¿Eso qué quiere decir? ¿Que de 100 lecturas, 34 veces han utilizado mis publicaciones para citarlas en otros artículos? ¿Que el 34,42% de mis publicaciones han sido citadas? Si es esto último, y considerando que tengo 16 publicaciones, quiere decir que han citado por ahí a cinco publicaciones y media, con lo que me surge otra pregunta ¿cómo se cita media publicación? ¿poniendo el nombre de la mitad de los autores?

Otra cosa que no me queda clara es eso de 23,55% de «otras lecturas». ¿Otras lecturas? ¿Cuáles? ¿las de los artículos del blog? Que yo sepa RG no sabe que escribo por aquí, o a lo peor sí. ¿Se referirán a lecturas no soporíferas, no científicas, lo que se ha leído buscando otra cosa?

El porcentaje que sí entiendo es el de 36,78% de lecturas de texto completo. Como yo soy de ver la botella medio vacía en lugar de medio llena, mi conclusión es que un 63,22% empezó a leer mis artículos y abandonaron por no resultar interesantes, o lo que viene a ser lo mismo: por peñazo insufrible.

Lo de 5.248% recomendaciones no me siento capaz de analizarlo. No puedo imaginar una situación donde mis artículos se recomienden a ese nivel, a no ser que se estén repartiendo mis publicaciones entre los espectadores de la final de la Champions o algo parecido. Ahondando en el mismo tema, si miramos en la parte superior izquierda pone que me han recomendado 26 veces. A mí, una experta en retorcer datos, no me sale lo de 5.248% de ninguna de las maneras.

Lo que acabo de exponer viene a reforzar mi idea de que no te puedes fiar de la estadística.

Lo cierto es que nos bombardean constantemente con porcentajes en cualquier ámbito de la vida. Las noticias están llenas de estadísticas. La poca fiabilidad a la que me refiero es notablemente palpable cuando nos dan los números sobre la intención de voto antes de unas elecciones políticas. Una vez hecho el recuento de votos, el resultado invariablemente no tiene nada que ver con los «pronósticos».

Sin embargo, sin estadística no se puede publicar que es lo mismo que no poder investigar. Precisamente, sobre este tema de la necesidad de publicar si uno quiere investigar ya lo traté en un artículo de los que RG maneja en mi perfil (no sé si perteneciente al grupo de los que se han leído por completo, los que se han citado o de los recomendados en la final de la Champions): «Lo impactante que es tener un buen factor de impacto».

Cualquier artículo científico que se precie debe ir bien surtido de gráficas y tablas que reflejen el estudio estadístico que sustenta el tema a estudiar. Además, y vuelvo a las andadas, la p significativa (un parámetro que evalúa la calidad e importancia de los datos obtenidos) condiciona el trabajo de todo un equipo y eso supone mucha presión. Encontrar esa puñetera p requiere paciencia, pero también imaginación en algunos casos.

Sea como fuere, de vez en cuando viene bien que los datos (manipulados o no) nos den una alegría. Creo que en esta ocasión, y sin que sirva de precedente, voy a dejar de rayarme y me voy a quedar con los datos que me convienen: según RG he tenido 21.006 lecturas y el interés de mi investigación supera al 66% de los miembros de RG. ¡Olé, olé y olé!


NOTA: Esta publicación se la dedico a mi director de tesis, Francisco José Sánchez Muniz, paciente maestro en mi andadura investigadora y también en mis conocimientos de estadística, así como responsable de que no me suicidara ante mi ineptitud con esa ciencia gracias a su inestimable apoyo. "Paco, si no fuera por ti, yo no estaría en RG."