Haciendo estadística sin saberlo

admin 3 comentarios

Nota del Editor: Pol Campos nos trae una cuento metafórico sobre cómo hacer cálculos de poder estadístico antes de realizar experimentos, que complementa muy bien esta entrada de Marcos Vera y ésta otra de José Luis Ferreira y Eva Ferreira. Espero que les resulte útil a quienes se inician en el análisis empírico.

De Pol Campos

Después de largos años en el laboratorio, has creado una píldora para hacer que la gente sea mejor persona. ¿Cómo puedes comprobar que esta píldora realmente funciona?

Una forma sería tomártela y comprobar si eres mejor persona, pero probablemente te será difícil convencer a los demás de que la píldora funciona solo con tu experiencia. Descubres que existe un test que mide cuán buena persona eres, pero que sólo se puede realizar una vez (porque la gente le pilla el tranquillo y a la segunda los resultados son muy diferentes). Decides entonces que una forma de comprobar si tu píldora funciona sería seleccionar a dos sujetos, darle a uno tu píldora y al otro una píldora placebo, y comprobar después con el test si el sujeto al que le diste tu píldora es mejor persona que el otro. Con ésto seguramente tampoco convencerías, pues te preguntarían: “¿y si la persona a la que le diste tu píldora ya era mejor persona que la otra?”. Te das cuenta de que la forma con la que probablemente tendrías más éxito sería seleccionar a muchos sujetos, darles aleatoriamente tu píldora o la píldora placebo y comprobar si, de media, los sujetos a los que les diste tu píldora son suficientemente mejores personas que los sujetos a los que les diste la píldora placebo. Pero, ¿cuántos sujetos deberías seleccionar? ¿cuánto mejor personas tienen que ser los sujetos que tomaron tu píldora para decir que la diferencia es suficientemente grande? ¿cuándo podrás concluir por fin que tu píldora funciona?

La estadística nunca despertó tu interés, así que decides ignorarla y hacer el experimento a tu manera. Sabes que la gente puede ser buena persona del 0 al 100 (donde tener 0 “puntos” de buena persona es ser muy mala persona y tener 100 puntos es ser muy buena persona), y crees que es igual de probable encontrarte a una persona con cualquier nivel de buena persona. Decides invitar a 20 sujetos, escoger a 10 sujetos aleatoriamente para darles tu píldora (y darles un placebo a los otros 10) y después medir cuán buenas personas son.  Si los sujetos a los que les diste tu píldora son de media al menos 5 puntos mejores personas que los que tomaron el placebo, concluirás que tu píldora funciona. Pero pronto te das cuenta de que algo no va bien. Dado que podrías tener la mala suerte de que el azar envíe las mejores personas del grupo de 20 sujetos al grupo al que le das tu píldora, ¡es posible que encuentres este efecto de 5 puntos aunque en realidad tu píldora no funcione! Peor aún, te das cuenta de que, sea cual sea el resultado del experimento (aunque encuentres que los del grupo de tu píldora son 40 puntos más buenas personas que los del grupo del placebo), ¡siempre va a existir la posibilidad de que tu píldora no tenga ningún efecto y de que, en realidad, esta diferencia se deba al azar!

Qué golpe más duro. Toda una vida diseñando esta píldora para darte cuenta de que nunca podrás comprobar con certeza si funciona o no. Estás a punto de dejarlo todo atrás para empezar tu nueva vida en el paro cuando te das cuenta de algo. Piensas: “sí que es verdad que, aunque la diferencia entre el grupo de mi píldora y el de placebo fuera de 40 puntos, nunca podré asegurar que esta diferencia se deba a mi píldora y no al azar. Pero sí que puedo ver cuál es la probabilidad de que una diferencia de 40 puntos entre los dos grupos se deba sólo al azar. Es decir, en caso de que mi píldora no funcionase, puedo calcular en qué porcentaje de experimentos encontraría una diferencia tan grande a causa del azar”. Tienes entonces una idea: una buena forma de averiguar si la píldora funciona es comprobar si la diferencia de bondad entre los dos grupos es tan grande como para que sea improbable que se haya producido solo por el azar. Te dices: “si encuentro una diferencia de bondad tan grande entre los que toman mi píldora y los que toman el placebo que la probabilidad de que ocurra solo por azar es del 5% o menos, entonces voy a concluir que mi píldora funciona”.

Te preguntas ahora: “dada la regla que he definido para decidir si mi píldora funciona, si hiciera el experimento con 20 sujetos ¿cuán grande debería ser la diferencia de bondad entre el grupo que toma mi píldora y el que toma el placebo para concluir que mi píldora funciona? ¡Voy a calcularlo!”. Te pones manos a la obra. Coges un dado de 100 caras (te aseguro que existen, pero puedes también simularlo online) y lo tiras 20 veces, apuntando el número que te ha salido cada vez. Cada tirada representa lo buena persona que es uno de los 20 sujetos que ha acudido a tu experimento. Las primeras 10 tiradas representan cuán buenas personas son los sujetos a los que les darás tu píldora, y las segundas 10 tiradas representan los sujetos del grupo del placebo. Calculas la media de los dos grupos (te da 56,17 para el primer grupo y 45,83 para el segundo), y te apuntas la diferencia. En este caso, la diferencia es 10,34. Lo vuelves a hacer, -3,21. Lo vuelves a hacer, 23,89. Lo repites 10.000 veces para crear 10.000 experimentos ficticios. Entonces ordenas los resultados de los 10.000 experimentos ficticios según el resultado, empezando con la diferencia de bondad más grande y acabando con la más pequeña. El número que queda en la posición 500 (el 5% más grande) es 21 puntos. Concluyes entonces que, si en tu pequeño experimento con 20 sujetos encontrases que la diferencia de bondad entre el grupo que toma tu píldora y el grupo que toma el placebo es de más de 21, la probabilidad de que este resultado venga dado por el azar será solo de un 5% o menos. Por lo tanto, concluirás que tu píldora funciona.

Ya está todo listo para realizar el experimento. Estás a punto de salir a reclutar a tus sujetos. Pensando en los 21 puntos, piensas: “oye, ¿y ya es razonable esperar que la diferencia entre los dos grupos sea de 21 puntos? Yo pienso que, si mi píldora tiene algún efecto, el efecto será que los sujetos que la tomen van a ser unos 10 puntos más buenas personas, pero no más (¡tan potente no es!). Entonces, si el efecto real de mi píldora fuera de 10 puntos, ¿sería factible encontrar que la diferencia entre los dos grupos es de 21 puntos?”. Corres hacia tu libreta con las 10.000 diferencias y piensas qué pasaría si tu píldora en realidad tuviera un efecto de 10 puntos. Así que añades 10 puntos a todas las tiradas que hiciste para los sujetos ficticios del grupo de la píldora (simulando que tu píldora tuvo un efecto) y vuelves a calcular la diferencia entre la media del grupo de la píldora y del grupo placebo para cada uno de los 10.000 experimentos ficticios. ¡Te pegas un susto cuando ves los resultados! ¡Aunque el efecto de tu píldora fuera real e hiciera que la gente fuera 10 puntos más buena persona, solo 1.985 de tus 10.000 experimentos ficticios encontrarían una diferencia superior a los 21 puntos! ¡Es decir, aunque tu píldora realmente funcionase, la probabilidad de que concluyeras que funciona sería inferior al 20%!

Te das cuenta de que quizás la clave está en reclutar a más sujetos: “si recluto a más sujetos, la diferencia de la media de buena persona entre los dos grupos va a estar más cercana a 0 (en caso de que no exista ningún efecto) o más cercana a 10 (en caso de que exista un efecto). Por lo tanto, si mi píldora funciona realmente, es más probable que pueda concluir que funciona cuántos más sujetos tenga”. Como no puedes permitirte reclutar un número infinito de sujetos (no tienes tanto dinero), decides reclutar los suficientes para que, si en realidad tu píldora tiene un efecto de 10 puntos, lo puedas concluir en tu experimento con un 80% de probabilidad.

Así que vuelves a tirar los dados imaginándote que, en vez de 20, reclutas a 100 sujetos. Haces los mismos cálculos que antes y calculas que para concluir que existe un efecto deberías encontrar una diferencia de 8,93. Calculas que si el efecto real fuera de 10 puntos, concluirías que existe un efecto con un 55% de probabilidad. No es suficiente. Lo pruebas otra vez con 400 sujetos. 94% de probabilidad. Demasiado. Hasta que pruebas con 200 sujetos. Perfecto: “si hago el experimento con 200 sujetos y en realidad el efecto de mi píldora es de 10 puntos, voy a concluir que mi píldora funciona con un 80% de probabilidad. Si en realidad mi píldora no funciona, solo concluiría que funciona con un 5% de probabilidad”.

Sin darte cuenta, técnicamente has diseñado un experimento con una potencia estadística del 80% para detectar un efecto con un 5% de significatividad. Así, tu probabilidad de cometer un error Tipo II (es decir, de no rechazar la hipótesis nula de no efecto cuando esta es falsa) es de un 20%, y tu probabilidad de cometer un error Tipo I (es decir, de rechazar la hipótesis nula de no efecto cuando esta es cierta) es de un 5%. Estos acostumbran a ser los estándares que las ciencias sociales utilizan para calcular el número de sujetos que necesitan en sus experimentos. Después de hacer este análisis, toca pre-registrar y realizar el experimento.

¡Ah! Al final hiciste el experimento con 200 sujetos y te salió un efecto de 12 puntos. Calculaste que un efecto tan grande solo ocurriría con un 0,2% de probabilidad solo por azar (el valor p es 0,002). Concluiste que tu píldora para ser mejor persona funciona.

¡Próximamente en sus tiendas!

Nota final: Por supuesto, tirar los dados tantas veces cada vez que se quiera realizar un análisis de potencia puede cansar bastante. Otra opción es utilizar fórmulas analíticas que ayudan en el cálculo. No obstante, otra posibilidad (más flexible) es usar simulaciones con algún programa matricial. En este link explico cómo hacerlo con el programa Stata.

Hay 3 comentarios

Los comentarios están cerrados.