Cambiando los gráficos de barras por figuras que aportan más información y una visualización robusta y elegante
En el nº 170 de SUIS, introducíamos un concepto e idea nuevos, que denominamos la “nueva estadística”. Dijimos que las estimaciones estadísticas son un marco de análisis de datos que utiliza una combinación de tamaños de efectos, intervalos de confianza, diseño de experimentos y metanálisis para planificar experimentos, analizar datos e interpretar resultados. Es distinto a las pruebas de significación de la hipótesis nula, que se considera menos informativa.
En este artículo, desarrollamos más ampliamente esta idea para convencer del uso de otro tipo de gráficos que no sean los de barras debido a sus deficiencias. Usaremos para ello los datos de Ho et al. (2019). Son unos datos creados al efecto para mostrar la razón por la que en la actualidad los gráficos de barras no son adecuados. Dado que se asemejan bastante a los kg que podrían pesar unos lechones, adaptaremos esos datos sin unidades como si correspondieran al peso de lechones.
Comenzamos
Los datos se pueden descargar haciendo clic aquí. Una vez descargados, abriremos R y cargaremos RCommander con la instrucción library(Rcmdr). Para cargar los datos, iremos a Datos/Importar datos/ Desde archivo de texto, portapapeles o URL, y le indicaremos la ruta donde se encuentra el archivo descargado denominado “four_samples.csv”. Lo denominaremos barchart y lo primero que haremos será ver un resumen de esos datos yendo a Estadísticos/Resúmenes/Conjunto de datos activos y obtendremos la siguiente salida:
Si a algún lector obtiene la salida siguiente:
lo que debe hacer es convertir la variable “grupo” en factor. Una forma muy cómoda es escribiendo en la pantalla de scripts la instrucción:
barchart$grupo<-as.factor(barchart$grupo)
y repetir la instrucción del resumen de datos:
(summary(barchart))
En el número 86 hicimos una introducción a R donde explicábamos como realizar estos pasos. Accede al número pinchando aquí o descargándote de manera totalmente gratuita nuestro E-book.
Podríamos decir que esos datos pertenecen, por ejemplo, a los pesos de 4 grupos de 15 lechones cada uno y que han estado tomando cuatro dietas diferentes (A, B, C y D) durante un tiempo. Si vamos un poco más allá podemos obtener más estadísticos. El paquete “pastecs” incluye la función stat.desc(my_data) que da un amplio resumen estadístico:
Hay 15 lechones por grupo (nbr.val) que tienen exactamente los mismos estadísticos.
Como vemos se trata de cuatro grupos idénticos de pesos de lechones (en principio). Con un típico gráfico de barras de las medias y sus desviaciones estándar podemos obtener un gráfico como el de la figura de la derecha.
Pesos medios y desviaciones típicas de los lechones por grupo
¡Son idénticos! ¿O no?
No, no son iguales. Los gráficos de barras de las medias (aunque incluya su variabilidad con la desviación típica, el error estándar de la media o el intervalo de confianza), no muestran la forma en que se distribuyen los datos. Vamos a fijarnos en el siguiente gráfico con los mismos datos:
Como podemos ver, hay una gran diferencia a tener los lechones del grupo “A” a tener los lechones del grupo “D” y, sin embargo, tienen las mismas medias, desviaciones, etc. En resumen, los gráficos de barras, que habitualmente muestran las medias:
No muestran todos los valores observados.
No indican el tamaño del efecto (medida de la fuerza de un fenómeno que, aunque puede medirse de varias formas, la más habitual suele ser con el test de la d de Cohen).
La precisión del tamaño del efecto no se indica.
No muestran el intervalo de confianza de la diferencia.
Crean falsas dicotomías si además se les añaden signos como los asteriscos para mostrar diferencias estadísticas.
Estimación estadística
En el número 170 donde introdujimos la estimación estadística y esta forma de visualizar los datos, realizamos un gráfico de estimación estadística que de modo formal se llaman gráficos de Gardner-Altman, quienes los introdujeron en 1986. A nuestro parecer, ha sido Geoff Cumming en 2012 quien los ha renovado y actualizado.
Para recordar, teníamos dos grupos de lechones a la entrada en una granja y estábamos interesados en ver la diferencia de peso. El gráfico que resultaba de su comparación era el mostrado en la imagen de la derecha.
Pesos entrada lechones (SUIS 170)
Comparaciones de las diferencias entre el grupo A de lechones y el resto
Ahora podemos hacer también un gráfico de comparación de nuestro actual ejemplo. Como tenemos 4 grupos, usaremos una múltiple comparación que nos dará Anova. Si imaginamos que nuestro grupo control es “A” y queremos compararlo con el resto de los grupos usando este tipo de gráficos, obtendremos la imagen que aparece a la izquierda.
Estimación estadística
Como vemos, no hay diferencias entre los grupos a pesar de que las distribuciones son totalmente diferentes.
El problema es que este ejemplo es solo ilustrativo ya que con estos valores no podemos realizar un Anova dado que los datos incumplen los supuestos de Anova: los datos de los grupos B, C y D no cumplen el supuesto de normalidad (test de Shapiro-Wilk).
Para terminar, los lectores interesados en la creación de estos gráficos que se realizan en modo de programación pueden dirigirse este enlace donde se describen todos estos gráficos. Para acceder a la programación de los mismos, acceder directamente aquí.
Esperamos que hayan disfrutado de la lectura tanto como nosotros realizándola.
Artículo número 173 publicado en Suis