Aunque con diferentes denominaciones (media, promedio, medida central), el promedio es el cálculo estadístico más frecuente en la práctica, y el promedio por antonomasia la media aritmética simple: se sitúa perfectamente en el centro de gravedad de los datos, por lo que coincide absolutamente con el significado etimológico del promedio, “hacia el medio”. Sin embargo, su habitual utilización no nos debe llevar a utilizarla sin un sentido adecuado de la oportunidad. Y es que la estadística nos proporciona una amplia panoplia de promedios alternativos a la media simple, ajustados a diferentes circunstancias.
Recordemos en primer lugar que no todas las medidas de tendencia central en estadística son promedios. Definiremos promedios como aquellos estadísticos de tendencia central que, si no todos los datos, utilizan una parte de significativa de ellos y los promedian, es decir los aúnan, los combinan, para proporcionar un único valor representativo de toda de la muestra. Al promediar, lo que queremos es utilizar todos o una gran parte de los datos que tenemos, tener en cuenta gran parte de la información contenida en los datos.
Dado que la media aritmética simple es el promedio más utilizado, veamos cuales son las situaciones en las deberíamos dejarla a un lado y optar por otro promedio más adecuado a la situación.
La media aritmética simple asigna igual peso o importancia, más rigurosamente misma ponderación, a todos los datos de una muestra. Pero es que a veces no todos los datos de la muestra deben ser tomados por igual al calcular su promedio. El ejemplo más claro son las sucesivas calificaciones de un estudiante: si las notas corresponden a lecciones con diferente importancia porcentual de cara a la nota global, deberían ser consideradas de forma también desigual al calcular el promedio. Otro ejemplo frecuente son los promedios de porcentajes relativos a diferentes totales, porcentajes que deben promediar en relación a dichos totales. Para estos casos utilizaremos la media aritmética ponderada, que además de los datos, tiene en cuenta la ponderación o peso atribuido a cada dato.
En otros casos es la propia naturaleza de los datos la que nos obliga a buscar alternativas a la media aritmética: (1) en el caso de datos relativos a errores, tanto positivos como negativos, el uso de la media simple provoca un efecto de compensación de errores que conlleva su completa distorsión; para esos casos, deberá utilizarse la media cuadrática; (2) para las tasas de crecimiento y tipos de interés, la media geométrica será la que meustre coherencia con la ley de crecimiento exponencial; (3) finalmente, para rendimientos y velocidades medias, la media armónica aparece como el promedio que coincide con el significado original de rendimiento y velocidad.
Pero el problema más habitual que suele presentar el uso de la media aritmética como promedio es la aparición de datos atípicos en la muestra, que provocan la distorsión del resultado de la media e invalidarla absolutamente. Por ejemplo, hemos muestreado estos datos sobre rentas familiares en un barrio concreto:
96 99 101 92 91 89 90 105 107 111 99
114 120 85 109 95 112 88 116 98 535
Como podemos comprobar que las mayorías de rentas están comprendidas entre 85 y 116, excepto los potentados del barrio que llegan a una renta de 535 (prescindo de unidades). La renta media es 121.5, que es evidente que no resulta un valor representativo del conjunto de datos. Nadie, excepto los potentados, llega a una renta de 121.5. Lo que ha ocurrido es que la renta atípica de 535 ha arrastrado a la media hacia arriba desde alrededor de 100, valor más coherente con el concepto de centralidad que buscamos cuando calculamos el promedio para estos datos.
Cuando un estadístico es especialmente sensible a la presencia de valotes atípicos, decimos que es una medida no robusta. La utilización de medidas robustas es una condición a imponer en cualquier estudio estadístico en los que se dan datos atípicos, y como hemos comprobado la media aritmética no lo es.
La medida de centralización robusta más utilizada es la mediana, que coincide con el dato que se sitúa en el centro de la distribución. Sin embargo, la mediana no es un promedio y ahí precisamente radica su principal inconveniente, que infrautiliza la información contenida en los datos, al tomar como referencia únicamente el dato central.
Lo ideal sería que dispusiéramos de promedios, medidas centrales que utilizan un número significativo de datos, que fuesen al mismo tiempo robustos. ¿Existen? Afortunadamente, sí. A continuación presentamos los más básicos y utilizados:
- Medias truncadas o recortadas, aquellas que prescinden de su cálculo a un porcentaje o número dado de datos en cada extremo.
- Media intercuartílica, aquella media recortada al 25% en cada extremo, es decir, limitada al 50% central de datos.
- Medias winsorizadas, similares en origen a las medias recortadas, pero que en lugar de eliminar los datos extremos, los sustituyen por los valores de los datos más cercanos sin sustituir.
- Media de cuartiles (en inglés, midhinge, literalmente bisagra media), que no es mñas que la media del primer y tercer cuartiles.
- Trimedia, media de mediana y primer y tercer cuartiles.
Además de estos promedios, más bien de andar por casa, también disponemos de otros más avanzados, basados en el método de los M-estimadores. Pero esto ya sería tema de otra entrada.
Y una pregunta para ti, lector, acerca de los promedios propuestos, ¿cuáles serían los que más promedian? ¿Y los que menos?
Deja una respuesta