Uno de los problemas más comunes en estadística es la comparación de varias medias para subconjuntos de datos que se han desagregado de un conjunto más amplio, por ejemplo cuando comparamos las edades medias de la plantilla de una empresa desagregadas por centro de trabajo. En tales situaciones se puede plantear la situación de cómo calcular la media global del conjunto de datos pero a partir de las medias parciales o submedias, es decir, cuando no disponemos de los datos originales que nos permitan calcular la media de todos los datos directamente.
La respuesta inmediata de muchas personas con un contacto limitado con la estadística sería calcular simplemente la media (aritmética simple) de las medias, tomando palabra por palabra lo que se quiere calcular: media de las medias. Por ejemplo, si en el centro de trabajo A la edad media de los trabajadores es 30 años y en el centro de B 50 años, la edad media de la empresa sería (30+50)/2=40 años.
Craso error, porque las medias generalmente vienen dadas para diferentes tamaños de muestra. Evidentemente, si en el centro de trabajo A trabajan 60 personas y en el centro de trabajo B trabajan 20, es claro que la edad media del conjunto de la empresa estará mucho más cerca de los 30 años que de los 50, siendo el resultado de 40 totalmente incorrecto.
¿Cómo lo calculamos entonces? Es cuestión de aritmética elemental. Si la edad media en A es de 30 años para 60 personas, la suma de edades de esos trabajadores es 30x60=1800 años, y para el centro de trabajo B 50x20=1000 años. De esta forma la suma total de edades para el conjunto de la empresa es de 1800+1000=2800 años, y por tanto la edad media para toda la empresa es de 2800/(60+20)=35 años.
La fórmula general para el cálculo de medias es esta, siento y el tamaño muestral y la media del subgrupo , y el número de subgrupos:
La fórmula anterior no es más que la aplicación de la media aritmética ponderada, que es una formula para medias que otorga diferente ponderación o peso a cada uno de los datos que en incluyen, en nuestro casos medias subgrupales que ponderan en base al tamaño muestral de cada subgrupo. Y es que la media aritmética simple otorga igual peso a todos los datos, solución que no es la correcta en estos casos. Evidentemente, solo hay un caso en que la medias de las medias, tal cual, sumando las medias y dividiendo entre el número de medias, da el resultado y correcto, y es aquel en el todas medias se refieren a un mismo tamaño muestral.
Deja una respuesta