Sin duda la media aritmética simple es el estadístico más utilizado en estadística; no obstante es una de las medidas que determina el centro de una distribución de datos, pero su cálculo aislado proporciona una foto con encuadre reducido que sin duda oculta un panorama mucho más complejo y a veces incluso contradictorio respecto del conjunto de datos a analizar. Es conocido el chiste del pollo, según el cual si yo me he comido dos pollos y tu ninguna, la estadística afirmaría que en promedio nos hemos comido un pollo cada uno. Por ello, es fundamental en cualquier análisis estadístico, por simple que sea, acompañar la media de otra medida que indique en qué medida los datos se desvían de ese promedio. Esa medida, sin la cual la media queda de alguna forma oscurecida o con un significado ambiguo, es la desviación típica.
La desviación típica es una medida de dispersión que indica el promedio de desviación de cada dato en relación a la media aritmética. Por ejemplo, si la calificación media de un estudiante en un examen es de 6 puntos con una desviación típica de 2 puntos, podemos concluir que la nota de cada estudiante se desvía de 6 puntos, un promedio de 2 puntos. Habrá estudiantes que obtengan 3, con desviación de 6-3=3 puntos, y otros 7, con desviación de 7-6=1 punto, pero la desviación media será de 2 puntos.
Es evidente que no es lo mismo un promedio de 6 puntos con una desviación de 2 puntos, que un promedio de 5.5 puntos con una desviación de 0.5 puntos. Para suspender sería necesario desviarse por debajo de la media aritmética al menos 0.5 desviaciones típicas en el primer caso, y más de 1 desviación en el segundo, de forma que sería más probable en principio suspender en la clase en la que se ha obtenido un 6 de nota media, que en la clase en la que se ha obtenido un 5.5 de promedio.
Así pues, combinando media y desviación típica obtenemos una visión del conjunto de datos mucho mas ajustada a la realidad. De hecho, conociendo la media y la desviación típica de una distribución, es posible aproximar con bastante precisión las probabilidades de los extremos de una distribución, a traves de la desigualdad de Chebyshev. Unicamente con la media, dicha aproximación se realizaría con la desigualdad de Markov y resultaría mucho mas burda.
De hecho, la distribución normal, la más utilizada en la práctica como modelo de distribuciñon de datos, tiene como parámetros a la media y a la desviaciñon típica, de forma que si un conjunto de datos se distribuye de acuerdo a esta distribución, queda totalmente definido conociendo solo su media y su desviación típica.