Otros

Factores endógenos y exógenos (y variables endógenas y exógenas)

Josemari Sarasola · Mar 30, 2022 · Dejar un comentario

Cuando investigamos sobre una variable relativa a un fenómeno o sistema más o menos complejo, los factores endógenos (de endo, "dentro)son aquellos que se encuentran dentro del sistema que se estudia, y que generalmente se pueden controlar. Los factores exógenos (de ex, "fuera") en cambio son los factores que ejercen influencia sobre la variable de estudio desde fuera del fenómeno o sistema que estamos investigando. Por poner un ejemplo, cuando se investiga el rendimiento matemático de un grupo de alumnos, el método pedagógico y otras cuestiones de organización escolar son factores endógenos, más o menos controlables por el profesor, mientras son factores exógenos aquellos ajenos al profesor y externos a la escuela, como por ejemplo las dificultades de aprendizaje propias de cada estudiante, la situación familiar o el marco institucional educativo. En realidad, la distinción entre factores endógenos y exógenos depende de la perspectiva y situación del investigador, y es que, volviendo al ejemplo anterior, para el profesor su método pedagógico es una factor endógeno, y la organización escolar (horas de docencia, ...) un factor exógeno; pero desde el punto de vista de la escuela tanto el método pedagógico como la organizaciñon escoalr son factores endógenos.

En una acepción más limitada y en relación a un modelo estadístico, las variables endógenos (mejor que factores endógenos) son aquellas variables que fijan sus valores dentor del propio modelo, mientras que las variables exógenas vienen determinadas desde fuera del modelo, por lo que se suelen incluir siempre como variable independiente.

La media de las medias: si lo haces simple, vas mal

Josemari Sarasola · Mar 14, 2022 · Dejar un comentario

Uno de los problemas más comunes en estadística es la comparación de varias medias para subconjuntos de datos que se han desagregado de un conjunto más amplio, por ejemplo cuando comparamos las edades medias de la plantilla de una empresa desagregadas por centro de trabajo. En tales situaciones se puede plantear la situación de cómo calcular la media global del conjunto de datos pero a partir de las medias parciales o submedias, es decir, cuando no disponemos de los datos originales que nos permitan calcular la media de todos los datos directamente.

La respuesta inmediata de muchas personas con un contacto limitado con la estadística sería calcular simplemente la media (aritmética simple) de las medias, tomando palabra por palabra lo que se quiere calcular: media de las medias. Por ejemplo, si en el centro de trabajo A la edad media de los trabajadores es 30 años y en el centro de B 50 años, la edad media de la empresa sería (30+50)/2=40 años.

Craso error, porque las medias generalmente vienen dadas para diferentes tamaños de muestra. Evidentemente, si en el centro de trabajo A trabajan 60 personas y en el centro de trabajo B trabajan 20, es claro que la edad media del conjunto de la empresa estará mucho más cerca de los 30 años que de los 50, siendo el resultado de 40 totalmente incorrecto.

¿Cómo lo calculamos entonces? Es cuestión de aritmética elemental. Si la edad media en A es de 30 años para 60 personas, la suma de edades de esos trabajadores es 30x60=1800 años, y para el centro de trabajo B 50x20=1000 años. De esta forma la suma total de edades para el conjunto de la empresa es de 1800+1000=2800 años, y por tanto la edad media para toda la empresa es de 2800/(60+20)=35 años.

La fórmula general para el cálculo de medias es esta, siento $n_i$ y $\overline{x_i}$ el tamaño muestral y la media del subgrupo $i=1,2,\ldots,k$ , y $k$ el número de subgrupos:

$\overline{x}=\cfrac{n_1\overline{x_1}+n_2\overline{x_2}+\cdots+n_k\overline{x_k}}{n_1+n_2+\cdots+n_k}$

La fórmula anterior no es más que la aplicación de la media aritmética ponderada, que es una formula para medias que otorga diferente ponderación o peso a cada uno de los datos que en incluyen, en nuestro casos medias subgrupales que ponderan en base al tamaño muestral de cada subgrupo. Y es que la media aritmética simple otorga igual peso a todos los datos, solución que no es la correcta en estos casos. Evidentemente, solo hay un caso en que la medias de las medias, tal cual, sumando las medias y dividiendo entre el número de medias, da el resultado y correcto, y es aquel en el todas medias se refieren a un mismo tamaño muestral.

Sobre poblaciones finitas e infinitas

Josemari Sarasola · Ene 25, 2022 · Dejar un comentario

Es más que habitual comenzar los cursos de estadística con una lección sobre los conceptos básicos utilizados en estadística, y en la mayoría de los casos se hace referencia a los conceptos de población y muestra, distinguiendo entre poblaciones finitas e infinitas. Sin embargo, pienso que la distinción se hace de forma teórica artificial, sin mostrar al alumno las implicaciones reales y prácticas de tener una población de estudio tanto finita como infinita.

Empecemos por las poblaciones finitas. Aunque el adjetivo nos lleve a pensar que una población finita es aquella que tiene un número limitado de elementos (y en cierta forma lo es, como veremos), la distinción práctica entre ambos tipos de poblaciones nos lleva plantear una conceptualización más precisa: población finita es aquella en la que están enumerados, en forma de lista, todos sus elementos. Así, por ejemplo, son poblaciones finitas todo el parque automóvil de un país (ya que cada vehículo está matriculado), los estudiantes de una universidad (existe una base de datos que los incluye a todos) y también los libros publicados en un país concreto. Lo que nos permite esta enumeración exhaustiva de todos los elementos de una población finita es que en el más que probable caso que no podamos examinar uno a uno todos sus elementos para extraer el dato que nos interesa, seamos capaces de elegir que elementos concretos del todo el colectivo van a integrar la muestra desde la que extrapolaremos la información que obtengamos a la población, y la forma más sinple de realizar esto es a través de un muestreo aleatorio sin reposición o reemplazamiento. Hay poblaciones limitadas en tamaño de las que no podemos enumerar todos sus elementos, por no tener el listado completo de todos ellos, por ejemplo los asteroides del Sistema Solar, porque hay muchos que todavía no se han descubierto, por lo que limitarnos a la lista de los asteroides ya observados para realizar el muestreo nos llevaría a un sesgo en nuestras estimaciones (ya que por ejemplo, los asteroides no descubiertos será seguramente más pequeños que el resto). Por tanto, estas poblaciones limitadas no enumeradas exhaustivamente no serían poblaciones finitas, porque no permitirían un muestreo sin reemplazamiento. En resumen, población finita no es población limitada sino población enumerada, teniendo en cuenta que todas las poblaciones enumeradas son limitadas pero no todas las poblaciones limitadas son enumeradas.

Las poblaciones infinitas en cambio no es no tengan limite, aunque de hecho muchas veces suelen no tenerlo, sino que no podemos enumerar sus elementos exhaustivamente, por imposibilidad material (por ejemplo, los escarabajos presentes en un zona durante un periodo de tiempo) o porque sus elementos son virtuales y no efectivos (por ejemplo, las temperaturas máximas diarias en un lugar concreto, ya que a pesar de disponer un registro de las temperaturas pasadas, no conocemos las que ocurrirán en un futuro). Los dos ejemplos que acabo de proporcionar ilustran además el hecho de que una población infinita puede no tener límite (como literalmente puede entenderse) o no: el conjunto de las temperaturas máximas es realmente ilimitado e infinito, pero la poblaciñon de escarabajos es limitada, aunque por falta de enumeraciñon no puede considerarse finita. La implicación práctica más importante respecto a las poblaciones infinitas es que no podemos desarrollar un muestreo sin reemplazamiento en ellas. ¿Qué tipo de muestreo es válido entonces para las poblaciones infinitas? Pues tendremos que desarrollar un muestreo aleatorio simple para su estudio, que lo que establece fundamentalmente es que las observaciones que contenga nuestra muestra deben tener la misma probabilidad de ser seleccionadas y ser independientes entre sí y para ello suele ser suficiente cierta distancia entre observaciones, tanto en el espacio (por ejemplo, en el caso de los escarabajos) como en el tiempo (por ejemplo, en el caso de las temperaturas máximas, no deberían elegirse temperaturas de dias consecutivos porque mostrarían una clara dependencia). Dicho sea de paso, un muestreo aleatorio simple coincidiría con un muestreo con reemplazamiento.

Poblacion finita o infinita tiene que ver en resumen no tanto con que los elementos de la población sean finitos o infinitos, sino con el tipo de muestreo que podamos realizar en cada caso.

Y para finalizar, voy a establecer otra distinción entre poblaciones finitas e infinitas. En las poblaciones finitas, la aleatoriedad aparece unicamente relacionada con la incertidumbre sobre el elemento que se va extraer para componer la muestra, al realizarse dicha extracción al azar, ya que el dato que buscamos es fijo y conocido. Sin embargo, en las poblaciones infinitas, la aleatoriedad proviene del hecho de que no podemos conocer de antemano que dato nos proporcionará el elemento que conformará la muestra y por tanto este es aleatorio (por ejemplo, no sabemos que longitud tendrá el próximo especimen de escarabajo que recolectemos o la temperatura máxima que hará el 13 de junio).

La enseñanza del contraste chi cuadrado de Pearson: un falso dilema

Josemari Sarasola · May 1, 2021 · Dejar un comentario

El contraste chi cuadrado de Pearson tiene dos aplicaciones bien diferenciadas: por un lado, se utiliza como una prueba de bondad de ajuste de un conjunto de datos a una distribución de probabilidad concreta, y por otro, como prueba de independencia en una tabla de contingencia. Durante los largos años de docencia de estadística, he consultado cientos de referencias bibliográficas y apuntes y en ellos he podido comprobar que frecuentemente se presenta la prueba chi-cuadrado en sus dos vertientes prácticas al mismo tiempo, y normalmente en el contexto de ir mostrando las pruebas de hipótesis más utilizadas una a una, primero contrastes sobre la media, luego sobre la proporción y la varianza, diferencia de medias y proporciones, igualdad de varianzas, etc, y finalmente aparece la prueba chi-cuadrado como una prueba especial, en la que se dice al estudiante que se puede aplicar de dos maneras. Puedo entender el dilema al que se enfrentan los profesores: ya que hay explicar la distribución chi cuadrado, vamos a matar dos pájaros de un tiro, y presentamos sus dos aplicaciones, porque de otra forma deberíamos explicar lo mismo dos veces.

Pero es que no es explicar lo mismo. No debería haber ninguna duda al respecto. Si bien las dos pruebas utilizan el mismo estadístico chi cuadrado y este se distribuye según la distribución chi cuadrado, las dos pruebas se aplican de forma bien diferente aunque tengan el mismo fundamento teórico. Muy probablemente, la presentación conjunta de las pruebas se deba a la tendencia a presentar la estadística en forma teórica, primero a través de sus distribuciones y luego deduciendo las distribuciones de los estadísticos más utilizados. Tendencia errónea, que ha llevado frecuentemente a presentar la estadística fuera de toda aplicación (y es que muchas veces ocurre que para cuando se ha presentado toda la parte teórica de la estadística, el curso ya se ha acabado, justo cuando empezaba lo interesante), pero eso es ya otro tema.

En la mayoría de los estudios universitarios, la estadística debe enseñarse en su vertiente aplicada, y con dichas aplicaciones bien diferenciadas. Por ello, personalmente, creo que la prueba chi-cuadrado no debería aparecer tal cual como tema aparte en ningún caso, y mucho menos presentando una tras otra sus aplicaciones. Lo correcto y procedente es dar un tema sobre pruebas de ajuste, y enseñar la prueba chi cuadrado en relación a esa aplicación, junto con alguna otra prueba de ajuste, por ejemplo la prueba de Kolmogorov-Smirnov (siempre hay que presentar una técnica alternativa si la hay), y otro tema sobre pruebas de independencia, en la que se debería no repetir, sino reformular la prueba chi cuadrado, junto con la prueba exacta de Fisher por ejemplo.

Varianza y desviación típica, ¿para qué dos nombres para (casi) lo mismo?

Josemari Sarasola · Abr 6, 2021 · Dejar un comentario

La varianza y la desviación típica son uno de los contenidos más frecuentes en una introducción en la estadística. Su uso es generalizado en toda área de la estadística, siendo además los dos estadísticos más utilizados como medidas de dispersión.

Como es de sobra conocido, la varianza es el cuadrado de la desviación típica (o las desviación típica la raiz positiva de la varianza), es decir tanto monta, monta tanto, ... Y entonces, ¿cómo es que se denominan con diferentes nombres a las dos? No sería más económico, dar un nombre a uno de ellas, y denominar a la otra a partir de la primera? ¿Para qué sirve tal galimatías (aunque no sea tanto, también es cierto), si al final de una se saca la otra? De hecho, una de las confusiones frecuentes en estadística se refiere a si al especificar una distribución normal, debemos tomar además de la media como parámetro de la distribución la varianza ( $\sigma^2$ ) o la desviación típica ( $\sigma$ )

La respuesta es clara: los dos estadísticos se utilizan profusamente, pero no da igual una que la otra, porque se utilizan en contextos diferentes y además tienen diferentes propiedades. Y por ello es lógico que cada una tenga su nombre, porque en cada situación nos convendrá utilizar más una que la otra.

Respecto a la varianza, lo más interesante son sus propiedades, especialmente la aditividad: la varianza de la suma de un conjunto de variables es la suma de las varianzas, siempre que dichas variables sean estadísticamente independientes entre si. De modo que a la hora de definir un modelo sea más habitual definirlo en términos de varianza para deducir de forma más cómoda las propiedades del modelo, a partir de dichas varianzas.

Sin embargo, la desviación típica no es aditiva en ese sentido. Nunca se deben sumar las desviaciones, que por otra parte es un error común entre los estudiantes a la hora de resolver problemas. Para calcular la desviación de una suma, hay que sumar las varianzas y luego calcular la raiz de dicha varianza ( por ejemplo, si las desviaciones de dos variables son 2 y 3 y sumamos las variables, la desviación de la suma de las dos variables no es $2+3$ sino $\sqrt{2^2+3^2}$ ). Imaginemos que tenemos que explicar todo esto, utilizando las expresiones desviacion y desviación al cuadrado (o varianza y raíz de varianza). ¡Eso sí que sería un perfecto galimatías!

Pero por otra parte, la desviación si bien no cumple la propiedad reseñada, tiene una ventaja importante y es que su valor tiene un significado concreto: la desviación típica es la desviación media a la media aritmética o valor esperado. En cambio, el valor de la varianza no tiene un significado directo. Por ejemplo, si la desviación de las notas de un grupo de alumnos es 2 puntos, sabemos a que nos referimos. Pero el hecho de que la varianza sea $2^2=4$ no tiene significado propio. Por ello, cuando queremos otorgar un significado concreto a un resultado, es más conveniente referirse a la desviación típica, y por eso le damos un nombre propio.