titulo de pagina
Bondad de ajuste (Test χ2).

Anteriormente hemos estudiado el contraste paramétrico en poblaciones normales, binomiales etc. pero en la práctica, en muchos casos no se conoce la distribución a la que se ajusta la variable aleatoria.

          Para comparar la distribución de unos datos obtenidos experimentalmente y recogidos en una muestra aleatoria simple y una determinada distribución teórica, nos basaremos en la distribución de χ2 . La hipótesis H0 será la de bondad de ajuste.

Este contraste se hace tanto para distribuciones discretas como continuas:

1.-En el caso continuo como el de las distribuciones normal, exponencial, uniforme.. etc. se divide el rango de la variable aleatoria en k intervalos A1,A2,........Ak , cuyas probabilidades p1,p2,.....pk se determinan basándose en la distribución de probabilidad teórica y como siempre, p1+p2+....+pk=1.

Consideramos una muestra aleatoria simple de tamaño n. En el intervalo Ai (i=1,2,...,k) se ha observado una frecuencia θi de ocurrencia de valores de la variable aleatoria. Por otro lado la frecuencia esperada de ocurrencias en Ai es Ei =n·pi .

2.-Caso discreto: Sea X una variable aleatoria discreta, que toma los valores x1,x2,....xk;  tomamos una muestra aleatoria simple de tamaño n y registramos las observaciones θi de cada xi de esa muestra aleatoria simple; frecuencias observadas θi; siendo el modelo teórico P(X=xi)=pi , i=1,2,.....k, n·pi=Ei las frecuencias esperadas.

En ambos casos sabemos que (θi-Ei)2 mide la diferencia entre la frecuencia observada y la frecuencia teórica, por lo que, cuanto mayor sea esa diferencia más sentido tiene rechazar H0.

Asi pues, tenemos:

  • Datos: muestra aleatoria simple de tamaño n.

  • Ho la variable aleatoria X de distribución F(x) responde a una distribución de probabilidad concreta y ha generado la muestra.

  • Estadístico:   χ k-1 2 = i=1 n i -E i ) 2 E i χ k-r-1 2   si Ho es cierta.

r es el número de parámetros de la distribución teórica, estimados a partir de la muestra, o sea el número de cantidades obtenidas a partir de los datos, necesarias para calcular las frecuencias esperadas.

Hipótesis alternativa

Región crítica

X no ha generado la muestra

  χ 2 k-r-1-,-α 2

  • Validez  Ei ≥5 y si no ocurre, se agrupan varios intervalos Ai , en el caso continuo, o varios valores xi si la variable es discreta, hasta conseguir la condición de validez.