Anteriormente hemos estudiado el contraste paramétrico en poblaciones
normales, binomiales etc. pero en la práctica, en muchos casos no se
conoce la distribución a la que se ajusta la variable aleatoria.
Para comparar la distribución de unos datos obtenidos
experimentalmente y recogidos en una muestra aleatoria simple y una
determinada distribución teórica, nos basaremos en la distribución deχ2
.La hipótesis
H0 será la de bondad de ajuste.
Este contraste se hace tanto para distribuciones discretas como
continuas:
1.-En
el caso continuo como el de las distribuciones normal, exponencial,
uniforme.. etc. se divide el rango de la variable aleatoria en k
intervalos A1,A2,........Ak , cuyas
probabilidades p1,p2,.....pkse determinan basándose en la distribución de probabilidad teórica
y como siempre, p1+p2+....+pk=1.
Consideramos
una muestra aleatoria simple de tamaño n. En el intervalo Ai
(i=1,2,...,k) se ha observado una frecuencia θide
ocurrencia de valores de la variable aleatoria. Por otro lado la frecuencia esperada
de ocurrencias en Ai es Ei =n·pi
.
2.-Caso
discreto:Sea X una variable aleatoria discreta, que toma los valores x1,x2,....xk;tomamos una muestra
aleatoria simple de tamaño n y registramos las observaciones θi
de cada xi
de esa muestra aleatoria simple; frecuencias observadas θi; siendo
el modelo teórico P(X=xi)=pi,
i=1,2,.....k,
n·pi=Ei las frecuencias esperadas.
En ambos casos sabemos que (θi-Ei)2 mide la
diferencia entre la frecuencia observada y la frecuencia teórica, por
lo que, cuanto mayor sea esa diferencia más sentido tiene rechazar H0.
Asi pues, tenemos:
Datos: muestra aleatoria simple de tamaño n.
Ho la variable aleatoria X de distribución F(x)
responde a una distribución de probabilidad concreta y ha generado
la muestra.
Estadístico: χk-12=∑i=1n(θi-Ei)2Ei → → χk-r-12 si Ho es cierta.
r es el número de parámetros de la distribución teórica,
estimados a partir de la muestra, o sea el número de cantidades
obtenidas a partir de los datos, necesarias para calcular las
frecuencias esperadas.
Hipótesis alternativa
Región crítica
X no ha generado la muestra
χ2>χk-r-1-,-α2
Validez Ei ≥5 y si no ocurre, se
agrupan varios intervalos Ai , en el caso continuo, o varios
valores xi si la variable es discreta, hasta conseguir la
condición de validez.