jueves, 20 de septiembre de 2012

TEST SHAPIRO WILK-Marco

1.      INTRODUCCIÓN

El problema general para la determinación de la distribución de procedencia de los datos es tan antiguo como complejo y, en la Estadística se le suele llamar “Prueba de bondad de ajuste” o “ajuste de curvas”. Su planteamiento general está relacionado con las pruebas de hipótesis. El problema de ensayar la bondad de ajuste de las distribuciones teóricas a las distribuciones maestrales es esencialmente el mismo que el de decidir si hay diferencias importantes entre los valores de la población y la muestra. Generalmente, las pruebas están basadas en la hipótesis nula de que no hay diferencias significativas entre la distribución muestral y la teórica.
Es decir:
Es decir:
Donde  es la distribución que se supone sigue la muestra aleatoria. La hipótesis alternativa siempre se enuncia que los datos no siguen la distribución supuesta. Si se desea examinar otra distribución específica, deberá realizarse de nuevo otra prueba suponiendo que la hipótesis nula  tiene esta nueva distribución. Al especificar la hipótesis nula, el conjunto de parámetros definidos por  puede ser conocido o desconocido. En caso de que los parámetros sean desconocidos, es necesario estimarlos mediante alguno de los métodos de estimación.
En este capítulo se revisarán dos de las principales pruebas de bondad de ajuste; a saber, la prueba ji-cuadrada (paramétrica), la prueba de Kolmogorov-Smirnov(no paramétrica); para el caso de la normal se revisará la prueba de Shapiro-Wilk. (Reyes L. 2010)

 DEFINICIÓN
Según Botela et al (2012) señala que para comprobar una hipótesis puede realizar, un Test de Shapiro-Wils en la que comprobaría si es asumible esta hipótesis, o por el contrario, los datos la violan de forma clara. Con este fin, para cada uno de los tres grupos plantearían el siguiente contraste de hipótesis. 
Ho Los valores siguen una distribución normal.
H1: Los valores no siguen una distribución Normal.

Según Figueras y Gallardo (2003) El contraste de Shapiro y Wilks se utiliza para muestras pequeñas (n<30) y utiliza el hecho de que si x(1) x(2) ... x(n) es una muestra ordenada de la N(μ,σ). Evalúan la distribución estadística de r2 bajo hipótesis de normalidad y proporcionan un test que rechaza dicha normalidad cuando el ajuste es bajo, es decir, cuando el estadístico toma valores pequeños.

Según Gutierrez et al (2010) Como ya se ha anticipado, el test de Shapiro- Wilks decide si una muestra sigue una distribución normal o no. Se tiene el siguiente contraste de hipótesis:
H0 = La muestra sigue una distribución normal.
H1 = La muestra no la sigue.

Dada la muestra aleatoria simple de tamaño n {x1, x2, . . . , xn} que se supondrá ordenada de mayor a menor, se calcula el siguiente estadístico de contraste:

 
donde s2 es la varianza muestral,
y las ain se encuentran tabuladas en los manuales. Se rechaza la normalidad cuando el estadístico es menor que el valor de las tablas de la bibliografía.

3.      TEST SHAPIRO WILK

Según Reyes L. (2010), sea x1, x2 ,…, xn  una realización de X1, X2 ,…, Xn y se desea probar la hipótesis de que los datos provienen de una distribución normal. Es decir, probar las hipótesis

H0 : X ~  Normal
H1 : X  Normal

Para probar normalidad se tienen varias decenas de pruebas, una de ellas es muy propicia cuando
el tamaño de la muestra es pequeño, n 50, corresponde a los autores Samuel S. Shapiro y Martin B. Wilk y fue publicada en 1965, actualmente se le conoce como prueba de Shapiro-Wilk. La prueba de Shapiro-Wilk consiste en calcular la estadística de prueba W suponiendo que la muestra aleatoria proveniente de una distribución normal. La estadística W está dada por:
  
Donde
Las x(i) son los valores de la i-ésima estadística de orden,
ai es el i-ésimo elemento del vector

 

Con m = (m1,m2, … ,mn ) y las m1,m2 ,…,mn  son los valores esperados de las estadísticas de orden de las variables aleatorias independientes e idénticamente distribuidas tomadas de una distribución normal estándar de tamaño n, y V es la matriz de varianzas y covarianzas de esas estadísticas de orden y k = [n/2].

Para calcular a, es necesario conocer m y V. sin embargo, ya que V sólo se conoce para tamaños
de muestra n  20 , Royston (1995) desarrolló un algoritmo para calcular una aproximación de a para muestras de tamaño 3 n 5000.

REGLA DE DECISIÓN

Rechazar Ho: X = Normal, al nivel de significancia Donde , es un valor de la tabla de Shapiro-Wilk correspondiente a un tamaño muestral n y a un nivel de significación.
Rechazar Ho: X = Normal, al nivel de significancia  es pequeño.

ALGUNAS PROPIEDADES DE W

a) W tiene una distribución la cual sólo depende del tamaño de muestra n, para muestras de una distribución normal.
b) W es estadísticamente independiente de y de , para muestras de una distribución normal.
c) El mínimo valor de W es  
d) El máximo valor de W es1.
Para calcular el valor de W dado una muestra aleatoria completa de tamaño n, x1, x2 ,…, xn se procede de la siguiente manera:

Paso 1. Ordenar las observaciones obtenidas en a muestra aleatoria de manera creciente .
Paso 2. Calcular
Paso 3.
a) Si n es par, n=2k, calcular
Donde los valores de  están dados en la tabla del anexo.
b) Si n es impar, n 2k +1 y el cálculo es similar que en el paso 3 a), donde cuando n =2k +1. Entonces se encuentra que
Donde el valor de , la media muestral, no entra para el cálculo de b.
Paso 4. Se calcula W=b²/S².
Paso 5. 1, 2, 5, 10, 50, 90, 95, 98 y 99% puntos de la distribución de W, son dados en la tabla del anexo. Valores más pequeños de W son significantes, es decir, no indican normalidad.

EJEMPLO 1

Se contrastará la normalidad de los siguientes datos muestrales ( n = 10)

0.93, 1.20, 1.10, 1.26, 1.38, 1.24, 1.32, 1.14, 1.24, 1.18

Solución
Paso 1. Se ordenan las observaciones

0.93 1.1 1.14 1.18 1.2 1.24 1.24 1.26 1.32 1.38
Paso 2. Calcular Varianza
Paso 3. Como n es par, entonces 
De la tabla 1 se tiene:















Tabla 1. Coeficientes para la prueba de normalidad de Shapiro-Wilk.
 
Reyes L   (2010)   ANÁLISIS DE INFERENCIA ESTADISTICA (PRUEBA DE HIPÓTESIS)
Asi:









En todos los casos no se rechaza la hipótesis nula, es decir, los datos maestrales siguen una distribución normal.

4.      CONCLUSIONES

El Test de Shapiro-Wilks, es una de las pruebas destinadas para aceptar la hipótesis nula sobre la normalidad de los datos, sean estas de una muestra o población. La regla de decisión está dada según el número de observaciones y el nivel de significancia de acuerdo a tablas establecidas  que nos ayudarán a la toma de decisiones, mostradas en el anexo.

5.      REFERENCIAS

·         BOTELA et al   (2012)      Introducción a la Inferencia Estadística     Universidad Cardenal Herrera  30 p.
·         GUTIERREZ et al (2010)    Análisis de la relación entre la intensidad del tráfico de datos y el número de alumnos en universidades españolas       Escuela Politécnica Superior, Universidad Autónoma de Madrid    Madrid-ES   7 p.
·         SALVADOR FIGUERAS, M Y GARGALLO, P.    (2003)   "Análisis Exploratorio de Datos",   Estadística <http://www.5campus.com/leccion/aed> [27-08-2012]
·         Reyes L   (2010)   ANÁLISIS DE INFERENCIA ESTADISTICA (PRUEBA DE HIPÓTESIS) UNIVERSIDAD AUTÓNOMA CHAPINGO    DIVISIÓN DE CIENCIAS FORESTALES DEPARTAMENTO DE ESTADÍSTICA     MATEMÁTICA Y CÓMPUTO  Chapingo ME   202 p


ANEXOS
Reyes L   (2010)   ANÁLISIS DE INFERENCIA ESTADISTICA (PRUEBA DE HIPÓTESIS)

Tablas. Coeficientes para la prueba de normalidad de Shapiro-Wilk.



 

5 comentarios:

  1. Esta clara la explicación. Lo único que hay algunos errores de tipeo o falta de algunos caracteres que no completan la información.

    ResponderEliminar
  2. Gracias! El error es por copiar el contenido de un procesador de texto. Aparte de utilizar Latex, la única forma que encontramos para publicar fórmulas es pegando capturas de pantalla.

    ResponderEliminar
  3. ¿Cuánto le da el valor de la tabla? porque según reviso es de 0,842 y como W=0,94 ¿No significa esto que rechazo la hipótesis nula? ...Me quedó esa duda.

    ResponderEliminar
  4. ¿Cuánto le da el valor de la tabla? porque según reviso es de 0,842 y como W=0,94 ¿No significa esto que rechazo la hipótesis nula? ...Me quedó esa duda.

    ResponderEliminar
  5. Muchas gracias por la valiosa información.

    ResponderEliminar

*Utiliza Chrome o Explorer para insertar comentarios. Por alguna razón, en Firefox hay un error. Gracias!

Related Posts Plugin for WordPress, Blogger...