miércoles, 19 de septiembre de 2012

BONDAD DE AJUSTE: TEST DE KRUSKAL WALLIS-Roxana


I. INTRODUCCIÓN

Existen series de procedimientos estadísticos diseñados para analizar variables cuantitativas: la prueba de T para contrasta hipótesis sobre medias o coeficientes de regresión, el estadístico F del análisis de varianza, etc. Todos ellos coinciden en una serie de características: a) Permiten contrastar hipótesis referida a algún parámetro (µ, δ2, β, etc), b) Exigen el cumplimiento de determinados supuestos sobre las poblaciones originales de las que se extraen los datos y c) Analizan datos obtenidos con una escala de medida de intervalo o razón.

Estas tres características combinadas permiten agrupar estos procedimientos estadísticos en una gran familia de técnicas de análisis denominada contrastes paramétricos (o pruebas paramétricas); son sin duda, las técnicas estadísticas más frecuentemente utilizadas por investigadores, pero su utilización se ve reducida fundamentalmente por dos razones: por un lado, exigen el cumplimento de algunos supuestos que en ocasiones pueden resultar demasiado exigentes; por otro, obligan a trabajar con unos niveles de medida que no siempre resulta fácil alcanzar.

Afortunadamente, las pruebas paramétricas no son los únicos disponibles. Existen contrastes que permiten poner a prueba hipótesis no referidas a parámetros poblacionales; que no necesitan establecer supuestos exigentes sobre las poblaciones de donde se extraen las muestras; que no necesitan trabajar con datos obtenidos con una escala de medida de intervalo o razón. Estás pruebas reciben el nombre de contrastes no paramétricos o pruebas no paramétricas, las que también se conocen como contrastes de distribución libre.
Las pruebas no paramétricas son las siguientes:

Ø  Pruebas para una muestra: chi-cuadrado (bondad de ajuste con variables categóricas). Binomial (proporciones y cuantiles), Rachas (aleatoriedad) y Kolmogorov-Smirnov (bondad de ajuste con variables cuantitativas).

Ø  Pruebas para dos muestras independientes: U de Mann-Whitney, Kolmogorov-Smirnov. Reacciones extremas de Moses y Rachas de Wald-Wolfowitz.

Ø  Pruebas para varias muestras independientes: H de Kruskal-Wallis y Mediana.

Ø  Pruebas para dos muestras relacionadas:  Wilcoxon, Signos y McNemar.

Ø  Pruebas para varias muestras relacionadas: Friedman, W de Kendall y Q de Cochran.

II. TEST DE KRUSKAL-WALLIS

La prueba de Kruskal-Wallis es un método no paramétrico que se emplea para evaluar si dos o más muestras provienen de una misma distribución, es decir, de una misma población y para probar igualdad de poblaciones. Ya que es una prueba no paramétrica, la prueba de Kruskal-Wallis no asume normalidad en los datos, en oposición al tradicional ANOVA. Sí asume, bajo la hipótesis nula, que los datos vienen de la misma distribución.

Por otro lado, también evalúa si las medianas de la población sobre una variable dependiente son el mismo en todos los niveles de un factor. Para realizar la prueba de Kruskal-Wallis, usando el K muestras independientes procedimiento, los casos deben tener calificaciones en una variable independiente o agrupación sobre una variable dependiente. La variable independiente o agrupación divide a los individuos en dos o más grupos, y la variable dependiente evalúa los individuos en al menos una escala ordinal.

Si la variable independiente tiene sólo dos niveles, no hay pruebas de significación lo que ha de llevarse a cabo más allá de la prueba de Kruskal-Wallis. Sin embargo, si tiene un factor de más de dos niveles y la prueba general es significativa, exámenes de seguimiento se lleva a cabo normalmente (Green, 2008).

El ensayo se aplica a k muestras aleatorias independientes de tamaños de ni, i=1,2,..k, con un total de n observaciones. Se asume que todas las muestras son muestras aleatorias individuales de poblaciones y que existe independencia entre las muestras y entre ellas.

La hipótesis nula es que las muestras provienen de la misma población contínua. La hipótesis alternativa es que al menos una de las poblaciones tiende a producir comparativamente valores más grandes que las otras.
Si Ri es la suma de las filas de los datos en la muestra i-ésima de tamaño ni y n es la suma total de las muestras k, la estadística de prueba normalizado es:



Bajo la hipótesis nula de que las muestras provienen de la misma población, H tiene un aproximado de distribución chi-cuadrado con (k-1) grados de libertad.

Ejemplo. Kruskal-Wallis test aplicado para determinar si tres muestras de resistencia a la compresión del concreto provienen de la misma población. Estas pruebas se realizaron durante el período julio 8, 1991 hasta septiembre 21, 1992. Supongamos que la composición de los agregados del hormigón se cambió el 18 de septiembre de 1991, y de nuevo el 4 de diciembre de 1991. Si es así, se debe considerar la posibilidad de que los resultantes tres muestras no provienen de la misma población.

Ho: Las resistencias medias de compresión de las muestras tomadas antes de 18 de septiembre de 1991, las tomadas durante el período de septiembre de 18 a diciembre 4 1991, las tomadas después de 04 de diciembre de 1991 son iguales.

Ha: Los tres  medios no son iguales.

Nivel de significancia: α = 0,05

Muestra 1. Tiene 12 resistencias a la compresión, tomadas antes del 18 de septiembre de 1991. Los rangos en orden cronológico son:

            14        6          15        40        32,5      9          7          3          30        16        2          27
La suma total de los datos es 201,5. La media de los datos = 201,5/12 = 16,76

Muestra 2. Tiene 14 resistencias a la compresión, tomadas entre 18 de septiembre a 4 de diciembre 1991. Los rangos en orden cronológico son:

4          8          21        13        10        18,5      23        17        20        28        34        38        37        23
La suma total de los datos es 294,5. La media de los datos = 294,5/14 = 21,04

Muestra 3. Tiene 14 resistencias a la compresión, tomadas después del 4 de diciembre 1991. Los rangos en orden cronológico son:

31        32,5      35        29        25,5      12        1          39        36        11        5          18,5      25,5      23
La suma total de los datos es 324. La media de los datos = 324/14 = 23,14


Hallando el valor crítico H de Kruskal-Wallis:


La región crítica tabulada es H≥ X20.05, 2= 5,99

Conclusión.- Como el valor crítico calculado (1,95) es menor al valor crítico tabulado (5,99) a un nivel de significancia α=0,05 se acepta la hipótesis nula. Las tres muestras de resistencias a la compresión tomadas en los períodos de julio 8, 1991 a septiembre 21, 1992 pertenecen a una misma población.


III. CONCLUSIONES

-       Las pruebas de bondad de ajuste permiten verificar que la población de la cual proviene una muestra tiene una distribución especificada o supuesta.

-       Las pruebas más comúnmente utilizadas son la prueba de chi-cuadrada y Kolmogorov-Smirnov, sin embargo, la prueba de Kruskal-Wallis tiene su aplicabilidad para casos específicos, principalmente en pruebas no paramétricas donde se quiere verificar se los datos de las muestras provienen a una misma población.

IV. BIBLIOGRAFÍA

-       KOTTEGODA T. (2008) Applied Statistics for civil and environmental engineers. Second Edition. Milano, Italy. Pp 737.

-       GREEN S. B. & SALKIND N.J. (2008). Ussing SPSS for Window and Macinstosh: Analyzing and understanding data (5th ed. ). Upper Saddle River, NJ: Pearson Prentice Hall.


1 comentario:

  1. interesante, una consulta cual es el mejor programa para análisis de distribución, usualmente he usado SMADA pero ahora solo esta disponible en linea

    ResponderEliminar

*Utiliza Chrome o Explorer para insertar comentarios. Por alguna razón, en Firefox hay un error. Gracias!

Related Posts Plugin for WordPress, Blogger...