Introducción

Dentro de la estadística se aplican en la investigación los tests o dócimas paramétricos y no paramétricos, el presente trabajo está dedicado al estudio de dos pruebas no paramétricas que por su importancia merecen ser tratadas de forma independiente, ellas son las pruebas de Kolmogorov-Smirnov para una y dos muestras.

Entre los tests no paramétricos que comúnmente se utilizan para verificar si una distribución se ajusta o no a una distribución esperada, en particular a la distribución normal se encuentran el test de Kolmogorov-Smirnov. El test de Kolmogorov-Smirnov es bastante potente con muestras grandes. El nivel de medición de la variable y su distribución son elementos que intervienen en la selección del test que se utilizará en el procesamiento posterior. De hecho, si la variable es continua con distribución normal, se podrán aplicar técnicas paramétricas. Si es una variable discreta o continua no normal, solo son aplicables técnicas no paramétricas pues aplicar las primeras arrojaría resultados de dudosa validez.

Prueba de Kolmogórov-Smirnov[1]

En estadística, la prueba de Kolmogórov-Smirnov (también prueba K-S) es una prueba no paramétrica que se utiliza para determinar la bondad de ajuste de dos distribuciones de probabilidad entre sí.

En el caso de que queramos verificar la normalidad de una distribución, la prueba de Lilliefors conlleva algunas mejoras con respecto a la de Kolmogórov-Smirnov; y, en general, el test de Shapiro–Wilk o la prueba de Anderson-Darling son alternativas más potentes.

Conviene tener en cuenta que la prueba Kolmogórov-Smirnov es más sensible a los valores cercanos a la mediana que a los extremos de la distribución. La prueba de Anderson-Darling proporciona igual sensibilidad con valores extremos.

Test de Shapiro–Wilk[2]

En estadística, el Test de Shapiro–Wilk, confundido a veces con tabla de "Shaquille O' Neal", se usa para contrastar la normalidad de un conjunto de datos. Se plantea como hipótesis nula que una muestra x₁, ..., x_n proviene de una población normalmente distribuida. Fue publicado en 1965 por Samuel Shapiro y Martin Wilk. Se considera uno de los test más potentes para el contraste de normalidad, sobre todo para muestras pequeñas (n<30)

El estadístico del test es:

Donde

§ x_(i) (con el subíndice i entre paréntesis) es el número que ocupa la i-ésima posición en la muestra;

§ = (x₁ + ... + x_n) / n es la media muestral;

§ las constantes a_i se calculan²

Donde:

siendo m₁, ..., m_n son los valores medios del estadístico ordenado, de variables aleatorias independientes e identicamente distribuidas, muestreadas de distribuciones normales. V es la matriz de covarianzas de ese estadístico de orden.

La hipótesis nula se rechazará si W es demasiado pequeño.³

Estadístico

La distribución de los datos F_n para n observaciones y_i se define como

Para dos colas el estadístico viene dado por

donde F(x) es la distribución presentada como hipótesis.

Dócima de Kolmogorov-Smirnov para dos muestras independientes.

Estructura de la base de datos

Normalmente la estructura que tiene la base de datos es la de utilizar una variable para entrar los resultados de la medición y la otra donde se particiones a estos resultados en los dos grupos.

Premisas

La única premisa que se necesita es que las mediciones se encuentren al menos en una escala ordinal. Adicionalmente se necesita que la medición considerada sea básicamente continua.

Potencia-Eficiencia

Comparada ante la alternativa paramétrica de la t de student para dos muestras independientes (o el modelo de Análisis de Varianza clasificación simple para dos muestras), cuando las premisas paramétricas se cumplen, tiene una potencia eficiencia de cerca del 96%, que tiende a decrecer ligeramente a medida que se aumentan los tamaños de muestra.

Existen autores que plantean1 "que la dócima de Kolmogorov-Smirnov, para muestras muy pequeñas es más potente que la dócima de la U de Mann-Whitney, pero que para muestras de tamaño grande ocurre lo contrario.

Características de la dócima

La dócima de Kolmogorov-Smirnov está construida, teniendo como base detectar las discrepancias existentes entre las frecuencias relativas acumuladas de las dos muestras objeto de estudio. Lo anterior propicia que esta dócima pueda advertir diferencias no tan solo entre los promedios, sino que éstas sean debidas a la dispersión, o la simetría o la oblicuidad. Esta característica la hace distintiva de aquellas en que solamente se ocupan de analizar las diferencias entre los promedios.

La dócima admite que los tamaños de las muestras no sean iguales.

Hipótesis

Las hipótesis de esta dócima, expresadas en palabras son:

Ho: Las distribuciones poblacionales son iguales.

H1: Las distribuciones poblacionales son distintas.

Ahora bien se recomienda en general hacer el enunciado de las hipótesis de forma tal que indique en un mayor grado la característica que va a ser docimada.

Estadígrafo y distribución muestral.

Designemos por T1 y por T2 las tablas de distribución de frecuencias relativas acumuladas, particionadas en k categorías. Donde el primer subíndice corresponde al número de la muestra y el segundo al orden de la clase.

	TABLA1	TABLA2	DIFERENCIAS
Clase	Frecuencia relativa acumulada	Frecuencia relativa acumulada	Diferencia de las Frecuencias
1	p11	p21	p11-p21
2	p12	p22	p12-p21
...	...	...	...
I	p1i	p2i	p1i-p2i
...	...	...	...
k	p1k	p2k	p1k-p2k

Se analiza entonces en la columna de las diferencias de las frecuencias, en qué clases se obtiene el valor máximo. Se tendrá entonces en símbolos:

El estadígrafo de esta dócima se designa por χ2 y para tamaños de muestra suficientemente grandes, está distribuido según chi-cuadrado con dos grados los de libertad. En símbolos:

Goodman, ha demostrado que si los tamaños de muestra son pequeños la dócima se comporta conservadoramente.

Salidas de la dócima

Las salidas usuales de la dócima son tres:

· Máxima diferencia negativa. Donde se muestra cuál es la mayor diferencia negativa alcanzada.

· Máxima diferencia positiva. Donde se muestra la mayor diferencia positiva alcanzada.

· Valor de la probabilidad para dos colas.

Es necesario señalar que las dos primeras opciones suministran información en los casos en que sea conveniente realizar una dócima unilateral, además de reflejar información acerca de lo que está ocurriendo en la dócima.

Técnicas adicionales a la dócima

Existe un grupo de técnicas adicionales a la dócima, las que hemos dividido en los siguientes grupos.

Estadígrafos que deben acompañar a los estadígrafos de la dócima.

Entre ellos se encuentran:

· Tamaños en cada una de las muestras (casos válidos en el análisis)

· Media aritmética de cada una de las muestras.

· Desviación estándar de cada una de las muestras.

Técnicas auxiliares para respaldar los resultados obtenidos en la conclusión

· Diagrama de caja y bigotes de cada una de las muestras.

· Histograma de cada una de las muestras.

Ejemplo

Se muestran las pérdidas en peso (medidos en kilogramos), de dos grupos de personas que han sido sometidas a dos tipos diferentes de medicamentos, designado por Grupo1 y Grupo2. Los resultados obtenidos se muestran en la siguiente tabla:

GRUPO1 (n1=10)	GRUPO2 (n2=12
5.49	3.76
3.08	4.22
4.13	4.17
5.03	5.03
7	4.85
6.03	2.09
4.45	4.45
5.13	3.58
4.26	3.86
4.62	4.13
	4.4
	2.81

Salida de la dócima

La salida básica de la dócima muestra los valores máximos positivos, máximos negativos y el valor de probabilidad, los que se muestran a continuación.

medición	máxima diferencia negativa	máxima diferencia positiva	valor de probabilidad
perdida de peso	0	0.4666667	p > .10

Según podemos observar, no existen diferencias significativas entre los resultados de la medición realizada a los dos grupos.

[1] http://es.wikipedia.org/wiki/Prueba_de_Kolmog%C3%B3rov-Smirnov

[2] http://es.wikipedia.org/wiki/Test_de_Shapiro%E2%80%93Wilk

Hidrología para ingenieros

miércoles, 19 de septiembre de 2012

Prueba de Kolmogorov-Smirnov de dos entradas-Edwin

Test de Shapiro–Wilk[2]

El estadístico del test es:

No hay comentarios:

Publicar un comentario