Dentro de la estadística se aplican en la
investigación los tests o dócimas paramétricos y no paramétricos, el presente
trabajo está dedicado al estudio de dos pruebas no paramétricas que por su importancia merecen
ser tratadas de forma independiente, ellas son las pruebas de
Kolmogorov-Smirnov para una y dos muestras.
Entre los tests no paramétricos que comúnmente se
utilizan para verificar si una distribución se ajusta o no a una distribución esperada, en
particular a la distribución normal se encuentran el test de Kolmogorov-Smirnov. El test de
Kolmogorov-Smirnov es bastante potente con muestras grandes. El nivel de medición de la variable y su distribución son elementos
que intervienen en la selección del test que se utilizará en el procesamiento
posterior. De hecho, si la variable es continua con distribución normal, se
podrán aplicar técnicas paramétricas.
Si es una variable discreta o continua no normal, solo son aplicables técnicas
no paramétricas pues aplicar las primeras arrojaría resultados de dudosa
validez.
Prueba de Kolmogórov-Smirnov[1]
En estadística, la prueba de Kolmogórov-Smirnov (también
prueba K-S) es una prueba no paramétrica que se utiliza para determinar la bondad de ajuste de dos distribuciones
de probabilidad entre
sí.
En el caso
de que queramos verificar la normalidad de una distribución, la prueba de Lilliefors conlleva algunas mejoras con
respecto a la de Kolmogórov-Smirnov; y, en general, el test de Shapiro–Wilk o la prueba de Anderson-Darling son alternativas más potentes.
Conviene
tener en cuenta que la prueba Kolmogórov-Smirnov es más sensible a los valores
cercanos a la mediana que a los extremos de la distribución. La prueba de Anderson-Darling proporciona igual sensibilidad con valores
extremos.
Test de Shapiro–Wilk[2]
En estadística, el Test de Shapiro–Wilk, confundido a
veces con tabla de "Shaquille O' Neal", se usa para contrastar la
normalidad de un conjunto de datos. Se plantea como hipótesis nula que una
muestra x1,
..., xn proviene de una población normalmente
distribuida. Fue publicado en 1965 por Samuel
Shapiro y Martin
Wilk. Se
considera uno de los test más potentes para el contraste de normalidad, sobre
todo para muestras pequeñas (n<30)
El estadístico del test es:
Donde
§ x(i) (con el
subíndice i entre paréntesis) es el número que
ocupa la i-ésima posición en la muestra;
§
= (x1 + ... + xn) / n es la media muestral;
Donde:
siendo m1, ..., mn son los valores medios del estadístico
ordenado, de variables aleatorias independientes e identicamente distribuidas, muestreadas
de distribuciones normales. V es la matriz de covarianzas de ese
estadístico de orden.
Estadístico
La
distribución de los datos Fn para n observaciones yi se
define como
Para dos colas el estadístico viene dado por
donde F(x) es la distribución presentada como
hipótesis.
Dócima de Kolmogorov-Smirnov para
dos muestras independientes.
Estructura de la base de datos
Normalmente la estructura que tiene la base de datos es la de utilizar una variable para entrar los
resultados de la medición y la otra donde se particiones a estos resultados en
los dos grupos.
Premisas
La única premisa que se necesita es que las
mediciones se encuentren al menos en una escala ordinal. Adicionalmente se
necesita que la medición considerada sea básicamente continua.
Potencia-Eficiencia
Comparada ante la alternativa paramétrica de la t de
student para dos muestras independientes (o el modelo de Análisis de Varianza clasificación simple
para dos muestras), cuando las premisas paramétricas se cumplen, tiene
una potencia eficiencia de cerca del 96%, que tiende a decrecer
ligeramente a medida que se aumentan los tamaños de muestra.
Existen autores que plantean1 "que la dócima de
Kolmogorov-Smirnov, para muestras muy pequeñas es más potente que la dócima de
la U de Mann-Whitney, pero que para muestras de tamaño grande ocurre lo
contrario.
Características de la dócima
La dócima de Kolmogorov-Smirnov está construida,
teniendo como base detectar las discrepancias existentes entre las frecuencias
relativas acumuladas de las dos muestras objeto de estudio. Lo anterior
propicia que esta dócima pueda advertir diferencias no tan solo entre los
promedios, sino que éstas sean debidas a la dispersión, o la simetría o la
oblicuidad. Esta característica la hace distintiva de aquellas en que solamente
se ocupan de analizar las diferencias entre los promedios.
La dócima admite que los tamaños de las muestras no
sean iguales.
Hipótesis
Ho: Las distribuciones poblacionales son iguales.
H1: Las distribuciones poblacionales son distintas.
Ahora bien se recomienda en general hacer el
enunciado de las hipótesis de forma tal que indique en un mayor grado la
característica que va a ser docimada.
Estadígrafo y distribución
muestral.
Designemos por T1 y por T2 las tablas de
distribución de frecuencias relativas acumuladas, particionadas en k
categorías. Donde el primer subíndice corresponde al número de la muestra y el
segundo al orden de la clase.
TABLA1
|
TABLA2
|
DIFERENCIAS
|
|
Clase
|
Frecuencia
relativa acumulada
|
Frecuencia
relativa acumulada
|
Diferencia
de las
Frecuencias
|
1
|
p11
|
p21
|
p11-p21
|
2
|
p12
|
p22
|
p12-p21
|
...
|
...
|
...
|
...
|
I
|
p1i
|
p2i
|
p1i-p2i
|
...
|
...
|
...
|
...
|
k
|
p1k
|
p2k
|
p1k-p2k
|
Se analiza
entonces en la columna de las diferencias de las frecuencias, en qué clases se
obtiene el valor máximo. Se tendrá entonces en símbolos:
El estadígrafo de esta dócima se designa por χ2 y
para tamaños de muestra suficientemente grandes, está distribuido según
chi-cuadrado con dos grados los de libertad. En símbolos:
Goodman, ha demostrado que si los tamaños de muestra
son pequeños la dócima se comporta conservadoramente.
Salidas de la dócima
Las salidas usuales de la dócima son tres:
·
Máxima
diferencia negativa. Donde se muestra cuál es la mayor diferencia negativa
alcanzada.
·
Máxima
diferencia positiva. Donde se muestra la mayor diferencia positiva alcanzada.
Es necesario señalar que las dos primeras opciones
suministran información en los casos en que sea conveniente realizar
una dócima unilateral, además de reflejar información acerca de lo que está
ocurriendo en la dócima.
Técnicas adicionales a la dócima
Existe un grupo de técnicas adicionales a la dócima,
las que hemos dividido en los siguientes grupos.
Estadígrafos que deben acompañar a
los estadígrafos de la dócima.
Entre ellos se encuentran:
·
Tamaños en
cada una de las muestras (casos válidos en el análisis)
·
Media
aritmética de cada una de las muestras.
·
Desviación
estándar de cada una de las muestras.
Técnicas auxiliares para respaldar los resultados
obtenidos en la conclusión
·
Diagrama
de caja y bigotes de cada una de las muestras.
·
Histograma
de cada una de las muestras.
Ejemplo
Se muestran las pérdidas en peso (medidos en
kilogramos), de dos grupos de personas que han sido sometidas a dos tipos
diferentes de medicamentos, designado por Grupo1 y Grupo2. Los resultados
obtenidos se muestran en la siguiente tabla:
GRUPO1
(n1=10)
|
GRUPO2
(n2=12
|
5.49
|
3.76
|
3.08
|
4.22
|
4.13
|
4.17
|
5.03
|
5.03
|
7
|
4.85
|
6.03
|
2.09
|
4.45
|
4.45
|
5.13
|
3.58
|
4.26
|
3.86
|
4.62
|
4.13
|
4.4
|
|
2.81
|
Salida de
la dócima
La salida básica de la dócima muestra los valores máximos positivos, máximos negativos y el
valor de probabilidad, los que se muestran a continuación.
medición
|
máxima
diferencia negativa
|
máxima
diferencia positiva
|
valor de
probabilidad
|
perdida
de peso
|
0
|
0.4666667
|
p >
.10
|
Según
podemos observar, no existen diferencias significativas entre los resultados de
la medición realizada a los dos grupos.
No hay comentarios:
Publicar un comentario
*Utiliza Chrome o Explorer para insertar comentarios. Por alguna razón, en Firefox hay un error. Gracias!