miércoles, 12 de septiembre de 2012

La distribución Chi-cuadrado χ2 y las pruebas de independencia

Intervalos de confianza
Prueba de independencia
“En muchas ocasiones, los administradores necesitan saber si las diferencias que observan entre varias proporciones de la muestra son significativas o sólo se deben al azar.”(5:449) Si la diferencia entre las proporciones es significativa, el administrador puede llegar a la conclusión de que una variable afectara la forma en que debe de actuar la otra variable, pero si la diferencia no es significativa entonces puede decir que una de las variables no tendrá efecto sobre la otra variable. De lo anterior se puede indicar que la prueba de independencia “permitirá la comparación de dos atributos para determinar si existe una relación entre ellos.”
La prueba Chi-cuadrado de contingencia sirve para comprobar la independencia de frecuencias entre dos variables aleatorias, X e Y.

1 Hipótesis
“Es alguna teoría, declaración o aseveración relativa a cierto parámetro de una población”(1:309) Entonces se puede decir que hipótesis es un valor hipotético, o una, conjetura, afirmación, suposición, inferencia o proposición, que se hace acerca de un parámetro de población.
2 Prueba de hipótesis
“Procedimiento basado en la evidencia muestral y en la teoría de probabilidad que se emplea para determinar si la hipótesis es un enunciado razonable.”
3 Hipótesis nula
“La suposición que se desea probar se conoce como hipótesis nula y se simboliza Ho, o H sub cero”
“El termino nula implica nada o nulo. El término surge de sus primeras aplicaciones por parte de los investigadores agrícolas quienes probaron la efectividad de un nuevo fertilizante para determinar su impacto en la producción de la cosecha. Asumieron que el fertilizante no hacía ninguna diferencia en el rendimiento hasta que éste produjo algún efecto.”
Con base a la recolección de datos esta hipótesis nula puede ser rechazada o no rechazada, nunca se puede decir que se acepta como cierta. El no rechazo de la hipótesis solamente significa que la evidencia muestral no es lo suficientemente fuerte como para llevar a su rechazo.



4 Hipótesis Alternativa
“Si los resultados de la muestra no respaldan la hipótesis nula, se debe concluir que se cumple alguna otra cosa. Siempre que se rechace la hipótesis, la conclusión que no se rechaza se llama hipótesis alternativa cuyo símbolo es H1, hache sub uno”
Siempre que se establece una hipótesis nula debe establecerse una hipótesis alternativa o alterna, siendo esta el opuesto de la hipótesis nula, “la hipótesis alternativa representa la conclusión de rechazar la hipótesis nula si existe suficiente evidencia en la información de la muestra para decidir que no es probable que la hipótesis nula sea cierta.”
5 Error Tipo I y Tipo II
El error tipo I es la probabilidad de rechazar el planteamiento de la hipótesis nula, cuando esta es considerada cierta. Si se rechaza el planteamiento de que no existe relación entre la procedencia de los turistas extranjeros y los lugares turísticos a visitar, cuando debiera ser aceptada, se dirá que se ha cometido un error de tipo I, cuya probabilidad de cometerlo es igual al valor de significación (alfa, que se simboliza con la letra griegaα). Por otra parte, aceptar una hipótesis nula cuando es falsa se le llama error tipo II.
Si se acepta la hipótesis de que no existe relación entre la procedencia de los turistas y los lugares turísticos a visitar, cuando debiera ser rechazada, se dirá que se cometió un error de tipo II, siendo la probabilidad de cometerlo es el valor de confianza (beta, que se simboliza con la letra griega β).
En la tabla No. 1 e ilustra los resultados de dos decisiones posibles, aceptar H0 o rechazar H0, que pueden ocurrir en cualquier prueba de hipótesis. Dependiendo de la decisión específica, puede suceder uno de los dos tipos de error o puede llegarse a una de las dos conclusiones correctas.
6 Aplicación y procedimiento de la prueba de independencia
En la práctica surgen muchas situaciones en las cuales no es posible hacer de forma segura ninguna suposición sobre el valor de un parámetro o sobre la forma de la distribución poblacional.

“Procedimiento de cinco pasos para probar una hipótesis
Existe un procedimiento de cinco pasos que sistematiza la prueba de hipótesis.
Paso 1: plantear la hipótesis nula (H0) y la hipótesis alternativa (H1)
El primer paso es plantear la hipótesis a ser probada, se le denomina hipótesis nula y la hipótesis que describe lo que se considerará si se rechaza la hipótesis nula, se le denomina hipótesis alternativa.
Paso 2: Seleccionar el nivel de significancia
El nivel de significancia es la probabilidad de rechazar la hipótesis nula cuando es verdadera y se le denota mediante la letra griega alfa, α, algunas veces también se le denomina nivel de riesgo. Este último es un término más adecuado ya que es el riesgo que existe al rechazar la hipótesis nula cuando en realidad es verdadera. No hay un nivel de significancia que se aplique a todas las pruebas. Tradicionalmente se selecciona el nivel de 0.05 para proyectos de investigación sobre consumo, el 0.01 para el aseguramiento de calidad, y el 0.10 para encuestas políticas.
En la gráfica 1, se muestran las regiones de no rechazo y de rechazo para una prueba de significancia.
Observe en la gráfica que:
  •  La región de no rechazo de la hipótesis nula incluye el área a la izquierda de 36.415.
  •  El área de rechazo está a la derecha de 36.415.
  • Se aplica una prueba de una cola, a la derecha, debido a que si el valor del estadístico experimental se va alejando de cero entonces la diferencia entre los valores observados y los valores esperados se van haciendo más significativos, en cambio si el valor del estadístico es cero no existe ninguna diferencia. Y si se toma en cuenta que la prueba de independencia se usa para demostrar si hay o no diferencia significativa, entonces no podría hacerse una prueba de dos colas.
  •  Se eligió el nivel de significancia del 0.05.
  • El valor X2 = 36.415 se le denomina valor crítico.
  • Indicador para determinar el valor de X2 (gl : 1- α)
  • gl = (#C - 1) (#F – 1)
  • #C es igual a número de columnas en la tabla de contingencia y #F es igual a número de filas en la tabla de contingencia.
  • Es importante determinar el nivel de significancia con el que se quiere hacer la prueba.
Tabla de contingencia
En muchas ocasiones, los n elementos de una muestra tomada de una población pueden clasificarse con dos criterios diferentes. Por tanto, es interesante saber si los dos métodos de clasificación son estadísticamente independientes. Supóngase que el primer método de clasificación tiene f niveles, y que el segundo tiene c niveles. O sea Oij la frecuencia observada para el nivel i del primer método de clasificación y el nivel j del segundo método de clasificación.
En general, los datos aparecerán como se muestra en la siguiente tabla. Una tabla de este tipo usualmente se conoce como tabla de contingencia f x c.
El interés recae en probar la hipótesis de que los dos métodos de clasificación
renglón-columna son independientes. Si se rechaza esta hipótesis, entonces se concluye que existe alguna interacción entre los dos criterios de clasificación. Los procedimientos de prueba exactos son difíciles de obtener, pero puede obtenerse un estadístico de prueba aproximado válido para n grande.



Ejemplo:
TABLA No. 2
NUMERO DE PERSONAS QUE PREFIEREN O NO FUMAR
POR SEXO, SALÓN 303, EDIFICIO S – 3
FEBRERO 2006
Paso 3: Calcular el valor estadístico de prueba

Existen muchos valores estadísticos de prueba, en este trabajo de tesis se utilizará el denominado X2 , Chi-Cuadrado. La formula a utilizar es la siguiente
Donde:
  •  X2 = Estadístico de prueba (Chi-cuadrado).
  •  fo = Frecuencia observada. Es el valor encontrado en el campo, es decir, el número de veces que se observó determinado nivel de la variable categórica.
  • fe = Frecuencia esperada. Es lo que se esperaba obtener en la investigación, se calcula multiplicando el total de la columna por el total del renglón de la tabla de contingencia y el resultado se divide entre el tamaño de la muestra “n”.

Donde:
TC = total de observaciones de la columna.
TF = total de observaciones de la fila.
n = total de elementos de la muestra.
Paso 4: Formular la regla de decisión
Una regla de decisión es un enunciado de las condiciones según las que no se rechaza o se rechaza la hipótesis nula. La región de rechazo define la ubicación de todos los valores que son demasiado grandes o demasiados pequeños, por lo que es muy remota la probabilidad de que ocurran según una hipótesis nula verdadera.
Pasó 5: Tomar una decisión
El quinto y último paso en la prueba de hipótesis es la toma de la decisión de rechazar o no la hipótesis nula. “Si el valor del estadístico de prueba es mayor al valor crítico, se rechaza la hipótesis nula y si el estadístico de prueba es menor al valor crítico, no se rechaza la hipótesis nula. “(7:sn) n.

Ejemplo de aplicación:
Un grupo de estudiantes de la Escuela de Administración de Empresas, de la Facultad de Ciencias Económicas, de la Universidad de San Carlos de Guatemala, esta interesado en conocer si existe o no independencia entre el lugar de origen de los estudiantes de la Universidad y la carrera que eligen para estudiar. Al nivel de significación del 0.10, ¿cuál es su conclusión?. Los resultados de la calificación de una muestra de contenedores, se muestran en la tabla siguiente:
Tabla 3
Ejemplo de calificación de una muestra
Solución
Planteamiento de la hipótesis nula “Ho”
Ho: El lugar de origen y la carrera son independientes (no existe relación)
Planteamiento de la hipótesis alterna “Ha”
Ha: El lugar de origen y la carrera no son independientes (si existe relación)
Definición de los criterios de prueba
Valor crítico
χ2
(gl ; 1 − α)
gl =(# m 1)(# n 1) gl =(3 1)(3 1) gl = 4
χ2 (4; 1 0.10)
χ2 (4; 0.90)
Donde:
# m = es el número de filas de la tabla de contingencia
# n = es el número de columnas de la tabla de contingencia

En el cuerpo de la tabla se localizan los valores críticos de “χ 2.
Cálculo matemático del estadístico de prueba

Donde:
tf = es el total de frecuencias en la fila
tc = es el total de frecuencias en la columna
n = es el número de elementos de la muestra

Nota:
Se calculará solo la primera frecuencia esperada para una frecuencia observada de 130, utilizando la fórmula, las demás frecuencias esperadas se calculan directamente.


Toma de decisión
No se rechaza el planteamiento de la hipótesis nula “Ho”, y se rechaza el planteamiento de la hipótesis alterna “Ha”.
Conclusión
Con un nivel de significación del 0.10, se confirma que la procedencia de los estudiantes y la carrera elegida son independientes.

Bibliografía
ROMERO LÓPEZ. S/año. APLICACIONES DE LA DISTRIBUCIÓN CHI CUADRADO
Profesor de Matemáticas del Instituto de Educación Secundaria "Isidro de Arcenegui y Carmona", de Marchena, Sevilla-Spain.
Ana Justel Eusebio. 2007. Métodos Estadísticos Licenciatura en Biología

No hay comentarios:

Publicar un comentario

*Utiliza Chrome o Explorer para insertar comentarios. Por alguna razón, en Firefox hay un error. Gracias!

Related Posts Plugin for WordPress, Blogger...