jueves, 30 de agosto de 2012

PRUEBA DE “T” PARA LA ESTABILIDAD DE LA MEDIA-Marco


(SEMINARIO 2)

La Estadística como ciencia independiente es un desarrollo del siglo XX. Sir Ronald Aylmer Fisher (1890-1962) es su genio, el transformador de ideas que cohesiono y estableció los fundamentos teóricos de la inferencia estadística, como método de razonamiento inductivo que da un nuevo sentido al procesamiento de datos e intenta medir su grado de incertidumbre.
Sus resultados le dieron a la estadística el estatus de disciplina científica, reafirmado por los innumerables campos de aplicación de sus metodologías. Me concentrare en su aporte a los fundamentos que convierten a la estadística en ciencia, no sin advertir que su estatura genial destaca en muchos otros campos, como el diseño experimental para citar solo uno.
El carácter genial de Fisher y su importancia histórica son resumidas
por Hald (1998) al afirmar que "hay tres revoluciones en la inferencia estadística paramétrica debidas a Laplace (1774), Gauss y Laplace entre 1809-1812 y Fisher (1922) respectivamente. Les tomó a cada uno de estos autores alrededor de 20 años, y muchos artículos para desarrollar sus ideas básicas en detalle, y al resto de la comunidad estadística medio siglo para entender y desarrollar los nuevos métodos y sus aplicaciones". (Yañes C. 2000)
 
Bosquejo histórico de la evolución estadística
2.       PRUEBA DE “F”

Según Arteaga Y (2001) señala que en todo campo de la investigación se pretende comparar la varianza de dos poblaciones, por ejemplo la varianza de dos estaciones cercanas respecto a la humedad. Para realizar esas comparaciones fue desarrollada la prueba “F” por Fisher y Yates, que es una técnica estadística que es utilizada cuando se desea investigar sobre las varianzas de dos poblaciones a través de la varianza muéstrales, dando lugar a la siguiente relación:
 
Donde:
F: Estadístico de prueba
 = Varianza de la muestra 1
 = Varianza de la muestra 2
Cuando mayor sea la variación entre las muestra en estudio, mayor va a ser el valor de “F”, es razonable comprar las varianzas de dos poblaciones mediante el cociente de sus varianzas muéstrales, si este valor se acerca a la unidad, se tendrá poca evidencia de la variabilidad. Así mismo un valor muy  pequeño o muy grande será evidencia que existe diferencia entre las varianzas de las poblaciones.

3.       EJEMPLO DE ARTÍCULO CIENTÍFICO

Análisis de Tendencia y Homogeneidad de Series Climatológicas
Lina M. Castro, M.Sc.
Escuela de Ingeniería de Recursos Naturales y del Ambiente. Universidad del Valle, Cali, Colombia.
Yesid Carvajal Escobar, Ph.D.
Escuela de Ingeniería de Recursos Naturales y del Ambiente. Universidad del Valle, Cali, Colombia.

Para la planeación y diseño de muchos proyectos relacionados con el agua es necesario el uso de información hidroclimatológica. Aunque con los años la recolección de ésta ha ido mejorando, aún muchos de los registros en los que se basa la meteorología aplicada presentan serias deficiencias, tanto en calidad como en cantidad, observándose series con cambios, falta de información, tendencias y datos atípicos; esto tergiversa los resultados de cualquier simulación o modelación.
Debido a la importancia económica y social que presenta la correcta predicción y el uso de modelos a partir de esta información, se hace necesario el análisis exploratorio de los datos con el fin de determinar cambios y/o tendencias en la serie hidroclimatológica. En este artículo se presenta las herramientas gráficas y cuantitativas disponibles para el análisis exploratorio de datos, con el objetivo fundamental de dar a conocer una serie de métodos en forma conjunta y organizada, que pueden ser programables o que se encuentran en cualquier paquete estadístico.



Metodología

El análisis exploratorio de una serie hidroclimatológica consiste en detectar por medio de gráficos y cuantitativos la existencia o no de alguna tendencia y/o cambio, y la homogeneidad de la serie. El esquema metodológico de un análisis exploratorio se detalla a continuación:

1ro. Análisis gráfico

-       Gráfica de serie de tiempo.
-       Grafica de doble masa
-       Diagrama de cajas
-       Histogramas
-       Gráfica de normalidad
-        
2do. Prueba de normalidad para confirmar o no la posible distribución normal de los datos.

-       Shapiro Wilk o Smirnov Kolmogorov

3ro. Análisis confirmatorio, por medio de pruebas estadísticas parámetricas y no parámetricas.

Como se observa en el esquema, si existe tendencia y/o falta de homogeneidad en la información se debe proceder a usar una parte de la misma o remover de ésta la tendencia o la falta de homogeneidad.

Estabilidad en la varianza

Detectar cambios en la varianza y en la media son pasos fundamentales para determinar si la serie presenta homogeneidad o no; el hecho de que no lo sea significa que los parámetros estadísticos varían, ya sea debido a causas naturales o antropogénicas. Se recomienda hacer en primer lugar el test para la estabilidad de la varianza, debido básicamentea dos razones: la inestabilidad de la varianza implica que la serie cronológica no es estacionaria, así que no se puede usar para análisis posteriores; y algunos tests de estabilidad en la media requieren que haya estabilidad en la varianza (Dahmen y Hall, 1990). A continuación se describe el Test F y el Test SiegelTurkey, pruebas estadísticas usadas en el desarrollo del documento para establecer la estabilidad de la varianza, pero existen otras que pueden ser consultadas en Maidment (1993), Kottegoda y Rosso (1997); Sheskin (1997), y entre otros.

Test F: es una prueba parámetrica que relaciona las varianzas de dos conjuntos de información que resultan de dividir la serie hidroclimatológica en dos partes iguales. Se conoce como distribución F o Fisher a la distribución de la relación entre varianzas de muestras que vienen de una distribución normal; sin embargo, Dahmen y Hall (1990) afirman que si las muestras no vienen de una distribución normal, el Test F dará una buena estimación de la estabilidad de la varianza. El test estadístico se denota como (Snedecor y Cochran, 1983)


Donde s2 representa la varianza de cada subconjunto y se calcula a partir de la siguiente expresión

 

Donde xi denota la observación y n el número total de datos en la muestra (subconjunto).

La hipótesis nula para el test es, Ho: s12 = s22 (igualdad de varianzas), y la hipótesis alterna, Ha: s12 <> s22. La prueba se rechaza si el estadístico estimado se encuentra en la siguiente zona de rechazo, para un nivel de significancia:

Donde n1 y n2 son la cantidad de datos para cada uno de los subconjuntos, y (n1-1), (n2-1) son los grados de libertad de la distribución.

 
Discusiones

Las pruebas estadísticas de carácter confirmatorio, la aplicación del coeficiente de Spearman mostró, como se observa en la Tabla 1, que ninguna de las cuatro estaciones presenta tendencia en la serie cronológica; las estaciones La Balsa y Julio Fernández no mostraron diferencias significativas en la varianza para los subconjuntos de series usadas en el análisis, pero la que sí mostró diferencias significativas entre los subconjuntos fue la estación Los Bancos, resultado congruente con el mostrado en el diagrama de cajas. La estación Loboguerrero, según el test SigelTukey, no presenta cambios significativos en el valor de la dispersión de los dos grupos formados. Respecto a la estabilidad de la media, ninguna de las estaciones tuvo diferencias significativas en el valor de la medida de tendencia central y se concluye que para todas ellas, los subconjuntos formados proceden de poblaciones continuas idénticas, es decir, proceden de la misma población y, por lo tanto, sus propiedades estadísticas no difieren una de la otra.
 
Tabla 1 Pruebas estadísticas de carácter confirmatorio

4.       CONCLUSIONES

Debido a la facilidad que representa realizar las pruebas gráficas, es aconsejable utilizar más de una al momento de realizar el Análisis exploratorio de datos (EDA) por medio gráfico, pues algunas de las gráficas, como se mostró y explicó en el análisis de los resultados, pueden fallar en detectar problemas o pueden sugerirlos, y éstos pueden o no existir realmente. Es aquí donde el criterio del analista juega un papel importante. El análisis cuantitativo como herramienta en el EDA es valioso debido a que confirma estadísticamente la homogeneidad de la varianza y de la media, además de la estacionariedad, condiciones básicas en cualquier simulación o modelación que haga uso de series hidroclimatológicas.
Las herramientas presentadas en este documento muestran la variedad de alternativas que el analista tiene para tomar decisiones respecto a las series que está usando, pero es importante conocer claramente con qué clase de datos se está trabajando y cuáles pueden ser las causas de error en las mismas.
Cuando el análisis exploratorio de datos muestre que las series son inconsistentes, con tendencias, cambios, etc, se hará necesario la remoción de esa parte de la serie, lo que implica una disminución en la cantidad de información disponible para realizar cualquier tipo de análisis, además que la serie se convierte en una serie artificial, manipulada por el analista.

5.       REFERENCIAS

·         Castro l. & Carvajal Y.   (2010)   ANÁLISIS DE TENDENCIA Y HOMOGENEIDAD DE SERIES CLIMATOLÓGICAS   UNIVERSIDAD DEL VALLE    Cali-CO   12p.
·         DAHMEN E. Y HALL M.   (1990)   Screening of Hydrological Data: Tests for Stationary and Relative Consistency. International Institute for Land Reclamation and Improvement – ILRI. Wageningeq. The Netherlands. US. 60 p.
·         KOTTEGODA N. Y ROSSO, R.    (1997)   Statistics, Probability and Reliability for Civil and Environmental Engineers. The McGraw – Hill Companies, Inc. US.  718 p.
·         Yañes C.   (2000)   LA ESTADISTICA UNA CIENCIA DEL SIGLO XX. R.A. FISHER, EL GENIO  Bogota-CO14 p







No hay comentarios:

Publicar un comentario

*Utiliza Chrome o Explorer para insertar comentarios. Por alguna razón, en Firefox hay un error. Gracias!

Related Posts Plugin for WordPress, Blogger...