(SEMINARIO 2)
La
Estadística como ciencia independiente es un desarrollo del siglo XX. Sir
Ronald Aylmer Fisher (1890-1962) es su genio, el transformador de ideas que
cohesiono y estableció los fundamentos teóricos de la inferencia estadística,
como método de razonamiento inductivo que da un nuevo sentido al procesamiento
de datos e intenta medir su grado de incertidumbre.
Sus
resultados le dieron a la estadística el estatus de disciplina científica,
reafirmado por los innumerables campos de aplicación de sus metodologías. Me
concentrare en su aporte a los fundamentos que convierten a la estadística en
ciencia, no sin advertir que su estatura genial destaca en muchos otros campos,
como el diseño experimental para citar solo uno.
El
carácter genial de Fisher y su importancia histórica son resumidas
por Hald (1998) al afirmar que "hay tres revoluciones en la inferencia estadística paramétrica debidas a Laplace (1774), Gauss y Laplace entre 1809-1812 y Fisher (1922) respectivamente. Les tomó a cada uno de estos autores alrededor de 20 años, y muchos artículos para desarrollar sus ideas básicas en detalle, y al resto de la comunidad estadística medio siglo para entender y desarrollar los nuevos métodos y sus aplicaciones". (Yañes C. 2000)
por Hald (1998) al afirmar que "hay tres revoluciones en la inferencia estadística paramétrica debidas a Laplace (1774), Gauss y Laplace entre 1809-1812 y Fisher (1922) respectivamente. Les tomó a cada uno de estos autores alrededor de 20 años, y muchos artículos para desarrollar sus ideas básicas en detalle, y al resto de la comunidad estadística medio siglo para entender y desarrollar los nuevos métodos y sus aplicaciones". (Yañes C. 2000)
Bosquejo histórico de la evolución estadística
2. PRUEBA
DE “F”
Según Arteaga
Y (2001) señala que en todo campo de la investigación se pretende comparar la
varianza de dos poblaciones, por ejemplo la varianza de dos estaciones cercanas
respecto a la humedad. Para realizar esas comparaciones fue desarrollada la
prueba “F” por Fisher y Yates, que es una técnica estadística que es utilizada
cuando se desea investigar sobre las varianzas de dos poblaciones a través de
la varianza muéstrales, dando lugar a la siguiente relación:
Donde:
F:
Estadístico de prueba
= Varianza de la muestra 1
= Varianza de la muestra 2
Cuando mayor sea la variación
entre las muestra en estudio, mayor va a ser el valor de “F”, es razonable
comprar las varianzas de dos poblaciones mediante el cociente de sus varianzas
muéstrales, si este valor se acerca a la unidad, se tendrá poca evidencia de la
variabilidad. Así mismo un valor muy
pequeño o muy grande será evidencia que existe diferencia entre las
varianzas de las poblaciones.
3. EJEMPLO DE ARTÍCULO CIENTÍFICO
Análisis de
Tendencia y Homogeneidad de Series Climatológicas
Lina M. Castro, M.Sc.
Escuela de Ingeniería de Recursos Naturales y
del Ambiente. Universidad del Valle, Cali, Colombia.
Yesid Carvajal
Escobar, Ph.D.
Escuela de Ingeniería de Recursos Naturales y
del Ambiente. Universidad del Valle, Cali, Colombia.
Para la
planeación y diseño de muchos proyectos relacionados con el agua es necesario
el uso de información hidroclimatológica. Aunque con los años la recolección de
ésta ha ido mejorando, aún muchos de los registros en los que se basa la
meteorología aplicada presentan serias deficiencias, tanto en calidad como en
cantidad, observándose series con cambios, falta de información, tendencias y
datos atípicos; esto tergiversa los resultados de cualquier simulación o
modelación.
Debido a
la importancia económica y social que presenta la correcta predicción y el uso
de modelos a partir de esta información, se hace necesario el análisis
exploratorio de los datos con el fin de determinar cambios y/o tendencias en la
serie hidroclimatológica. En este artículo se presenta las herramientas
gráficas y cuantitativas disponibles para el análisis exploratorio de datos,
con el objetivo fundamental de dar a conocer una serie de métodos en forma conjunta
y organizada, que pueden ser programables o que se encuentran en cualquier
paquete estadístico.
Metodología
El análisis exploratorio de una serie
hidroclimatológica consiste en detectar por medio de gráficos y cuantitativos
la existencia o no de alguna tendencia y/o cambio, y la homogeneidad de la
serie. El esquema metodológico de un análisis exploratorio se detalla a
continuación:
1ro. Análisis gráfico
- Gráfica
de serie de tiempo.
- Grafica
de doble masa
- Diagrama
de cajas
- Histogramas
- Gráfica
de normalidad
-
2do. Prueba de normalidad para confirmar o no
la posible distribución normal de los datos.
- Shapiro Wilk o Smirnov Kolmogorov
3ro. Análisis confirmatorio, por medio de
pruebas estadísticas parámetricas y no parámetricas.
Como se observa en el esquema, si existe
tendencia y/o falta de homogeneidad en la información se debe proceder a usar
una parte de la misma o remover de ésta la tendencia o la falta de homogeneidad.
Estabilidad en la varianza
Detectar cambios en la varianza y en
la media son pasos fundamentales para determinar si la serie presenta
homogeneidad o no; el hecho de que no lo sea significa que los parámetros
estadísticos varían, ya sea debido a causas naturales o antropogénicas. Se recomienda
hacer en primer lugar el test para la estabilidad de la varianza, debido
básicamentea dos razones: la inestabilidad de la varianza implica que la serie
cronológica no es estacionaria, así que no se puede usar para análisis
posteriores; y algunos tests de estabilidad en la media requieren que haya
estabilidad en la varianza (Dahmen y Hall, 1990). A continuación se describe el
Test F y el Test SiegelTurkey, pruebas estadísticas usadas en el desarrollo del
documento para establecer la estabilidad de la varianza, pero existen otras que
pueden ser consultadas en Maidment (1993), Kottegoda y Rosso (1997); Sheskin
(1997), y entre otros.
Test F: es una prueba parámetrica que
relaciona las varianzas de dos conjuntos de información que resultan de dividir
la serie hidroclimatológica en dos partes iguales. Se conoce como distribución
F o Fisher a la distribución de la relación entre varianzas de muestras que
vienen de una distribución normal; sin embargo, Dahmen y Hall (1990) afirman
que si las muestras no vienen de una distribución normal, el Test F dará una
buena estimación de la estabilidad de la varianza. El test estadístico se
denota como (Snedecor y Cochran, 1983)
Donde s2 representa la varianza de cada subconjunto y se calcula a partir de la siguiente expresión
Donde xi denota la observación y n el número total de datos en la muestra
(subconjunto).
La hipótesis nula para el test es, Ho:
s12 = s22 (igualdad de varianzas), y la hipótesis alterna, Ha: s12 <>
s22. La prueba se rechaza si el estadístico estimado se encuentra en la
siguiente zona de rechazo, para un nivel de significancia:
Donde n1 y n2 son la cantidad de datos
para cada uno de los subconjuntos, y (n1-1), (n2-1) son los grados de libertad
de la distribución.
Discusiones
Las
pruebas estadísticas de carácter confirmatorio, la aplicación del coeficiente
de Spearman mostró, como se observa en la Tabla 1, que ninguna de las cuatro
estaciones presenta tendencia en la serie cronológica; las estaciones La Balsa
y Julio Fernández no mostraron diferencias significativas en la varianza para
los subconjuntos de series usadas en el análisis, pero la que sí mostró
diferencias significativas entre los subconjuntos fue la estación Los Bancos,
resultado congruente con el mostrado en el diagrama de cajas. La estación
Loboguerrero, según el test SigelTukey, no presenta cambios significativos en
el valor de la dispersión de los dos grupos formados. Respecto a la estabilidad
de la media, ninguna de las estaciones tuvo diferencias significativas en el
valor de la medida de tendencia central y se concluye que para todas ellas, los
subconjuntos formados proceden de poblaciones continuas idénticas, es decir,
proceden de la misma población y, por lo tanto, sus propiedades estadísticas no
difieren una de la otra.
Tabla 1
Pruebas estadísticas de carácter confirmatorio
4. CONCLUSIONES
Debido a
la facilidad que representa realizar las pruebas gráficas, es aconsejable
utilizar más de una al momento de realizar el Análisis exploratorio de datos
(EDA) por medio gráfico, pues algunas de las gráficas, como se mostró y explicó
en el análisis de los resultados, pueden fallar en detectar problemas o pueden
sugerirlos, y éstos pueden o no existir realmente. Es aquí donde el criterio
del analista juega un papel importante. El análisis cuantitativo como
herramienta en el EDA es valioso debido a que confirma estadísticamente la
homogeneidad de la varianza y de la media, además de la estacionariedad,
condiciones básicas en cualquier simulación o modelación que haga uso de series
hidroclimatológicas.
Las
herramientas presentadas en este documento muestran la variedad de alternativas
que el analista tiene para tomar decisiones respecto a las series que está
usando, pero es importante conocer claramente con qué clase de datos se está
trabajando y cuáles pueden ser las causas de error en las mismas.
Cuando el
análisis exploratorio de datos muestre que las series son inconsistentes, con
tendencias, cambios, etc, se hará necesario la remoción de esa parte de la
serie, lo que implica una disminución en la cantidad de información disponible
para realizar cualquier tipo de análisis, además que la serie se convierte en
una serie artificial, manipulada por el analista.
5. REFERENCIAS
·
Castro
l. & Carvajal Y. (2010) ANÁLISIS DE TENDENCIA Y HOMOGENEIDAD DE SERIES CLIMATOLÓGICAS UNIVERSIDAD DEL VALLE Cali-CO
12p.
·
DAHMEN E. Y HALL M. (1990)
Screening of Hydrological Data:
Tests for Stationary and Relative Consistency. International Institute for Land
Reclamation and Improvement – ILRI. Wageningeq. The Netherlands. US. 60 p.
·
KOTTEGODA
N. Y ROSSO, R. (1997) Statistics, Probability and Reliability for
Civil and Environmental Engineers. The McGraw – Hill Companies, Inc. US. 718 p.
·
Yañes C.
(2000) LA ESTADISTICA UNA
CIENCIA DEL SIGLO XX. R.A. FISHER, EL GENIO
Bogota-CO14 p
No hay comentarios:
Publicar un comentario
*Utiliza Chrome o Explorer para insertar comentarios. Por alguna razón, en Firefox hay un error. Gracias!