www.monografias.com

 

Estadística I

Cuadernillo de apoyo

 

  1. Descripción
  2. Distribuciones
  3. Estimación de parámetros
  4. Prueba de hipótesis
  5. Prueba de bondad de ajuste
  6. Bibliografía

 

DESCRIPCIÓN

El presente trabajo de investigación, fue elaborado por el grupo de ingeniería industrial (2002-2007), el cual pretende auxiliar a las futuras generaciones de estudiantes universitarios de la materia de estadística, aquí se encuentran los temas de Distribuciones, Estimación de Parámetros, Prueba de Hipótesis y Pruebas de Bondad de Ajuste; creemos que está muy completo, también se pueden auxiliar docentes como cuadernillo de apoyo, contiene definiciones, formulas, tablas, ejemplos y ejercicios fáciles de seguir; sin duda una herramienta muy útil.

 
UNIDAD: DISTRIBUCIONES

Distribución normal (ó campana de Gauss-Laplace)

Una de las distribuciones teóricas mejor estudiadas en los textos de bioestadística y más utilizada en la práctica es la distribución normal, también llamada distribución gaussiana.  Su importancia se debe fundamentalmente a la frecuencia con la que distintas variables asociadas a fenómenos naturales y cotidianos siguen, aproximadamente, esta distribución.  Caracteres morfológicos (como la talla o el peso), o psicológicos (como el cociente intelectual) son ejemplos de variables de las que frecuentemente se asume que siguen una distribución normal.  No obstante, y aunque algunos autores han señalado que el comportamiento de muchos parámetros en el campo de la salud puede ser descrito mediante una distribución normal, puede resultar incluso poco frecuente encontrar variables que se ajusten a este tipo de comportamiento.

El uso extendido de la distribución normal en las aplicaciones estadísticas puede explicarse, además, por otras razones.  Muchos de los procedimientos estadísticos habitualmente utilizados asumen la normalidad de los datos observados.  Aunque muchas de estas técnicas no son demasiado sensibles a desviaciones de la normal y, en general, esta hipótesis puede obviarse cuando se dispone de un número suficiente de datos, resulta recomendable contrastar siempre si se puede asumir o no una distribución normal.  La simple exploración visual de los datos puede sugerir la forma de su distribución.  No obstante, existen otras medidas, gráficos de normalidad y contrastes de hipótesis que pueden ayudarnos a decidir, de un modo más riguroso, si la muestra de la que se dispone procede o no de una distribución normal.  Cuando los datos no sean normales, podremos o bien transformarlos o emplear otros métodos estadísticos que no exijan este tipo de restricciones (los llamados métodos no paramétricos).

A continuación se describirá la distribución normal, su ecuación matemática y sus propiedades más relevantes, proporcionando algún ejemplo sobre sus aplicaciones a la inferencia estadística.  En la sección 1.1.3 se describirán los métodos habituales para contrastar la hipótesis de normalidad. 

Propiedades de la distribución normal:

La distribución normal posee ciertas propiedades importantes que conviene destacar:

         I.      Tiene una única moda, que coincide con su media y su mediana.

       II.      La curva normal es asintótica al eje de abscisas.  Por ello, cualquier valor entre -¥ y +¥ es teóricamente posible.  El área total bajo la curva es, por tanto, igual a 1.

      III.      Es simétrica con respecto a su media µ.  Según esto, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor.

    IV.      La distancia entre la línea trazada en la media y el punto de inflexión de la curva es igual a una desviación típica (σ).  Cuanto mayor sea σ, más aplanada será la curva de la densidad.

      V.      El área bajo la curva comprendida entre los valores situados aproximadamente a dos desviaciones estándar de la media es igual a 0.95.  En concreto, existe un 95% de posibilidades de observar un valor comprendido en el intervalo (µ-1.96σ, µ+1.96σ).

    VI.      La forma de la campana de Gauss depende de los parámetros µ y σ (Figura 2).  La media indica la posición de la campana, de modo que para diferentes valores de µ la gráfica es desplazada a lo largo del eje horizontal.  Por otra parte, la desviación estándar determina el grado de apuntamiento de la curva.  Cuanto mayor sea el valor de σ, más se dispersarán los datos en torno a la media y la curva será más plana.  Un valor pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribución.

Figura 2.  Ejemplos de distribuciones normales con diferentes parámetros.

Como se deduce de este último apartado, no existe una única distribución normal, sino una familia de distribuciones con una forma común, diferenciadas por los valores de su media y su varianza.  De entre todas ellas, la más utilizada es la distribución normal estándar, que corresponde a una distribución de media 0 y varianza 1.  Así, la expresión que define su densidad se puede obtener de la Ecuación 1, resultando:

Es importante conocer que, a partir de cualquier variable X que siga una distribución N (µ,σ), se puede obtener otra característica Z con una distribución normal estándar, sin más que efectuar la transformación:

Ecuación 2:       

Esta propiedad resulta especialmente interesante en la práctica, ya que para una distribución N (0,1) existen tablas publicadas a partir de las que se puede obtener de modo sencillo la probabilidad de observar un dato menor o igual a un cierto valor z, y que permitirán resolver preguntas de probabilidad acerca del comportamiento de variables de las que se sabe o se asume que siguen una distribución aproximadamente normal.

Consideremos, por ejemplo, el siguiente problema: supongamos que se sabe que el peso de los sujetos de una determinada población sigue una distribución aproximadamente normal, con una media de 80 Kg y una desviación estándar de 10 Kg.  ¿Podremos saber cuál es la probabilidad de que una persona, elegida al azar, tenga un peso superior a 100 Kg?

Denotando por X a la variable que representa el peso de los individuos en esa población, ésta sigue una distribución .  Si su distribución fuese la de una normal estándar podríamos utilizar la tabla para calcular la probabilidad que nos interesa.  Como éste no es el caso, resultará entonces útil transformar esta característica según la Ecuación 2, y obtener la variable:

Para poder utilizar dicha tabla.  Así, la probabilidad que se desea calcular será:

Como el área total bajo la curva es igual a 1, se puede deducir que:

Esta última probabilidad puede ser fácilmente obtenida a partir de la Tabla, resultando ser .  Por lo tanto, la probabilidad buscada de que una persona elegida aleatoriamente de esa población tenga un peso mayor de 100 Kg., es de 1–0.9772=0.0228, es decir, aproximadamente de un 2.3%.

De modo análogo, podemos obtener la probabilidad de que el peso de un sujeto esté entre 60 y 100 Kg.:

De la Figura 2, tomando a =-2 y b =2, podemos deducir que:

Por el ejemplo previo, se sabe que .  Para la segunda probabilidad, sin embargo, encontramos el problema de que las tablas estándar no proporcionan el valor de para valores negativos de la variable.  Sin embargo, haciendo uso de la simetría de la distribución normal, se tiene que:

Finalmente, la probabilidad buscada de que una persona elegida al azar tenga un peso entre 60 y 100 Kg., es de 0.9772-0.0228=0.9544, es decir, aproximadamente de un 95%.  Resulta interesante comprobar que se obtendría la misma conclusión recurriendo a la propiedad (iii) de la distribución normal.

No obstante, es fácil observar que este tipo de situaciones no corresponde a lo que habitualmente nos encontramos en la práctica.  Generalmente no se dispone de información acerca de la distribución teórica de la población, sino que más bien el problema se plantea a la inversa: a partir de una muestra extraída al azar de la población que se desea estudiar, se realizan una serie de mediciones y se desea extrapolar los resultados obtenidos a la población de origen.  En un ejemplo similar al anterior, supongamos que se dispone del peso de n =100 individuos de esa misma población, obteniéndose una media muestral de Kg., y una desviación estándar muestral S=12 Kg., querríamos extraer alguna conclusión acerca del valor medio real de ese peso en la población original.  La solución a este tipo de cuestiones se basa en un resultado elemental de la teoría estadística, el llamado teorema central del límite.  Dicho axioma viene a decirnos que las medias de muestras aleatorias de cualquier variable siguen ellas mismas una distribución normal con igual media que la de la población y desviación estándar la de la población dividida por En nuestro caso, podremos entonces considerar la media muestral , con lo cual, a partir de la propiedad (iii) se conoce que aproximadamente un 95% de los posibles valores de caerían dentro del intervalo .  Puesto que los valores de µ y σ son desconocidos, podríamos pensar en aproximarlos por sus análogos muestrales, resultando .

Estaremos, por lo tanto, un 95% seguros de que el peso medio real en la población de origen oscila entre 75.6 Kg. y 80.3 Kg.  Aunque la teoría estadística subyacente es mucho más compleja, en líneas generales éste es el modo de construir un intervalo de confianza para la media de una población. 

Terorema de Chebshev, este teorema da una estimación conservadora de la probabilidad de que una variable aleatoria tome un valor dentro de k dentro de k desviaciones estándar de su media para cualquier número real k. Proporcionaremos solo la demostración para caso continuo.

La probabilidad de que cualquier variable aleatoria X tome un valor dentro de k desviaciones estándar de la media es al menos 1-. Es decir

.

En esta sección estudiaremos las distribuciones más importantes de variables aleatorias continuas unidimensionales. El soporte de una variable aleatoria continua se define como aquella región de $I\!\!R$donde su densidad es no nula, . Para las distribuciones que enunciaremos, podrá ser bien todo $I\!\!R$, o bien un segmento de la forma.

 

La distribución gaussiana, recibe también el nombre de distribución normal, ya que una gran mayoría de las variables aleatorias continuas de la naturaleza siguen esta distribución. Se dice que una variable aleatoria X sigue una distribución normal de parámetros µ y σ2, lo que representamos del modo:

$X{\leadsto}{ {{\bf N} \left( \mu,\sigma^2 \right)} }$

Si su función de densidad es:

\begin{displaymath}{
\mbox{\fbox{$\displaystyle
f(x) = {\scriptstyle \frac{1}{\...
...-\mu}{\sigma}\right)^2},\qquad
\forall \, x\in I\!\!R
$ } }
}
\end{displaymath}

 

Estos dos parámetros µ y σ2coinciden además con la media (esperanza) y la varianza respectivamente de la distribución como se demostrará más adelante:

\begin{eqnarray}\html{eqn64}{ {{\bf E} \left[ X \right]} }&=&\mu
\\
{ {{\bf Var } \left[ X \right]} }&=&\sigma^2
\end{eqnarray}

La forma de la función de densidad es la llamada campana de Gauss.   

Figura: Campana de Gauss o función de densidad de una variable aleatoria de distribución normal. El área contenida entre la gráfica y el eje de abcisas vale 1.

\includegraphics[angle=-90, width=0.8\textwidth]{fig06-07.epsi}

Para el lector es un ejercicio interesante comprobar que ésta alcanza un único máximo (moda) en µ, que es simétrica con respecto al mismo, y por tanto:

${{\cal P}}[X\leq \mu]={{\cal P}}[X\geq \mu]=1/2$

Con lo cual en µ coinciden la media, la mediana y la moda, y por último, calcular sus puntos de inflexión.

El soporte de la distribución es todo $I\!\!R$, de modo que la mayor parte de la masa de probabilidad (área comprendida entre la curva y el eje de abcisas) se encuentra concentrado alrededor de la media, y las ramas de la curva se extienden asintóticamente a los ejes, de modo que cualquier valor ``muy alejado" de la media es posible (aunque poco probable).

La forma de la campana de Gauss depende de los parámetros µ y σ:

·         µ indica la posición de la campana (parámetro de centralización); 


 

Figura: Distribuciones gaussianas con diferentes medias e igual dispersión.

\includegraphics[angle=0, width=0.9\textwidth]{fig06-08.eps}

·         σ2 (o equivalentemente, σ) será el parámetro de dispersión. Cuanto menor sea, mayor cantidad de masa de probabilidad habrá concentrada alrededor de la media (grafo de f muy apuntado cerca de µ) y cuanto mayor sea ``más aplastado" será.   

Figura: Distribuciones gaussianas con igual media pero varianza diferente.

\includegraphics[angle=0, width=0.9\textwidth]{fig06-09.eps}

La función característica de la distribución normal, se comprueba más adelante que es:

\begin{displaymath}\phi_X(t)= e^{it\mu-\frac{1}{2}t^2\sigma^2}
\end{displaymath}

Como consecuencia, la distribución normal es reproductiva con respecto a los parámetros µ, y σ2, ya que:

\begin{eqnarray}\html{eqn66}\left\{
\begin{array}{l}
X{\leadsto}{ {{\bf N} \left...
...N} \left( \mu_1+\mu_2,\sigma_1^2+\sigma_2^2 \right)} }
\nonumber
\end{eqnarray}

Como se ha mencionado anteriormente, la ley de probabilidad gaussiana la encontramos en la mayoría de los fenómenos que observamos en la naturaleza, por ello gran parte de lo que resta del curso lo vamos a dedicar a su estudio y a el de las distribuciones asociadas a ella. Sin embargo, a pesar de su utilidad, hay que apuntar un hecho negativo para esta ley de probabilidad:

La función no posee primitiva conocida.

Las consecuencias desde el punto de vista práctico son importantes, ya que eso impide el que podamos escribir de modo sencillo la función de distribución de la normal, y nos tenemos que limitar a decir que:

\begin{displaymath}F(x) = P[X\leq x] = \int_{-\infty}^{x} f(t)\,dt =
{\scriptsty...
...x}
e^{-\frac{1}{2}\,\left(\frac{t-\mu}{\sigma}\right)^2}\, dt
\end{displaymath}

Sin poder hacer uso de ninguna expresión que la simplifique. Afortunadamente esto no impide que para un valor de x fijo, F(x) pueda ser calculado. De hecho puede ser calculado con tanta precisión (decimales) como se quiera, pero para esto se necesita usar técnicas de cálculo numérico y ordenadores. Para la utilización en problemas prácticos de la función de distribución F, existen ciertas tablas donde se ofrecen (con varios decimales de precisión) los valores F(x) para una serie limitada de valores xi dados. Normalmente F se encuentra tabulada para una distribución Z, normal de media 0 y varianza 1 que se denomina distribución normal tipificada:

\begin{displaymath}{
\mbox{\fbox{$\displaystyle
Z{\leadsto}{ {{\bf N} \left( 0,...
...{2\pi}}}
e^{-\frac{z^2}{2}}\:\: \forall\, z\in I\!\!R
$ } }
}
\end{displaymath}
En el caso de que tengamos una distribución diferente
$X{\leadsto}{ {{\bf N} \left( \mu,\sigma^2 \right)} }$, se obtiene Z haciendo el siguiente cambio:

\begin{displaymath}{
\mbox{\fbox{$\displaystyle
X{\leadsto}{ {{\bf N} \left( \m...
...mu}{\sigma} {\leadsto}{ {{\bf N} \left( 0,1 \right)} }
$ } }
}
\end{displaymath}

De manera general se tiene:

$a,b\in I\!\!R$Sean . Entonces:

 

$X{\leadsto}{ {{\bf N} \left( \mu,\sigma^2 \right)} }$\begin{displaymath}X{\leadsto}{ {{\bf N} \left( \mu,\sigma^2 \right)} } \Longrig...
...ot X
{\leadsto}{ {{\bf N} \left( a+b\mu,(b\sigma)^2 \right)} }
\end{displaymath}

Este resultado puede ser utilizado del siguiente modo: Si , y nos interesa calcular $F_X(x)={{\cal P}}[X\leq x]$,

1. Hacemos el cambio $Z=\displaystyle\frac{X-\mu}{\sigma} {\leadsto}{ {{\bf N} \left( 0,1 \right)} }$y calculamos $z=\displaystyle\frac{x-\mu}{\sigma}$;

2. Usamos la tabla, relativa a la distribución ${ {{\bf N} \left ( 0,1 \right )} }$para obtener (de modo aproximado) $F_Z(z)={{\cal P}}[Z\leq z]$;

3. Como \begin{displaymath}{{\cal P}}[Z\leq z] = {{\cal P}}[\frac{X-\mu{\!\!\!\setminus}...
...inus}}{\sigma{\!\!\!\setminus}}]=
{{\cal P}}[X\leq x] = F_X(x)
\end{displaymath} tenemos que el valor obtenido en la tabla, FZ(z) es la probabilidad buscada.

1.1.1.1         Ejemplo

Supongamos que cierto fenómeno pueda ser representado mediante una variable aleatoria $X{\leadsto}{ {{\bf N} \left( 45,81 \right)} }$, y queremos calcular la probabilidad de que X tome un valor entre 39 y 48, es decir, \begin{displaymath}{{\cal P}}[39\leq X\leq 48] = ??
\end{displaymath}


Comenzamos haciendo el cambio de variable

\begin{displaymath}Z=\frac{X-\mu}{\sigma}=\frac{X-45}{\sqrt{81}} = \frac{X-45}{9}
\end{displaymath}


De modo que:

\begin{eqnarray}\html{eqn78}{{\cal P}}[39\leq X\leq 48] &=&
{{\cal P}}[\frac{39...
... una tabla}
\nonumber \\
& \approx & 0,6293 -1 + 0,7486 =0,378
\end{eqnarray}

Vamos ahora a demostrar algunas de las propiedades de la ley gaussiana que hemos mencionado anteriormente.

Sea $X{\leadsto}{ {{\bf N} \left( \mu,\sigma \right)} }$. Entonces

\begin{eqnarray}\html{eqn79}{ {{\bf E} \left[ X \right]} } &=& \mu
\\
& & \non...
...
& & \nonumber
\\
\phi_X(t)&=& e^{it\mu-\frac{1}{2}t^2\sigma^2}
\end{eqnarray}

Demostración

Por ser la normal una ley de probabilidad se tiene que

\begin{displaymath}\int_{-\infty}^{+\infty}
{\scriptstyle \frac{1}{\sigma \sqrt{...
... e^{-\frac{1}{2}\,\left(\frac{x-\mu}{\sigma}\right)^2} \,dx =1
\end{displaymath}


Es decir, esa integral es constante. Con lo cual, derivando la expresión anterior con respecto a µ se obtiene el valor 0:

\begin{eqnarray}\html{eqn82}0 &=&
\int_{-\infty}^{+\infty}
{\scriptstyle \frac{1...
...c{1}{2}\,\left(\frac{x-\mu}{\sigma}\right)^2} \,dx
}_{=1}
\right]
\end{eqnarray}
Luego ${ {{\bf E} \left[ X \right]} }-\mu=0$.

Para demostrar la igualdad entre la var[X] y σ2, basta con aplicar la misma técnica, pero esta vez derivando con respecto a σ2:

\begin{displaymath}0=-\frac{1}{2}
\left[
\frac{1}{\sigma^2}
\underbrace{
\int_{-...
...\mu)^2 \right]} } = { {{\bf Var } \left[ X \right]} }}
\right]
\end{displaymath}


Luego

\begin{displaymath}\frac{1}{\sigma^2} - \frac{1}{\sigma^4}{ {{\bf Var } \left[ X...
... =0 \Longrightarrow
{ {{\bf Var } \left[ X \right]} }=\sigma^2
\end{displaymath}

Para demostrar el resultado relativo a la función característica, consideramos en primer lugar la variable aleatoria tipificada de X,

\begin{displaymath}Z=\frac{X-\mu}{\sigma}{\leadsto}{ {{\bf N} \left( 0,1 \right)} }
\end{displaymath}

Y calculamos

\begin{displaymath}\phi_Z(t) = \int_{-\infty}^{+\infty} e^{itz} \frac{1}{\sqrt{2...
...\frac{1}{2}(z-it)^2} \,dz
}_{\sqrt{2\pi}} = e^{-\frac{t^2}{2}}
\end{displaymath}


Como $X=\mu+ \sigma U$, deducimos que

\begin{displaymath}\phi_X(t) =
e^{it\mu}\phi_Z(\sigma t) =e^{it\mu-\frac{1}{2}t^2\sigma^2}
\end{displaymath}

1.1.2          Distribución Chi-Cuadrada (X2)

Si consideramos una v.a. $Z{\leadsto}{ {{\bf N} \left( 0,1 \right)} }$, la v.a. X=Z2 se distribuye según una ley de probabilidad distribución x2 con un grado de libertad, lo que se representa como:\begin{displaymath}X{\leadsto}{ \mbox{\boldmath$\chi$ } }_1^2
\end{displaymath}

Si tenemos n v.a. independientes $Z_i{\leadsto}{ {{\bf N} \left( 0,1 \right)} }$, la suma de sus cuadrados respectivos es una distribución que denominaremos ley de distribución x2con n grados de libertad, x2n.

\begin{eqnarray}\html{eqn91}{ {{\bf E} \left[ X \right]} }&=&n
\\
{ {{\bf Var } \left[ X \right]} }&=&2n
\end{eqnarray}\begin{displaymath}{
\mbox{\fbox{$\displaystyle
\{Z_i\}_{i=1}^n{\leadsto}{ {{\b...
...}^n \, Z_i^2 {\leadsto}{ \mbox{\boldmath$\chi$ } }_n^2
$ } }
}
\end{displaymath}
La media y varianza de esta variable son respectivamente:

Y su función de densidad es:

\begin{displaymath}f_{\chi_n^2}(x)=\left\{
\begin{array}{l}
0 \qquad \mbox{si } ...
...rac{x}{2}} \qquad \mbox{si } x\in(0,\infty)
\end{array}\right.
\end{displaymath}


Los percentiles de esta distribución que aparecen con más frecuencia en la práctica los podemos encontrar en la tabla. 

Figura: Función de densidad de x2n para valores pequeños de n.

\includegraphics[angle=0, width=0.8\textwidth]{fig06-14.eps}

Figura: Función de densidad de x2n para valores grandes de n.

\includegraphics[angle=0, width=0.8\textwidth]{fig06-15.eps}

En consecuencia, si tenemos x1,…,xn, v.a. independientes, donde cada $X_i{\leadsto}{ {{\bf N} \left( \mu_i,\sigma_i^2 \right)} }$, se tiene

\begin{displaymath}\sum_{i=1}^n \, \left(\frac{X_i -\mu_i}{\sigma_i}\right)^2
\: {\leadsto}{ \mbox{\boldmath$\chi$ } }_n^2
\end{displaymath}

La ley de distribución x2 muestra su importancia cuando queremos determinar la variabilidad (sin signo) de cantidades que se distribuyen en torno a un valor central siguiendo un mecanismo normal. Como ilustración tenemos el siguiente ejemplo:

Un instrumento para medir el nivel de glucemia en sangre, ofrece resultados bastantes aproximados con la realidad, aunque existe cierta cantidad de error $\epsilon$que se distribuye de modo normal con media 0 y desviación típica $\sigma=2$.

\begin{displaymath}X_{\mbox{real}} = X_{\mbox{exp}} + \epsilon,\qquad
\epsilon{\leadsto}{ {{\bf N} \left( \mu=0,\sigma^2=2^2 \right)} }
\end{displaymath}

Se realizan mediciones de los niveles de glucemia dados por el instrumento en un grupo de n=100 pacientes. Nos interesa medir la cantidad de error que se acumula en las mediciones de todos los pacientes. Podemos plantear varias estrategias para medir los errores acumulados. Entre ellas destacamos las siguientes:

1. Definimos el error acumulado en las mediciones de todos los pacientes como

\begin{displaymath}E_1 = \sum_{i=1}^n \epsilon_i
\end{displaymath}

¿Cuál es el valor esperado para E1?

2. Definimos el error acumulado como la suma de los cuadrados de todos los errores (cantidades positivas):

\begin{displaymath}E_2 = \sum_{i=1}^n \epsilon_i^2
\end{displaymath}

¿Cuál es el valor esperado para E2?

A la vista de los resultados, cuál de las dos cantidades, E1 y E2, le parece más conveniente utilizar en una estimación del error cometido por un instrumento.

\begin{displaymath}E_1 = \sum_{i=1}^n \epsilon_i =
\underbrace{
\underbrace{\ep...
...
\;\Longrightarrow
\; { {{\bf E} \left[ E_1 \right]} }=\mu = 0
\end{displaymath}Solución: Suponiendo que todas las mediciones son independientes, se tiene que:

 

De este modo, el valor esperado para E1 es 0, es decir, que los errores ei van a tender a compensarse entre unos pacientes y otros. Obsérvese que si µ no fuese conocido a priori, podríamos utilizar E1, para obtener una aproximación de µ

\begin{displaymath}\mu \approx\frac{E_1}{n}
\end{displaymath}

Sin embargo, el resultado E1 no nos indica en qué medida hay mayor o menor dispersión en los errores con respecto al 0. En cuanto a E2 podemos afirmar lo siguiente:

\begin{displaymath}E_2 = \sum_{i=1}^n \epsilon_i^2 =
\sigma^2\, \sum_{i=1}^n \l...
...arrow
\; { {{\bf E} \left[ E_2 \right]} }=n\cdot\sigma^2 = 400
\end{displaymath}

En este caso los errores no se compensan entre sí, y si $\sigma ^2$no fuese conocido, podría ser ``estimado" de modo aproximado mediante

\begin{displaymath}\sigma^2 \approx \frac{E_2}{n}
\end{displaymath}

Sin embargo, no obtenemos ninguna información con respecto a µ.

En conclusión, E1 podría ser utilizado para calcular de modo aproximado µ, y E2 para calcular de modo aproximado $\sigma ^2$. Las dos cantidades tienen interés, y ninguna lo tiene más que la otra, pues ambas formas de medir el error nos aportan información.

El siguiente resultado será de importancia más adelante. Nos afirma que la media de distribuciones normales independientes es normal pero con menor varianza y relaciona los grados de libertad de una v.a. con distribución x, con los de un estadístico como la varianza:

Sean $X_1, \dots,X_n\:{\leadsto}{ {{\bf N} \left( \mu,\sigma^2 \right)} }$v.a. independientes. Entonces

\begin{displaymath}\overline{X}=\frac{1}{n}\, \sum_{i=1}^n\, X_i \:{\leadsto}
{ {{\bf N} \left( \mu,\frac{\sigma^2}{n} \right)} }
\end{displaymath}

\begin{displaymath}\sum_{i=1}^n\, \frac{(X_i-\overline{X})^2}{\sigma^2} \:{\leadsto}
{ \mbox{\boldmath$\chi$ } }_{n-1}^2
\end{displaymath}

\begin{displaymath}\overline{X}\mbox{ y }
\sum_{i=1}^n\, \frac{(X_i-\overline{X})^2}{\sigma^2}
\mbox{ son v.a. independientes.}
\end{displaymath}

La distribución ${ {{\bf t} } }$-Student se construye como un cociente entre una normal y la raíz de una x2 independientes. De modo preciso, llamamos distribución t-Student con n grados de libertad, tn a la de una v.a. T,

 \begin{displaymath}{
\mbox{\fbox{$\displaystyle
T=\frac{Z}{\sqrt{ \frac{1}{n}\chi_n^2}} {\leadsto}{ {{\bf t} } }_n
$ } }
}
\end{displaymath}


Donde $Z{\leadsto}{ {{\bf N} \left( 0,1 \right)} }$, $\chi_n^2{\leadsto}{ \mbox{\boldmath$\chi$ } }_n^2$. Este tipo de distribuciones aparece cuando tenemos n+1 v.a. independientes

\begin{displaymath}X{\leadsto}{ {{\bf N} \left( \mu,\sigma^2 \right)} }
\end{displaymath}

\begin{displaymath}X_i{\leadsto}{ {{\bf N} \left( \mu_i,\sigma_i^2 \right)} }\qquad i=1,\dots,n
\end{displaymath}

y nos interesa la distribución de

\begin{displaymath}T=\frac{ \displaystyle \frac{X-\mu}{\sigma}}{
\sqrt{\displays...
...c{X_i-\mu_i}{\sigma_i}
\right)^2
}}
{\leadsto}{ {{\bf t} } }_n
\end{displaymath}

La función de densidad de $t_n{\leadsto}{ {{\bf t} } }_n$es

\begin{displaymath}f_T(x)=\frac{\Gamma\left(\frac{n+1}{2}\right)}{\Gamma\left(
\...
...ac{x^2}{n}\right)^{-\frac{n+1}{2}}
\qquad \forall\,t\in I\!\!R
\end{displaymath}

  

Figura: Función de densidad de una ${ {{\bf t} } }$de Student

\includegraphics[angle=-90, width=0.8\textwidth]{fig06-16.epsi}

 

La distribución t de Student tiene propiedades parecidas a N(0,1):

Es de media cero, y simétrica con respecto a la misma;

Es algo más dispersa que la normal, pero la varianza decrece hasta 1 cuando el número de grados de libertad aumenta;

  

Figura: Comparación entre las funciones de densidad de t1 y N(0,1).

\includegraphics[angle=-90, width=0.8\textwidth]{fig06-17.epsi}

Para un número alto de grados de libertad se puede aproximar la distribución de Student por la normal, es decir,

\begin{displaymath}{ {{\bf t} } }_n \stackrel{n\rightarrow \infty}{\longrightarrow} { {{\bf N} \left( 0,1 \right)} }
\end{displaymath}  

Figura: Cuando aumentan los grados de libertad, la distribución de Student se aproxima a la distribución normal tipificada.

\includegraphics[angle=-90, width=0.8\textwidth]{fig06-18.epsi}

Para calcular

\begin{displaymath}{{\cal P}}[T\leq t] = F_T(t) = \int_{-\infty}^t f_T(x)\,dx
= ...
...qrt{n\pi}}
\left(1+\frac{x^2}{n}\right)^{-\frac{n+1}{2}}\, dx}
\end{displaymath}

En lugar de considerar una primitiva de esa función y determinar la integral definida, buscaremos el resultado aproximado en una tabla de la distribución tn. Véase la tabla, al final del libro.

Otra de las distribuciones importantes asociadas a la normal es la que se define como cociente de distribuciones x2independientes. Sean $X{\leadsto}{ \mbox{\boldmath$\chi$ } }_n^2$e $Y{\leadsto}{ \mbox{\boldmath$\chi$ } }_m^2$v.a. independientes. Decimos entonces que la variable

\begin{displaymath}{
\mbox{\fbox{$\displaystyle
F = \frac{ \frac{1}{n} X}{\frac...
...}{n}\,
\frac{\:X\:}{Y} {\leadsto}
{ {{\bf F} } }_{n,m}
$ } }
}
\end{displaymath}
Sigue una distribución de probabilidad de Snedecor, con (n,m) grados de libertad. Obsérvese que ${ {{\bf F} } }_{n,m}\neq{ {{\bf F} } }_{m,n}$.

La forma más habitual en que nos encontraremos esta distribución será en el caso en que tengamos n+m v.a. independientes

\begin{displaymath}X_i{\leadsto}{ {{\bf N} \left( \mu_i,\sigma_i^2 \right)} }\qquad i=1,\dots,n
\end{displaymath}

\begin{displaymath}Y_j{\leadsto}{ {{\bf N} \left( m_j,s_j^2 \right)} }\qquad i=1,\dots,m
\end{displaymath}

Y así

\begin{displaymath}F=\frac{\displaystyle \frac{1}{n}
\sum_{i=1}^n \,\left(\frac{...
...\frac{Y_j-m_j}{s_j}\right)^2}
\:{\leadsto}{ {{\bf F} } }_{n,m}
\end{displaymath}

De esta ley de probabilidad lo que más nos interesa es su función de distribución:

\begin{displaymath}F_F(x) = {{\cal P}}[F\leq x]
\end{displaymath}


y para ello, como en todas las distribuciones asociadas a la normal, disponemos de una tabla donde encontrar aproximaciones a esas cantidades 

Figura: Función de densidad de ${ {{\bf F} } }_{n_1,n_2}$.

\includegraphics[angle=-90, width=0.8\textwidth]{fig06-19.epsi}

 

Es claro que la distribución de Snedecor no es simétrica, pues sólo tienen densidad de probabilidad distinta de cero, los punto de $I\!\!R^+$. Otra propiedad interesante de la distribución de Snedecor es:

\begin{displaymath}F{\leadsto}{ {{\bf F} } }_{n,m} \;\Longleftrightarrow\;
\frac{1}{F} {\leadsto}{ {{\bf F} } }_{m,n}
\end{displaymath}

1.2          Aproximación a la normal de la ley binomial

Se puede demostrar (teorema central del límite) que una variable aleatoria discreta con distribución binomial, $X {\leadsto}{ {{\bf B} \left( n,p \right)} }$se puede aproximar mediante una distribución normal si n es suficientemente grande y p no está ni muy próximo a 0 ni a 1. Como el valor esperado y la varianza de X son respectivamente np y npq, la aproximación consiste en decir que $X{\: \stackrel{\approx}{\leadsto}\:}{ {{\bf N} \left( n\,p,n\,p\,q \right)} }$. El convenio que se suele utilizar para poder realizar esta aproximación es:

\begin{displaymath}X{\leadsto}{ {{\bf B} \left( n,p \right)} }\;\;\mbox{ donde }...
...\approx}{\leadsto}\:}{ {{\bf N} \left( n\,p,n\,p\,q \right)} }
\end{displaymath}

Aunque en realidad esta no da resultados muy precisos a menos que realmente n sea un valor muy grande o . Como ilustración obsérvense las figuras siguientes.

Figura: Comparación entre la función de densidad de una variable aleatoria continua con distribución N(np,npq) y el diagrama de barras de una variable aleatoria discreta de distribución B(n,p) para casos en que la aproximación normal de la binomial es válida. Es peor esta aproximación cuando p está próximo a los bordes del intervalo [0,1].

\includegraphics[angle=0, width=0.8\textwidth]{fig06-10.eps}

  Figura: La misma comparación que en la figura anterior, pero realizada con parámetros con los que damos la aproximación normal de la binomial es mejor.

\includegraphics[angle=0, width=0.8\textwidth]{fig06-11.eps}

Durante cierta epidemia de gripe, enferma el 30% de la población. En un aula con 200 estudiantes de Medicina, ¿cuál es la probabilidad de que al menos 40 padezcan la enfermedad? Calcular la probabilidad de que haya 60 estudiantes con gripe.

Solución: La variable aleatoria que contabiliza el número de alumnos que padece la gripe es

\begin{displaymath}X{\leadsto}{ {{\bf B} \left( n=200,p=0,3 \right)} }
\end{displaymath}

Cuya media es µ =n*p=60 y su varianza es σ2=npq=42. Realizar los cálculos con la ley binomial es muy engorroso, ya que intervienen números combinatorios de gran tamaño, y potencias muy elevadas. Por ello utilizamos la aproximación normal de X, teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable:

\begin{displaymath}X{\leadsto}{ {{\bf B} \left( n,p \right)} }\;\;\mbox{ donde }...
...X_N{\leadsto}{ {{\bf N} \left( \mu=60,\sigma^2 = 42 \right)} }
\end{displaymath}

Así aproximando la variable aleatoria discreta binomial X, mediante la variable aleatoria continua normal XN tenemos:

\begin{eqnarray}\html{eqn83}{{\cal P}}[X\leq 40] &\approx& {{\cal P}}[X_N\leq 40...
...
\nonumber \\
\mbox{buscando en la tabla 3}&=& 0,999
\nonumber
\end{eqnarray}


También es necesario calcular P[X]=60. Esta probabilidad se calcula exactamente como:

\begin{displaymath}{{\cal P}}[X=60] = { \left(\begin{array}{c} 200\\ 60 \end{array}\right)\,}p^{60}\, q^{140}
\end{displaymath}

Dada la dificultad numérica para calcular esa cantidad, y como la distribución binomial no está habitualmente tabulada hasta valores tan altos, vamos a utilizar su aproximación normal, XN. Pero hay que prestar atención al hecho de que XN es una variable aleatoria continua, y por tanto la probabilidad de cualquier punto es cero. En particular,

\begin{displaymath}{{\cal P}}[X_N=60]=0 \;\;\Longrightarrow \;\;{{\cal P}}[X=60]\approx 0
\end{displaymath}

Lo que ha de ser interpretado como un error de aproximación. Hay métodos más aproximados para calcular la probabilidad buscada. Por ejemplo, podemos aproximar P[X]=60 por el valor de la función de densidad de XN en ese punto (es en el único sentido en que se puede entender la función de densidad de la normal como una aproximación de una probabilidad). Así:

\begin{displaymath}{{\cal P}}[X=60]\approx f_{X_N}(60) =
{\scriptstyle \frac{1}...
...t)^2}
={\scriptstyle \frac{1}{\sigma \sqrt{2\pi}}} e^0 = 0,063
\end{displaymath}

Por último, otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60 del que deseamos hallar su probabilidad y hacer:

\begin{displaymath}{{\cal P}}[X=60] \approx {{\cal P}}[59'5 \leq X_N \leq 60,5] ...
...\underbrace{-0,08\leq Z\leq 0,08}_{\mbox{simetría}}]
= 0,0638
\end{displaymath}

Según un estudio, la altura de los varones de cierta ciudad es una v.a. X, que podemos considerar que se distribuye según una ley gaussiana de valor esperado µ =175 cm. y desviación típica σ=10 cm. Dar un intervalo para el que tengamos asegurado que el 50% de los habitantes de la ciudad estén comprendidos en él.

Solución: Tenemos que $X{\leadsto}{ {{\bf N} \left( \mu=175,\sigma^2=10^2 \right)} }$. Si buscamos un intervalo donde estar seguros de que el 50% de los habitantes tengan sus alturas comprendidas en él hay varias estrategias posibles:

1. Podemos tomar el percentil 50, ya que este valor deja por debajo suya a la mitad, 0,5, de la masa de probabilidad. Este valor, x0,5, se definiría como:

\begin{eqnarray}\html{eqn83}\int_{-\infty}^{x_{0,5}} f(t)\,dt = 0,5
\;\;&\Longle...
...cando } &\Longleftrightarrow&\;\;
{{\cal P}}[Z\leq z_{0,5}] =0,5
\end{eqnarray}

Donde

\begin{eqnarray}\html{eqn84}Z&=&\frac{X-\mu}{\sigma} = \frac{X-175}{10}{\leadsto...
...\
z_{0,5}&= & \frac{x_{0,5}-\mu}{\sigma}= \frac{x_{0,5}-175}{10}
\end{eqnarray}

El valor z0,5 lo podemos buscar en la tabla (distribución N(0,1) y se obtiene:

\begin{displaymath}z_{0,5}=0\;\;\Longrightarrow x_{0,5}=175 + 10\cdot z_{0,05} = 175
\end{displaymath}

Por tanto podemos decir que la mitad de la población tiene una altura inferior a X0,5=175 cm. Este resultado era de esperar, ya que en la distribución es simétrica y habrá una mitad de individuos con un peso inferior a la media y otro con un peso superior. Esto puede escribirse como:

El 50% de la población tiene un peso comprendido en el intervalo (-¥,175).

 

Figura: Intervalo donde tenemos asegurado que el 50% de la población tiene un peso comprendido en él. Como se observa, no es un tamaño óptimo, en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda).

\includegraphics[angle=-90, width=0.8\textwidth]{fig06-12.epsi}

 

2. Análogamente podemos considerar el percentil 50, y tomar como intervalo aquellos pesos que lo superan. Por las mismas razones que en el problema anterior, podremos decir:

El 50% de la población tiene un peso comprendido en el intervalo [175,+¥).

3. Los anteriores intervalos, aún dando un resultado correcto, no son satisfactorios en el sentido de que son muy grandes, y no tienen en cuenta la simetría de la distribución normal para tomar un intervalo cuyo centro sea µ. Vamos a utilizar entonces otra técnica que nos permita calcular el intervalo centrado en la media, y que además será el más pequeño posible que contenga al 50% de la población.

Para ello observamos que la mayor parte de probabilidad está concentrada siempre alrededor de la media en las leyes gaussianas. Entonces podemos tomar un intervalo que contenga un 25% de probabilidad del lado izquierdo más próximo a la media, y un 25% del derecho.

  

Figura: Intervalo donde tenemos asegurado que el 50% de la población tiene un peso comprendido en él. En este caso el intervalo es más pequeño que el anterior y está centrado en µ.

\includegraphics[angle=-90, width=0.8\textwidth]{fig06-13.epsi}

Esto se puede describir como el intervalo \begin{displaymath}[x_{0,25}\,,\,x_{0,75}]
\end{displaymath} donde x0,25 es el valor que deja por debajo de sí al 25% de la masa de probabilidad y x0,75 el que lo deja por encima (o lo que es lo mismo, el que deja por debajo al 75% de las observaciones). Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribución normal, tipificando en primera instancia para destipificar después:

\begin{eqnarray}\html{eqn85}\int_{-\infty}^{x_{0,75}} f(t)\,dt = 0,75
\;\;&\Long...
...ndo } &\Longleftrightarrow&\;\;
{{\cal P}}[Z\leq z_{0,75}] =0,75
\end{eqnarray}

Donde

\begin{eqnarray}\html{eqn86}Z&=&\frac{X-\mu}{\sigma} = \frac{X-175}{10}{\leadsto...
...z_{0,75}&= & \frac{x_{0,75}-\mu}{\sigma}= \frac{x_{0,75}-175}{10}
\end{eqnarray}

En una tabla encontramos el valor z0,75, y se destipifica:

\begin{displaymath}z_{0,75}=0,675\;\;\Longrightarrow x_{0,75}=175 + 10\cdot z_{0,75} = 181'75
\end{displaymath}

Análogamente se calcularía

\begin{eqnarray}\html{eqn87}\int_{-\infty}^{x_{0,25}} f(t)\,dt = 0,25
\;\;&\Long...
...ndo } &\Longleftrightarrow&\;\;
{{\cal P}}[Z\leq z_{0,25}] =0,25
\end{eqnarray}

Donde:

\begin{eqnarray}\html{eqn88}Z&=&\frac{X-\mu}{\sigma} = \frac{X-175}{10}{\leadsto...
...z_{0,25}&= & \frac{x_{0,25}-\mu}{\sigma}= \frac{x_{0,25}-175}{10}
\end{eqnarray}

 

 

 

 

 

Por la simetría de la distribución normal con respecto al origen, tenemos que z0,25= - z0,75.Luego

\begin{displaymath}z_{0,25}=-0,675\;\;\Longrightarrow x_{0,75}=175 + 10\cdot z_{0,25} = 168,25
\end{displaymath}

En conclusión:

El 50% de la población tiene un peso comprendido en el intervalo [168,25,181,75].

De entre los tres intervalos que se han calculado el que tiene más interés es el último, ya que es simétrico con respecto a la media, y es el más pequeño de todos los posibles (más preciso). Este ejemplo es en realidad una introducción a unas técnicas de inferencia estadística que trataremos posteriormente, conocidas con el nombre de ``estimación confidencial'' o ``cálculo de intervalos de confianza''.

 

Problemas

Ejercicio 1. Para estudiar la regulación hormonal de una línea metabólica se inyectan ratas albinas con un fármaco que inhibe la síntesis de proteínas del organismo. En general, 4 de cada 20 ratas mueren a causa del fármaco antes de que el experimento haya concluido. Si se trata a 10 animales con el fármaco, ¿cuál es la probabilidad de que al menos 8 lleguen vivas al final del experimento?

Ejercicio 2. En una cierta población se ha observado un número medio anual de muertes por cáncer de pulmón de 12. Si el número de muertes causadas por la enfermedad sigue una distribución de Poisson, ¿cuál es la probabilidad de que durante el año en curso?

1. ¿Haya exactamente 10 muertes por cáncer de pulmón?

2. ¿15 o más personas mueran a causa de la enfermedad?

3. ¿10 o menos personas mueran a causa de la enfermedad?

Ejercicio 3. Dañando los cromosomas del óvulo o del espermatozoide, pueden causarse mutaciones que conducen a abortos, defectos de nacimiento, u otras deficiencias genéticas. La probabilidad de que tal mutación se produzca por radiación es del 10%. De las siguientes 150 mutaciones causadas por cromosomas dañados, ¿cuántas se esperaría que se debiesen a radiaciones? ¿Cuál es la probabilidad de que solamente 10 se debiesen a radiaciones?

Ejercicio 4. Entre los diabéticos, el nivel de glucosa en sangre X, en ayunas, puede suponerse de distribución aproximadamente normal, con media 106 mg/100 ml y desviación típica 8 mg/100 ml, es decir

\begin{displaymath}X{\leadsto}{ {{\bf N} \left( \mu=106,\sigma^2=64 \right)} }
\end{displaymath}

1. Hallar ${{\cal P}}[X\leq 120]$

2. ¿Qué porcentaje de diabéticos tienen niveles comprendidos entre 90 y 120?

3. Hallar ${{\cal P}}[106 \leq X \leq 110]$.

4. Hallar ${{\cal P}}[ X \leq 121]$.

5. Hallar el punto x caracterizado por la propiedad de que el 25% de todos los diabéticos tiene un nivel de glucosa en ayunas inferior o igual a x.

Ejercicio 5. Una prueba de laboratorio para detectar heroína en sangre tiene un 92% de precisión. Si se analizan 72 muestras en un mes, ¿cuál es la probabilidad de que:

1. ¿60 o menos estén correctamente evaluadas?

2. ¿Menos de 60 estén correctamente evaluadas?

3. ¿Exactamente 60 estén correctamente evaluadas?

Ejercicio 6. El 10% de las personas tiene algún tipo de alergia. Se seleccionan aleatoriamente 100 individuos y se les entrevista. Hallar la probabilidad de que, al menos, 12 tengan algún tipo de alergia. Hallar la probabilidad de que, como máximo, 8 sean alérgicos a algo.

Ejercicio 7. La probabilidad de muerte resultante del uso de píldoras anticonceptivas es de 3/100.000. De 1.000.000 de mujeres que utilizan este medio de control de natalidad:

1. ¿Cuántas muertes debidas a esta causa se esperan?

2. ¿Cuál es la probabilidad de que haya, como máximo, 25 de estas muertes?

3. ¿Cuál es la probabilidad de que el número de muertes debidas a esta causa esté entre 25 y 35, inclusive?

Ejercicio  8. La probabilidad de presentar una característica genética es de 1/20.

1. Tomando una muestra de 8 individuos, calcular la probabilidad de que 3 individuos presenten la característica.

2. Tomando una muestra de 80 personas, ¿cuál será la probabilidad de que aparezcan más de 5 individuos con la característica?

Ejercicio 9. Se supone que en una cierta población humana el índice cefálico i, (cociente entre el diámetro transversal y el longitudinal expresado en tanto por ciento), se distribuye según una Normal. El 58% de los habitantes son dolicocéfalos (i £75), el 38% son mesocéfalos (75 < i £80) y el 4% son braquicéfalos (i > 80). Hállese la media y la desviación típica del índice cefálico en esa población.

Ejercicio 10. Se supone que la glucemia basal en individuos sanos, Xs sigue una distribución

\begin{displaymath}X_s{\leadsto}{ {{\bf N} \left( \mu=80,\sigma=10 \right)} },
\end{displaymath}

Mientras que en los diabéticos Xd, sigue una distribución

\begin{displaymath}X_d{\leadsto}{ {{\bf N} \left( \mu=160,\sigma=31,4 \right)} }.
\end{displaymath}

Si se conviene en clasificar como sanos al 2% de los diabéticos:

1. ¿Por debajo de qué valor se considera sano a un individuo? ¿Cuántos sanos serán clasificados como diabéticos?

2. Se sabe que en la población en general el 10% de los individuos son diabéticos ¿cuál es la probabilidad de que un individuo elegido al azar y diagnosticado como diabético, realmente lo sea?

Ejercicio 611. Supóngase que se van a utilizar 20 ratas en un estudio de agentes coagulantes de la sangre. Como primera experiencia, se dio un anticoagulante a 10 de ellos, pero por inadvertencia se pusieron todas sin marcas en el mismo recinto. Se necesitaron 12 ratas para la segunda fase del estudio y se les tomó al azar sin reemplazamiento. ¿Cuál es la probabilidad de que de las 12 elegidas 6 tengan la droga y 6 no la tengan?

 

2.     UNIDAD: ESTIMACIÓN DE PARÁMETROS

El propósito de un estudio estadístico suele ser, como hemos venido citando, extraer conclusiones acerca de la naturaleza de una población. Al ser la población grande y no poder ser estudiada en su integridad en la mayoría de los casos, las conclusiones obtenidas deben basarse en el examen de solamente una parte de ésta, lo que nos lleva, en primer lugar a la justificación, necesidad y definición de las diferentes técnicas de muestreo.

Los primeros términos obligados a los que debemos hacer referencia serán los de estadístico y estimador.

Dentro de este contexto, será necesario asumir un estadístico o estimador como una variable aleatoria con una determinada distribución, y que será la pieza clave en las dos amplias categorías de la inferencia estadística: la estimación y el contraste de hipótesis.

El concepto de estimador, como herramienta fundamental, lo caracterizamos mediante una serie de propiedades que nos servirán para elegir el ``mejor" para un determinado parámetro de una población, así como algunos métodos para la obtención de ellos, tanto en la estimación puntual como por intervalos.

¿Cómo deducir la ley de probabilidad sobre determinado carácter de una población cuando sólo conocemos una muestra?

Este es un problema al que nos enfrentamos cuando por ejemplo tratamos de estudiar la relación entre el fumar y el cáncer de pulmón e intentamos extender las conclusiones obtenidas sobre una muestra al resto de individuos de la población.

La tarea fundamental de la estadística inferencial, es hacer inferencias acerca de la población a partir de una muestra extraída de la misma.

Técnicas de muestreo sobre una población

La teoría del muestreo tiene por objetivo, el estudio de las relaciones existentes entre la distribución de un carácter en dicha población y las distribuciones de dicho carácter en todas sus muestras.

Las ventajas de estudiar una población a partir de sus muestras son principalmente:

·         Coste reducido:

Si los datos que buscamos los podemos obtener a partir de una pequeña parte del total de la población, los gastos de recogida y tratamiento de los datos serán menores. Por ejemplo, cuando se realizan encuestas previas a un referéndum, es más barato preguntar a 4.000 personas su intención de voto, que a 30.000.000;

·         Mayor rapidez:

Estamos acostumbrados a ver cómo con los resultados del escrutinio de las primeras mesas electorales, se obtiene una aproximación bastante buena del resultado final de unas elecciones, muchas horas antes de que el recuento final de votos haya finalizado;

·         Más posibilidades:

Para hacer cierto tipo de estudios, por ejemplo el de duración de cierto tipo de bombillas, no es posible en la práctica destruirlas todas para conocer su vida media, ya que no quedaría nada que vender. Es mejor destruir sólo una pequeña parte de ellas y sacar conclusiones sobre las demás.

De este modo se ve que al hacer estadística inferencial debemos enfrentarnos con dos problemas:

Elección de la muestra (muestreo), que es a lo que nos dedicaremos en este capítulo.

Extrapolación de las conclusiones obtenidas sobre la muestra, al resto de la población (inferencia).

El tipo de muestreo más importante es el muestreo aleatorio, en el que todos los elementos de la población tienen la misma probabilidad de ser extraídos; Aunque dependiendo del problema y con el objetivo de reducir los costes o aumentar la precisión, otros tipos de muestreo pueden ser considerados como veremos más adelante: muestreo sistemático, estratificado y por conglomerados.

Muestreo aleatorio

Consideremos una población finita, de la que deseamos extraer una muestra. Cuando el proceso de extracción es tal que garantiza a cada uno de los elementos de la población la misma oportunidad de ser incluidos en dicha muestra, denominamos al proceso de selección muestreo aleatorio.

El muestreo aleatorio se puede plantear bajo dos puntos de vista:

·         Sin reposición de los elementos;

·         Con reposición.

Muestreo aleatorio sin reposición

Consideremos una población E formada por N elementos. Si observamos un elemento particular, , en un muestreo aleatorio sin reposición se da la siguiente circunstancia:

La probabilidad de que e sea elegido en primer lugar es;

Si no ha sido elegido en primer lugar (lo que ocurre con una probabilidad de ), la probabilidad de que sea elegido en el segundo intento es de.

En el (i+1)-ésimo intento, la población consta de N-i elementos, con lo cual si e no ha sido seleccionado previamente, la probabilidad de que lo sea en este momento es de.

Si consideramos una muestra de  elementos, donde el orden en la elección de los mismos tiene importancia, la probabilidad de elección de una muestra  cualquiera es

\begin{eqnarray*}{{\cal P}}[M] &=& {{\cal P}}[\left( e_1, e_2, \dots, e_n \right...
...N-(n-1)}
\\
&=& \frac{(N-n)!}{N!}
\\
& = & \frac{1}{V_{N,n}}
\end{eqnarray*}

Lo que corresponde en el sentido de la definición de probabilidad de Laplace a un caso posible entre las VN,n posibles n-uplas de N elementos de la población.

Si el orden no interviene, la probabilidad de que una muestra

\begin{displaymath}M=\left\{ e_1, e_2, \dots, e_n \right\}\subset E
\end{displaymath}

Sea elegida es la suma de las probabilidades de elegir una cualquiera de sus n-uplas, tantas veces como permutaciones en el orden de sus elementos sea posible, es decir

\begin{eqnarray*}{{\cal P}}[M] &=& {{\cal P}}[\left\{ e_1, e_2, \dots, e_n \righ...
...]
\\
& = & \frac{n! \cdot (N-n)!}{N!}
\\
& = & \frac{1}{C_n^N}
\end{eqnarray*}

Muestreo aleatorio con reposición

Sobre una población E de tamaño N podemos realizar extracciones de n elementos, pero de modo que cada vez el elemento extraído es repuesto al total de la población. De esta forma un elemento puede ser extraído varias veces. Si el orden en la extracción de la muestra interviene, la probabilidad de una cualquiera de ellas, formada por n elementos es:

\begin{displaymath}\frac{1}{N} \cdot \frac{1}{N} \cdots \frac{1}{N} = \frac{1}{N^n}
= \frac{1}{V\! R_{N,n}}
\end{displaymath}

Si el orden no interviene, la probabilidad de una muestra cualquiera, será la suma de la anterior, repitiéndola tantas veces como manera de combinar sus elementos sea posible. Es decir,

·         sea n1 el número de veces que se repite cierto elemento e1 en la muestra;

·         sea n2 el número de veces que se repite cierto elemento e2;

·         sea nk el número de veces que se repite cierto elemento ek,

De modo que . Entonces la probabilidad de obtener la muestra:

\begin{displaymath}\overbrace{
\underbrace{e_1,\dots,e_1}_{n_1},
\underbrace{e_1...
...,
\dots,
\underbrace{e_k,\dots,e_k}_{n_k}
}^{n=n_1+\cdots n_k}
\end{displaymath}

Es

\begin{displaymath}\begin{array}{c}
\mbox{probabilidad de una}
\\
\mbox{muestra...
...\
\mbox{las $n_k$\space observ.}
\\
\mbox{$e_k$ }
\end{array}\end{displaymath}

Es decir,

\begin{displaymath}\frac{1}{N^n} \cdot k! \cdot n_1! \cdots n_k! =
\frac{1}{C\! R_{n_1,n_2,\dots,n_k}^N}
\end{displaymath}

El muestreo aleatorio con reposición es también denominado muestreo aleatorio simple, que como hemos mencionado se caracteriza por que

·         Cada elemento de la población tiene la misma probabilidad de ser elegido, y…

·         Las observaciones se realizan con reemplazamiento. De este modo, cada observación es realizada sobre la misma población (no disminuye con las extracciones sucesivas).

Sea X una v.a. definida sobre la población E, y f(x) su ley de probabilidad.

\begin{displaymath}E \longrightarrow n \mbox{ exp. aleatorios} \longrightarrow
\...
...) =
f({x_n}_{\mid x_1,x_2,\dots, x_{n-1}})
\end{array}\right.
\end{displaymath}

En una muestra aleatoria simple, cada observación tiene la distribución de probabilidad de la población:

 \begin{displaymath}f_1 = f_2 = \cdots = f_n = f
\end{displaymath}
Además todas las observaciones de la v.a. son independientes, es decir  \begin{displaymath}f(x_1,x_2,\dots,x_n) = f(x_1) \cdot f(x_2) \cdot f(x_n)
\end{displaymath}
Las relaciones anteriores caracterizan a las muestras aleatorias simples.

Tablas de números aleatorios: Lotería Nacional

Un ejemplo de una tabla de números aleatorios consiste en la lista de los números de Lotería Nacional premiados a lo largo de su historia, pues se caracterizan por que cada dígito tiene la misma probabilidad de ser elegido, y su elección es independiente de las demás extracciones.

Un modo de hacerlo es el siguiente. Supongamos que tenemos una lista de números aleatorios de k=5 cifras (00000-99.999), una población de N=600 individuos, y deseamos extraer una muestra de n=6 de ellos. En este caso ordenamos a toda la población (usando cualquier criterio) de modo que a cada uno de sus elementos le corresponda un número del 1 al 600. En segundo lugar nos dirigimos a la tabla de números aleatorios, y comenzando en cualquier punto extraemos un número t, y tomamos como primer elemento de la muestra al elemento de la población:

\begin{displaymath}1+\left[\frac{ t\cdot N}{10^k}\right] =
1+\left[\frac{ t\cdot 600}{100.000}\right]
\end{displaymath}

El proceso se repite tomando los siguientes números de la tabla de números aleatorios, hasta obtener la muestra de 10 individuos.

Las cantidades

\begin{displaymath}u=\frac{t}{10^k}
\end{displaymath}

Pueden ser consideradas como observaciones de una v.a. U, que sigue una distribución uniforme en el intervalo [0,1]

\begin{displaymath}U{\leadsto}{ {{\bf U} \left( 0,1 \right)} }
\end{displaymath}

Método de Montecarlo

El método de Montecarlo es una técnica para obtener muestras aleatorias simples de una v.a. X, de la que conocemos su ley de probabilidad (a partir de su función de distribución F). Con este método, el modo de elegir aleatoriamente un valor de X siguiendo usando su ley de probabilidad es:

1. Usando una tabla de números aleatorios se toma un valor u de una v.a. $U{\leadsto}{ {{\bf U} \left( 0,1 \right)} }$.

2. Si X es continua tomar como observación de X, la cantidad x=F-1(u). En el caso en que X sea discreta se toma x como el percentil $100\cdot u$de X, es decir el valor más pequeño que verifica que . Este proceso se debe repetir n veces para obtener una muestra de tamaño n.

Ejemplo

Si queremos extraer n=10 muestras de una distribución N(0,1) podemos recurrir a una tabla de números aleatorios de k=5 cifras, en las que observamos las cantidades (por ejemplo)

\begin{displaymath}t{\leadsto}76.293,\,31.776,\, 50.803,\,71.153,\,20.271,\,
33.717,\,17.979,\,52.125,\, 41.330,\, 95.141
\end{displaymath}

A partir de ellas podemos obtener una muestra de $X{\leadsto}{ {{\bf N} \left( 0,1 \right)} }$usando una tabla de la distribución normal:

Números aleatorios

Muestra ${ {{\bf U} \left( 0,1 \right)} }$

Muestra ${ {{\bf N} \left ( 0,1 \right )} }$

ti

$u_i \approx \frac{t_i}{10^5}$

xi = F-1(ui)

76.293

0'76

0'71

31.776

0'32(=1-0'68)

-0'47

50.803

0'51

0'03

71.153

0'71

0'55

20.271

0'20(=1-0'80)

-0'84

33.717

0'34(=1-0'66)

-0'41

17.979

0'18(=1-0'82)

-0'92

52.125

0'52

0'05

41.330

0'41(=1-0'59)

-0'23

95.141

0'95

1'65

Obsérvese que como era de esperar, las observaciones xi tienden a agruparse alrededor de la esperanza matemática de $X_i {\leadsto}{ {{\bf N} \left( \mu=0,\sigma^2=1 \right)} }$. Por otra parte, esto no implica que el valor medio de la muestra sea necesariamente $\overline{x}=0$. Sin embargo como sabemos por el teorema de Fisher que

\begin{displaymath}\overline{X} = \sum_{i=1}^{10} X_i {\leadsto}
{ {{\bf N} \le...
...overline{x}}=0,\sigma_{\overline{x}}^2=\frac{1}{10} \right)} }
\end{displaymath}

Su dispersión con respecto al valor central es pequeña, lo que implica que probablemente el valor medio $\overline {x}$estará muy próximo a 0, como se puede calcular:

\begin{displaymath}\overline{x}= \frac{1}{10} (0,71 + \cdots+ 1,65) = 0,012
\end{displaymath}

Obsérvese que si el problema fuese el inverso, donde únicamente conociésemos las observaciones xi y que el mecanismo que generó esos datos hubiese sido una distribución normal de parámetros desconocidos, con $\overline {x}$obtenida hubiésemos tenido una buena aproximación del ``parámetro desconocido''µ. Sobre esta cuestión volveremos más adelante al abordar el problema de la estimación puntual de parámetros.

Muestreo sistemático

Cuando los elementos de la población están ordenados en fichas o en una lista, una manera de muestrear consiste en

·         Sea $k=\left[\frac{\displaystyle N}{\displaystyle n}\right]$;

·         Elegir aleatoriamente un número m, entre 1 y k;

·         Tomar como muestra los elementos de la lista:

\begin{displaymath}\left\{e_m,\,e_{m+k}, \,e_{m+2k},\,\dots,e_{m+(n-1)k}\right\}
\end{displaymath}

Esto es lo que se denomina muestreo sistemático. Cuando el criterio de ordenación de los elementos en la lista es tal que los elementos más parecidos tienden a estar más cercanos, el muestreo sistemático suele ser más preciso que el aleatorio simple, ya que recorre la población de un modo más uniforme. Por otro lado, es a menudo más fácil no cometer errores con un muestreo sistemático que con este último.

Observación

El método tal como se ha definido anteriormente es sesgado si no es entero, ya que los últimos elementos de la lista nunca pueden ser escogidos. Un modo de evitar este problema consiste en considerar la lista como si fuese circular (el elemento N+1 coincide con el primero) y:

·         Sea k el entero más cercano a ;

·         Se selecciona un número al azar m, entre 1 y N;

·         Se toma como muestra los elementos de la lista que consisten en ir saltando de k elementos en k, a partir de m, teniendo en cuenta que la lista es circular.

Se puede comprobar que con este método todos los elementos de la lista tienen la misma probabilidad de selección.

Muestreo aleatorio estratificado

Un muestreo aleatorio estratificado es aquel en el que se divide la población de N individuos, en k subpoblaciones o estratos, atendiendo a criterios que puedan ser importantes en el estudio, de tamaños respectivos N1, ..., Nk,

\begin{displaymath}N= N_1+N_2+\cdots+N_k
\end{displaymath}

Y realizando en cada una de estas subpoblaciones muestreos aleatorios simples de tamaño ni i=1,…,k.

A continuación nos planteamos el problema de cuantos elementos de muestra se han de elegir de cada uno de los estratos. Para ello tenemos fundamentalmente dos técnicas: la asignación proporcional y la asignación óptima.

Ejemplo

Supongamos que realizamos un estudio sobre la población de estudiantes de una Universidad, en el que a través de una muestra de 10 de ellos queremos obtener información sobre el uso de barras de labios.

En primera aproximación lo que procede es hacer un muestreo aleatorio simple, pero en su lugar podemos reflexionar sobre el hecho de que el comportamiento de la población con respecto a este carácter no es homogéneo, y atendiendo a él, podemos dividir a la población en dos estratos:

·         Estudiantes masculinos (60% del total);

·         Estudiantes femeninos (40% restante).

De modo que se repartan proporcionalmente ambos grupos el número total de muestras, en función de sus respectivos tamaños (6 varones y 4 mujeres). Esto es lo que se denomina asignación proporcional.

Si observamos con más atención, nos encontramos (salvo sorpresas de probabilidad reducida) que el comportamiento de los varones con respecto al carácter que se estudia es muy homogéneo y diferenciado del grupo de las mujeres.

Por otra parte, con toda seguridad la precisión sobre el carácter que estudiamos, será muy alta en el grupo de los varones aunque en la muestra haya muy pocos (pequeña varianza), mientras que en el grupo de las mujeres habrá mayor dispersión. Cuando las varianzas poblacionales son pequeñas, con pocos elementos de una muestra se obtiene una información más precisa del total de la población que cuando la varianza es grande. Por tanto, si nuestros medios sólo nos permiten tomar una muestra de 10 alumnos, será más conveniente dividir la muestra en dos estratos, y tomar mediante muestreo aleatorio simple cierto número de individuos de cada estrato, de modo que se elegirán más individuos en los grupos de mayor variabilidad. Así probablemente obtendríamos mejores resultados estudiando una muestra de

·         1 varón.

·         9 hembras.

Esto es lo que se denomina asignación óptima.

Asignación proporcional

Sea n el número de individuos de la población total que forman parte de alguna muestra:

\begin{displaymath}n=n_1+ n_2+ \cdots +n_k
\end{displaymath}

Cuando la asignación es proporcional el tamaño de la muestra de cada estrato es proporcional al tamaño del estrato correspondiente con respecto a la población total:

\begin{displaymath}n_i = n\cdot \frac{N_i}{N}
\end{displaymath}

Asignación óptima

Cuando se realiza un muestreo estratificado, los tamaños muestrales en cada uno de los estratos, ni, los elige quien hace el muestreo, y para ello puede basarse en alguno de los siguientes criterios:

·         Elegir los ni de tal modo que se minimice la varianza del estimador, para un coste especificado, o bien,

·         habiendo fijado la varianza que podemos admitir para el estimador, minimizar el coste en la obtención de las muestras.

Así en un estrato dado, se tiende a tomar una muestra más grande cuando:

·         El estrato es más grande;

·         El estrato posee mayor variabilidad interna (varianza);

·         El muestreo es más barato en ese estrato.

Para ajustar el tamaño de los estratos cuando conocemos la dispersión interna de cada uno de los mismos, tenemos el siguiente resultado:

Teorema

[Asignación de Neyman] Sea E una población con N elementos, dividida en k estratos, con Ni elementos cada uno de ellos,i=1,…,k

\begin{eqnarray*}E &=& E_1 \cup E_2 \cup \cdots \cup E_k
\\
N &=& N_1 + N_2 + \cdots + N_k
\end{eqnarray*}

Sea n el número total de elementos al realizar el muestreo, y que se dividen en cada estrato como

\begin{displaymath}n=n_1+ n_2+ \cdots +n_k
\end{displaymath}

Sea X la v.a. que representa el carácter que intentamos estudiar. Sobre cada estrato puede definirse entonces la v.a.

\begin{displaymath}\overline{X}_i
\end{displaymath}

Como el valor medio de X obtenida en una muestra de tamaño ni en el estrato Ei. Sea Var[Xi] la varianza de dicha v.a.; Entonces

\begin{displaymath}\sum_{i=1}^k { {{\bf Var } \left[ \overline{X}_i \right]} }
\end{displaymath}

Se minimiza cuando

\begin{displaymath}n_i = n\cdot
\frac{N_i\cdot \hat{{\cal S}}_i}{\sum_{j=1}^k N_j \cdot \hat{{\cal S}}_j}
\end{displaymath}

Donde

\begin{displaymath}\hat{{\cal S}}_i = \frac{1}{N-1} \sum_{j=1}^{N_i} (x_{ij}-\ov...
...x}_i\equiv\:\mbox{media poblacional de }E_i
\end{array}\right.
\end{displaymath}

Es la cuasi-varianza del estrato Ei.

Muestreo por conglomerados

Si intentamos hacer un estudio sobre los habitantes de una ciudad, el muestreo aleatorio simple puede resultar muy costoso, ya que estudiar una muestra de tamaño n implica enviar a los encuestadores a npuntos distintos de la misma, de modo que en cada uno de ellos sólo se realiza una entrevista. En esta situación es más económico realizar el denominado muestreo por conglomerados, que consiste en elegir aleatoriamente ciertos barrios dentro de la ciudad, para después elegir calles y edificios. Una vez elegido el edificio, se entrevista a todos los vecinos.

Estimación Puntual

Máxima Verosimilitud

Sea X una v.a. con función de probabilidad

\begin{displaymath}f(x;\,\theta)
\end{displaymath}

Las muestras aleatorias simples de tamaño n, x1,x2,…,xn tienen por distribución de probabilidad conjunta

\begin{displaymath}f_c(x_1,x_2,\dots,x_n;\,\theta)=f(x_1,x_2,\dots,x_n;\,\theta)
f(x_1;\,\theta)\cdot
f(x_2;\,\theta)\cdots
f(x_n;\,\theta)
\end{displaymath}

Esta función que depende de n+1 cantidades podemos considerarla de dos maneras:

·         Fijando $\theta $, es una función de la n cantidades xi. Esto es la función de probabilidad o densidad.

·         Fijados los xi como consecuencia de los resultados de elegir una muestra mediante un experimento aleatorio, es únicamente función de $\theta $. A esta función de $\theta $la denominamos función de verosimilitud.

En este punto podemos plantearnos el que dado una muestra sobre la que se ha observado los valores xi, una posible estimación del parámetro es aquella que maximiza la función de verosimilitud.

\begin{displaymath}x_1,\dots,x_n \mbox{ fijados } \Longrightarrow
\mbox{ Verosimilitud }\equiv\: V(\theta) =
f(x_1,x_2,\dots,x_n;\,\theta)
\end{displaymath}

  

Figura: La función de verosimilitud se obtiene a partir de la función de densidad, intercambiando los papeles entre parámetro y estimador. En una función de verosimilitud consideramos que las observaciones x1, ..., xn, están fijadas, y se representa la gráfica con el valor de los valores que tomaría la función de densidad para todos los posibles valores del parámetro $\theta $. El estimador máximo verosímil del parámetro buscado,, es aquel que maximiza su función de verosimilitud, .

\includegraphics[angle=-90, width=0.8\textwidth]{f7-1.epsi}

Como es lo mismo maximizar una función que su logaritmo (al ser este una función estrictamente creciente), este máximo puede calcularse derivando con respecto a $\theta $la función de verosimilitud (bien su logaritmo) y tomando como estimador máximo verosímil al que haga la derivada nula:

\begin{displaymath}\frac{\partial \,\log V}{\partial\,\theta}
\left(\hat{\theta}_{\cal M V}\right) = 0.
\end{displaymath}

De modo más preciso, se define el estimador máximo verosímil como la v.a.

\begin{displaymath}\hat{\theta}_{\cal M V} = \max_{\tilde{\theta} \in I\!\!R}
f(X_1,X_2,\dots,X_n;\,\tilde{\theta})
\end{displaymath}

Los estimadores de máxima verosimilitud tienen ciertas propiedades en general que a continuación enunciamos:

1. Son consistentes;

2. Son invariantes frente a transformaciones biunívocas, es decir, si es el estimador máximo verosímil de y es una función biunívoca de , entonces es el estimador máximo verosímil de .

3. Si es un estimador suficiente de , su estimador máximo verosímil, es función de la muestra a través de;

4. Son asintóticamente normales;

5. Son asintóticamente eficientes, es decir, entre todos los estimadores consistentes de un parámetro $\theta $, los de máxima verosimilitud son los de varianza mínima.

6. No siempre son insesgados.

Momentos

Sea X una v.a. cuya función de probabilidad (o densidad de probabilidad si es continua) depende de unos parámetros  desconocidos.

\begin{displaymath}f(x;\,\theta_1,\theta_2,\dots,\theta_k)
\end{displaymath}

Representamos mediante  una muestra aleatoria simple de la variable. Denotamos mediante fc a la función de densidad conjunta de la muestra, que por estar formada por observaciones independientes, puede factorizarse del siguiente modo:

\begin{displaymath}f_c(x_1,x_2,\dots,x_n;\,\theta_1,\dots,\theta_k)=
f(x_1;\,\th...
...theta_1,\dots,\theta_k)\cdots
f(x_n;\,\theta_1,\dots,\theta_k)
\end{displaymath}


Se denomina estimador de un parámetro, a cualquier v.a.  que se exprese en función de la muestra aleatoria y que tenga por objetivo aproximar el valor de, \begin{displaymath}\hat{\theta}_i(X_1,\dots,X_n) \qquad \longleftarrow
\qquad \mbox{estimador de }\, \theta_i.
\end{displaymath}
Obsérvese que el estimador no es un valor concreto sino una variable aleatoria, ya que aunque depende unívocamente de los valores de la muestra observados (Xi=xi), la elección de la muestra es un proceso aleatorio. Una vez que la muestra ha sido elegida, se denomina estimación el valor numérico que toma el estimador sobre esa muestra.

Intuitivamente, las características que serían deseables para esta nueva variable aleatoria (que usaremos para estimar el parámetro desconocido) deben ser:

·         Consistencia: Cuando el tamaño de la muestra crece arbitrariamente, el valor estimado se aproxima al parámetro desconocido.

·         Carencia de sesgo: El valor medio que se obtiene de la estimación para diferentes muestras debe ser el valor del parámetro.

·         Eficiencia: Al estimador, al ser v.a., no puede exigírsele que para una muestra cualquiera se obtenga como estimación el valor exacto del parámetro. Sin embargo podemos pedirle que su dispersión con respecto al valor central (varianza) sea tan pequeña como sea posible.

·         Suficiencia: El estimador debería aprovechar toda la información existente en la muestra.

A continuación vamos a enunciar de modo más preciso y estudiar cada una de esas características.

Ejemplo

 Consideremos una v.a. de la que sólo conocemos que su ley de distribución es gaussiana,

\begin{displaymath}X{\leadsto}{ {{\bf N} \left( \mu,\sigma^2 \right)} }
\qquad
\...
... \equiv \sigma^2,\qquad \mbox{desconocido.}
\end{array}\right.
\end{displaymath}

Para muestras aleatorias de tamaño n=3,

\begin{displaymath}X_1,X_2,X_3 {\leadsto}{ {{\bf N} \left( \mu,\sigma^2 \right)} }
\end{displaymath}

Un posible estimador del parámetro µ es

\begin{displaymath}\hat{\theta_1}(X_1,X_2,X_3) \equiv \overline{X} =
\frac{1}{3...
...\leadsto}
{ {{\bf N} \left( \mu,\frac{\sigma^2}{3} \right)} }
\end{displaymath}

Si al realizar un muestreo aleatorio simple obtenemos

\begin{displaymath}\left.
\begin{array}{c}
X_1=2
\\
X_2=4
\\
X_3 = 0
\end{arra...
...eta}_1$\space es}
\qquad \hat{\theta}_1(2,4,0)=\overline{x}=3.
\end{displaymath}

Hemos dicho que el estimador sirve para aproximar el valor de un parámetro desconocido, pero... ¿si el parámetro es desconocido cómo podemos decir que un estimador dado sirve para aproximarlo? Así pues, es necesario que definamos en qué sentido un estimador es bueno para cierto parámetro.

Carencia de sesgo

Se dice que un estimador $\hat{\theta}$de un parámetro $\theta $es insesgado si:

\begin{displaymath}{ {{\bf E} \left[ \hat{\theta} \right]} } = \theta
\end{displaymath}

La carencia de sesgo puede interpretarse del siguiente modo: Supongamos que se tiene un número indefinido de muestras de una población, todas ellas del mismo tamaño n. Sobre cada muestra el estimador nos ofrece una estimación concreta del parámetro que buscamos. Pues bien, el estimador es insesgado, si sobre dicha cantidad indefinida de estimaciones, el valor medio obtenido en las estimaciones es $\theta $(el valor que se desea conocer).

Consistencia

Decimos que $\hat{\theta}$es un estimador consistente con el parámetro $\theta $si:

\begin{displaymath}\forall\,\epsilon > 0, \qquad
\lim_{n\rightarrow \infty} {{\cal P}}[\mid \hat{\theta} - \theta \mid
>\epsilon ] = 0,
\end{displaymath}

O lo que es equivalente

\begin{displaymath}\forall\,\epsilon > 0, \qquad
\lim_{n\rightarrow \infty} {{\cal P}}[\mid \hat{\theta} - \theta \mid
<\epsilon ] = 1.
\end{displaymath}

Este tipo de propiedades definidas cuando el número de observaciones n, tiende a infinito, es lo que se denomina propiedades asintóticas.

Teorema

Como consecuencia de de la desigualdad de Thebycheff se puede demostrar el siguiente resultado:

Si se verifican las condiciones

\begin{displaymath}\lim_{n\rightarrow \infty} { {{\bf E} \left[ \hat{\theta} \right]} } = \theta
\end{displaymath}

\begin{displaymath}\lim_{n\rightarrow \infty} { {{\bf Var } \left[ \hat{\theta} \right]} } = 0
\end{displaymath}

Entonces $\hat{\theta}$es consistente.

Eficiencia

Dados dos estimadores  y  de un mismo parámetro, diremos que  es más eficiente que  si:

\begin{displaymath}{ {{\bf Var } \left[ \hat{\theta}_1 \right]} } < { {{\bf Var } \left[ \hat{\theta}_2 \right]} }
\end{displaymath}

Suficiencia

Diremos que  es un estimador suficiente del parámetro $\hat{\theta}$si

\begin{displaymath}{{\cal P}}[{X_1=x_1,X_2=x_2,\dots,X_n=x_n}_{\mid \hat{\theta}=a}]
\qquad \mbox{no depende de } \theta
\end{displaymath}

Para todo posible valor de $\theta $.

Esta definición así enunciada tal vez resulte un poco oscura, pero lo que expresa es que un estimador es suficiente, si agota toda la información existente en la muestra que sirva para estimar el parámetro.

Teorema

[Criterio de factorización de Fisher--Neyman] Sea  la distribución conjunta para las muestras de tamaño n, . Entonces

\begin{eqnarray*}& \hat{\theta}(X_1,\dots,X_n) \mbox{ es estimador suficiente}&
...
...s,x_n)\cdot
r\left( \hat{\theta}(X_1,\dots,X_n) ;\theta \right)&
\end{eqnarray*}

siendo h una función no negativa que no depende de $\theta $y r una función que sólo depende del parámetro y de la muestra a través del estimador.

1.3          Estimación por intervalos de confianza

            Cuando estimamos un parámetro en una densidad f(x,) a partir de un muestreo aleatorio simple, lo hacemos a partir del valor de una variable aleatoria, que es estimador de. Aún cuando dicho estimador haya sido obtenido para que goce de buenas propiedades, por ejemplo ser insesgado, en la práctica nadie nos garantiza el grado de divergencia entre la estimación obtenida y el verdadero valor del parámetro desconocido. Por ello parece razonable controlar las estimaciones puntuales con otros parámetros de estimación en los cales se posee información paramétrica entre estimaciones y parámetros desconocidos. A tal efecto, surgen los intervalos de confianza para estimar parámetros. Un intervalo de confianza para un parámetro será un intervalo donde podemos controlar la probabilidad de que se encuentre verdaderamente.

            Definición: Sea x1, x2, ...., xn un muestreo aleatorio simple de una población f(x,, donde es un parámetro desconocido. Un intervalo de confianza para viene dado por dos estadísticos U y V tales. es una cantidad que fija el investigador, usualmente los valores desuelen ser 0,1 ; 0,01 ó 0,05. Por defecto

*= 0,05. U y V son estimadores por defecto y por exceso de. Diremos entonces que (U,V) es el intervalo de confianza para de nivel de confianza 1 -.

            Una vez que se observen los valores muestrales, su sustitución en (U,V) proporciona el intervalo numérico (U,V).

            La interpretación del intervalo de confianza es el siguiente en una larga serie de determinaciones de intervalos basados en muestras distintas, el 100·(1-)% de tales intervalos contendría el valor de.

A continuación se muestran los diferentes intervalos de confianza donde se quiere saber si se conoce la desviación estándar, si no se conoce, etc., como ya sabemos la desviación estándar se obtiene de la raíz cuadrada de la varianza, por lo tanto para los siguientes problemas seguiremos este procedimiento.

Intervalo de Confianza para la media de una población normal con varianza conocida:

Sea x1, x2, ...., xn un muestreo aleatorio simple de N,desconocido yconocido. Se desea obtener un intervalo de confianza para de nivel. Como consecuencia del teorema de Fisher se sabe que . Por tanto .

Existe tal que

Pero

            Por tanto:

 

 

Entonces:

                                   I.C. = de nivel

 

Intervalo de confianza para la media de una normal con varianza desconocida

Sea x1, x2, ...., xn un muestreo aleatorio simple de N, ydesconocidos. Se desea obtener un intervalo de confianza para de nivel. Sabiendo como consecuencia del teorema de Fisher se sabe que  y que , entonces:

                            

Por tanto existe un tal que .

Además,

EntoncesY por tanto el intervalo de confianza para de niveles:

                                   I.C. =

 

Intervalo de confianza para la varianza de una normal:

Sea x1, x2, ...., xn un muestreo aleatorio simple de Ncondesconocida.  puede ser conocida o desconocida. Se desea obtener un intervalo de confianza para . Según el teorema de Fisher  .

Existen cantidades Ka y Kb tales que:

                        . Pero y

                       

           

                        Por tanto

                        Luego el intervalo de confianza será: I.C. =  de nivel 1-

Si se desease obtener el intervalo de confianza para, es decir, para la desviación típica, como la raíz es función creciente, entonces:

                                   I.C. =  para, de nivel 1-                        

 

Intervalo de confianza para la diferencia de medias en poblaciones normales con varianza conocida:

Sea x1, x2, ...., xn un muestreo aleatorio simple de Ny y1, y2, ...., yn uno de N. Ambas muestras independientes. Supongamos que y son desconocidos y yconocidas. Se desea obtener un intervalo de confianza para

* -de nivel 1-.

Sabemos que

 

Existe unverificando

Despejando:

           

            Entonces            Luego el intervalo de confianza es:

                        I.C. = de nivel 1-

 

 

Intervalo de confianza para en una distribución de Poisson si la muestra es muy grande.

Sea x1, x2, ...., xn muestreo aleatorio simple de P() condesconocido y suponemos que n es muy grande.

El EMV dees que es EMV y alcanza la Cota de Cramer Rao. Como consecuencia:

                 (Teorema del límite central)

Existe por tanto tal que

Pero    y

Como los extremos del intervalo de confianza dependen de, tal y como ha probado el resultado, no podemos obtener un intervalo de confianza. Existen dos alternativas:

1.       Método aproximado: Consiste en sustituir en los extremos anteriores el valor de por su EMV. Entonces:

I.C. = de nivel 1-.

2.       Método exacto:

, pero

 

Como el coeficiente dees positivo, la parábola es cóncava y por tanto la ecuación anterior se satisface para los valores decomprendido entre las dos raíces.

                 

                                              

                        Por lo que el intervalo de confianza es:

                  I.C. = de nivel 1-

 

Intervalos de confianza para variables dicotómicas

Cuando tenemos una variable dicotómica (o de Bernoulli) a menudo interesa saber en qué proporción de casos, p, ocurre el éxito en la realización de un experimento. También nos puede interesar el comparar la diferencia existente entre las proporciones en distintas poblaciones. También es de interés calcular para un nivel de significación dado, el tamaño muestral necesario para calcular un intervalo de confianza de cuyo radio sea menor que cierta cantidad.

 

Intervalo para una proporción

Sean $X_1,\dots,X_n{\leadsto}{ {{\bf Ber} \left( p \right)} }$. Si queremos estimar el parámetro p, la manera más natural de hacerlo consiste en definir la suma de estas --lo que nos proporciona una distribución Binomial:

\begin{displaymath}X=X_1+\cdots+X_n {\leadsto}{ {{\bf B} \left( n,p \right)} }
\end{displaymath}

y tomar como estimador suyo la v.a.

\begin{displaymath}\hat{p} = \frac{X}{n}.
\end{displaymath}

Es decir, tomamos como estimación de p la proporción de éxitos obtenidos en las n pruebas, p.

La distribución del número de éxitos es binomial, y puede ser aproximada a la normal cuando el tamaño de la muestra n es grande, y p no es una cantidad muy cercana a cero o uno:

\begin{displaymath}X{\leadsto}{ {{\bf B} \left( n,p \right)} } \:\Rightarrow\:X{...
...ckrel{\approx}{\leadsto}\:}{ {{\bf N} \left( np,npq \right)} }
\end{displaymath}

El estimador p no es más que un cambio de escala de X, por tanto

\begin{displaymath}\hat{p}=\frac{X}{n} {\: \stackrel{\approx}{\leadsto}\:}{ {{\b...
...q}{n}}}
\approx Z \:{\leadsto}{ {{\bf N} \left( 0,1 \right)} }
\end{displaymath}

Esta expresión presenta dificultades para el cálculo, siendo más cómodo sustituirla por la siguiente aproximación:

$\displaystyle
\frac{\hat{p} - p}{\sqrt{\displaystyle \frac{\hat{p}\hat{q}}{n}}}
\approx Z \:{\leadsto}{ {{\bf N} \left( 0,1 \right)} }
$

Para encontrar el intervalo de confianza al nivel de significación $\alpha $para p se considera el intervalo que hace que la distribución de $Z{\leadsto}{ {{\bf N} \left( 0,1 \right)} }$deje la probabilidad $\alpha $fuera del mismo. Es decir, se considera el intervalo cuyos extremos son los cuantiles y . Así se puede afirmar con una confianza de 1-a que:

 

\begin{eqnarray*}\underbrace{z_{\alpha/2}}_{-z_{1-\alpha/2}} \leq Z \leq z_{1-\a...
...q z_{1-\alpha/2}\,
\sqrt{\displaystyle \frac{\hat{p}\hat{q}}{n}}
\end{eqnarray*}

Esto se resume en la siguiente expresión:

$\displaystyle p=\hat{p} \pm z_{1-\alpha/2}\,
\sqrt{\displaystyle \frac{\hat{p}\hat{q}}{n}}
$con una confianza de 1-a

Figura: Intervalo de confianza para una proporción.

\includegraphics[angle=-90, width=0.8\textwidth]{f8-9.epsi}

 

Ejemplo

 Se quiere estimar el resultado de un referéndum mediante un sondeo. Para ello se realiza un muestreo aleatorio simple con n=100 personas y se obtienen 35% que votarán a favor y 65% que votarán en contra (suponemos que no hay indecisos para simplificar el problema a una variable dicotómica). Con un nivel de significación del 5%, calcule un intervalo de confianza para el verdadero resultado de las elecciones.

Solución: Dada una persona cualquiera (i) de la población, el resultado de su voto es una variable dicotómica:

\begin{displaymath}X_i{\leadsto}{ {{\bf Ber} \left( p \right)} }
\end{displaymath}

El parámetro a estimar en un intervalo de confianza con α=0.05 es p, y tenemos sobre una muestra de tamaño n=100, la siguiente estimación puntual de p:

\begin{displaymath}\hat{p}=\frac{35}{100}=0,35\Longrightarrow \hat{q}=0,65
\end{displaymath}

Sabemos que

\begin{displaymath}\frac{\hat{p} - p}{\sqrt{\displaystyle \frac{pq}{n}}}
{\: \stackrel{\approx}{\leadsto}\:}{ {{\bf N} \left( 0,1 \right)} }
\end{displaymath}

En la práctica el error que se comete no es muy grande si tomamos algo más simple como

\begin{displaymath}Z=\frac{\hat{p} - p}{\sqrt{\displaystyle \frac{\hat{p}\hat{q}...
...stackrel{\approx}{\leadsto}\:}{ {{\bf N} \left( 0,1 \right)} }
\end{displaymath}


Así el intervalo de confianza buscado lo calculamos como se indica:

\begin{eqnarray*}\left\vert Z \right\vert \leq z_{1-\alpha/2} &\Longleftrightarr...
...
\leq z_{0,975}=1,96
\\
&\Longleftrightarrow& p=0,35 \pm 0,0935
\end{eqnarray*}

Por tanto, tenemos con esa muestra un error aproximado de 9,3 puntos al nivel de confianza del 95%.

Figura: Región a partir de la cual se realiza una estimación confidencial para una proporción, con una confianza del 95%.

\includegraphics[angle=-90, width=0.6\textwidth]{f8-9b.epsi}

 

Elección del tamaño muestral para una proporción

En un ejemplo previo con una muestra de 100 individuos se realizó una estimación confidencial, con un 95% de confianza, del porcentaje de votantes a una cuestión en un referéndum, obteniéndose un margen de error de 9,3 puntos.

Si pretendemos reducir el error a 1 punto y queremos aumentar el nivel de confianza hasta el 97% ( $\alpha = 0'03$) hemos de tomar una muestra lógicamente de mayor tamaño, N. La técnica para aproximar dicha cantidad consiste en observar que el error cometido en una estimación es de la forma:

\begin{displaymath}\mbox{error } =z_{1-\alpha/2}\,
\sqrt{\displaystyle \frac{\hat{p}\hat{q}}{N}}
\end{displaymath}

Donde $\hat{p}$es una estimación puntual de p.


Por tanto un valor de N que satisfaga nuestros requerimientos con respecto al error sería:

\begin{displaymath}\mbox{\fbox{$
\displaystyle N\geq \hat{p}\hat{q}
\frac{z_{1-\alpha/2}^2}{\mbox{error}^2}
$ } }
\end{displaymath}

Si en un principio no tenemos una idea sobre que valores puede tomar p, debemos considerar el peor caso posible, que es en el que se ha de estimar el tamaño muestral cuando p=q=1/2. Así:

\begin{displaymath}\mbox{\fbox{$
\displaystyle N\geq \frac{1}{4}\, \frac{z_{1-\alpha/2}^2}{error^2}
$ } cuando no se tiene estimación de $p$ }
\end{displaymath}

 

1 Ejemplo

Continuemos el último ejemplo. Se quiere estimar el resultado de un referéndum mediante un sondeo, y sin tener una idea sobre el posible resultado del mismo, se desea conocer el tamaño de muestra que se ha de tomar para obtener un intervalo al 97% de confianza, con un error del 1

Solución:

Como no se tiene una idea previa del posible resultado del referéndum, hay que tomar un tamaño de muestra, N, que se calcula mediante:

\begin{displaymath}N\geq
\frac{1}{4} \,\frac{z_{0,985}^2}{0,01^2} =
\frac{0,25\cdot 2,17^2}{0,01^2}
=11.773
\end{displaymath}

Así para tener un resultado tan fiable, el número de personas a entrevistar debe ser muy elevado --lo que puede volver excesivamente costoso el sondeo.

 

Intervalo para la diferencia de dos proporciones

Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas estudiamos una v.a. dicotómica (Bernoulli) de parámetros respectivos p1 y p2. De cada población vamos a extraer muestras de tamaño n1 y n2

\begin{eqnarray*}\vec{X}_1 &{\equiv}& X_{11},X_{12},\dots,X_{1n_1}
\\
\vec{X}_2 &{\equiv}& X_{21},X_{22},\dots,X_{2n_2}
\end{eqnarray*}

Entonces

\begin{eqnarray*}X_1 &=& \sum_{i=1}^{n_1}X_{1i}\:{\leadsto}{ {{\bf B} \left( n_1...
...i=1}^{n_2}X_{2i}\:{\leadsto}{ {{\bf B} \left( n_2,p_2 \right)} }
\end{eqnarray*}


Si las muestras son suficientemente grandes ocurre que

\begin{displaymath}\hat{p_1}-\hat{p_2}=\frac{X_1}{n_1}-\frac{X_2}{n_2}
{\: \sta...
...left( p_1-p_2,\frac{p_1q_1}{n_1}+\frac{p_2q_2}{n_2} \right)} }
\end{displaymath}

\begin{displaymath}\Longrightarrow \qquad
\frac{(\hat{p_1}-\hat{p_2}) - (p_1-p...
...{n_2}}}
\approx Z \:{\leadsto}{ {{\bf N} \left( 0,1 \right)} }
\end{displaymath}

Esta última relación se puede aproximar por otra que simplifica bastante los cálculos:

\begin{displaymath}\frac{(\hat{p_1}-\hat{p_2}) - (p_1-p_2)}{
\sqrt{\displaystyle...
...{n_2}}}
\approx Z \:{\leadsto}{ {{\bf N} \left( 0,1 \right)} }
\end{displaymath}

Por el mismo razonamiento que en el caso de una población llegamos a que una aproximación para un intervalo de confianza al nivel 1-α para la diferencia de proporciones de dos poblaciones es:

$
p_1-p_2 \in
(\hat{p_1} - \hat{p_2}) \pm z_{1-\alpha/2}\cdot
\sqrt{\displaystyle
\frac{\hat{p_1}\hat{q_1}}{n_1}+\frac{\hat{p_2}\hat{q_2}}{n_2}}
$

 

Problemas

Ejercicio 1. Se ha medido el volumen diario de bilis, expresado en litros, en 10 individuos sanos, obteniéndose

0,98; 0,85; 0,77; 0,92; 1,12; 1,06; 0,89; 1,01; 1,21; 0,77.

¿Cuanto vale la producción diaria media de bilis en individuos sanos suponiendo que la muestra ha sido obtenida por muestreo aleatorio simple sobre una población normal?

Ejercicio 2. La cantidad mínima requerida para que un anestésico surta efecto en una intervención quirúrgica fue por término medio de 50 mg., con una desviación típica de 10,2 mg., en una muestra de 60 pacientes. Obtener un intervalo de confianza para la media al 99%, suponiendo que la muestra fue extraída mediante muestreo aleatorio simple sobre una población normal.

Ejercicio 3. Un investigador está interesado en estimar la proporción de muertes debidas a cáncer de estómago en relación con el número de defunciones por cualquier tipo de neoplasia. Su experiencia le indica que sería sorprendente que tal proporción supere el valor de 1/3. ¿Qué tamaño de muestra debe tomar para estimar la anterior proporción, con una confianza del 99%, para que el valor estimado no difiera del valor real en más de 0,03?

Ejercicio 4. Se desea realizar una estimación confidencial de la varianza de la estatura de los niños varones de 10 años de una ciudad con una confianza del 95%. ¿Cuál será dicho intervalo si se toma una muestra de 101 niños al azar, entre todos los que reúnen las características deseadas, y medimos sus estaturas, y se obtienen las siguientes estimaciones puntuales: $\overline{x}=138,6\,cm$, ${{\cal S}^{2}}=29,16\,cm^2$?

Ejercicio 5. Un cardiólogo se encuentra interesado en encontrar límites de confianza al 90%, para la presión sistólica tras un cierto ejercicio físico. Obtenerlos si en 50 individuos se obtuvo $\overline{x}=13$, ${\cal S}=3$y suponemos que el comportamiento de la v.a. es normal.

Ejercicio 6. En una muestra de 25 bebés varones de 12 semanas de vida, se obtuvo un peso medio de 5.900 gr. y una desviación típica de 94 gr.

1. Obtener un intervalo de confianza (al 95%) para el peso medio poblacional.

2. ¿Cuántos niños habría que tomar para estimar dicha media con una precisión de 15 gr?

Ejercicio 7. En un determinado servicio de odontología se sabe que el 22% de las visitas llevan consigo una extracción dentaria inmediata. En cierto año, de 2.366 visitas, 498 dieron lugar a una extracción inmediata. ¿Entran en contradicción las cifras de ese año con el porcentaje establecido de siempre?

Ejercicio 8. Sólo una parte de los pacientes que sufren un determinado síndrome neurológico consiguen una curación completa; Si de 64 pacientes observados se han curado 41, dar una estimación puntual y un intervalo de la proporción de los que sanan. ¿Qué número de enfermos habría que observar para estimar la proporción de curados con un error inferior a 0,05 y una confianza del 95%?

Ejercicio 9. Se desea estimar el tiempo medio de sangría en fumadores de más de 20 cigarrillos diarios, con edades comprendidas entre 35 y 40 años, con una precisión de 5 segundos. Ante la ausencia de cualquier información acerca de la variabilidad del tiempo de sangría es este tipo de individuos, se tomó una muestra preliminar de 5 individuos, en los que se obtuvieron los siguientes tiempos (en segundos):

97, 80, 67, 91, 73.

Determinar el tamaño mínimo de muestra, al 95%, para cumplir el objetivo anterior.

Ejercicio 10. En una determinada región se tomó una muestra aleatoria de 125 individuos, de los cuales 12 padecían afecciones pulmonares.

1. Estímese la proporción de afecciones pulmonares en dicha región.

2. Si queremos estimar dicha proporción con un error máximo del 4%, para una confianza del 95%, ¿qué tamaño de muestra debemos tomar?


Ejercicio 11. En una muestra de tabletas de aspirinas, de las cuales observamos su peso expresado en gramos, obtenemos:

1,19; 1,23; 1,18; 1,21; 1,27; 1,17; 1,15; 1,14; 1,19; 1,2

Suponiendo la Normalidad para esta distribución de pesos, determinar un intervalo al 80% de confianza para la varianza.

Ejercicio 12. Se quiere estimar la incidencia de la hipertensión arterial en el embarazo. ¿Cuantas embarazadas tenemos que observar para, con una confianza del 95%, estimar dicha incidencia con un error del 2% en los siguientes casos?

1. Sabiendo que un sondeo previo se ha observado un 9% de hipertensas.

2. Sin ninguna información previa.

 

UNIDAD: PRUEBA DE HIPÓTESIS

Prueba de Hipótesis

Referente al contraste de hipótesis, sabemos que un problema es investigable cuando existen dos o más soluciones alternativas y tenemos dudas acerca de cual de ellas es la mejor. Esta situación permite formular una o más hipótesis de trabajo, ya que cada una de ellas destaca la conveniencia de una de las soluciones sobre las demás. Si nuestro propósito es comprobar una teoría ella misma será la hipótesis del trabajo, pero es importante destacar que al formular dicha o dichas hipótesis no significa que ya esté resuelto el problema, al contrario, que nuestra duda nos impulsa a comprobar la verdad o falsedad de cada una de ellas.

            La decisión final partirá de las decisiones previas de aceptar o rechazar las hipótesis de trabajo.

Ejemplo

Supongamos que debemos realizar un estudio sobre la altura media de los habitantes de cierto pueblo de España. Antes de tomar una muestra, lo lógico es hacer la siguiente suposición a priori, (hipótesis que se desea contrastar y que denotamos H0):

\begin{displaymath}H_0\,:\,
\mbox{ La altura media no difiere de la del resto del país.}
\end{displaymath}

Al obtener una muestra de tamaño n=8, podríamos encontrarnos ante uno de los siguientes casos:

1. Muestra = {1,50 ;1,52; 1,48; 1,55; 1,60; 1,49; 1,55; 1,63}

2. Muestra = {1,65; 1,80; 1,73; 1,52; 1,75; 1,65; 1,75; 1,78}

Intuitivamente, en el caso a sería lógico suponer que salvo que la muestra obtenida sobre los habitantes del pueblo sea muy poco representativa, la hipótesis H0 debe ser rechazada. En el caso b tal vez no podamos afirmar con rotundidad que la hipótesis H0 sea cierta, sin embargo no podríamos descartarla y la admitimos por una cuestión de simplicidad.

 

Etapas Básicas en Pruebas de Hipótesis.

            Al realizar pruebas de hipótesis, se parte de un valor supuesto (hipotético) en parámetro poblacional. Después de recolectar una muestra aleatoria, se compara la estadística muestral, así como la media (x), con el parámetro hipotético, se compara con una supuesta media poblacional (m). Después se acepta o se rechaza el valor hipotético, según proceda. Se rechaza el valor hipotético sólo si el resultado muestral resulta muy poco probable cuando la hipótesis es cierta.

Etapa 1.- Planear la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0) es el valor hipotético del parámetro que se compra con el resultado muestral resulta muy poco probable cuando la hipótesis es cierta.

Etapa 2.-  Especificar el nivel de significancia que se va a utilizar. El nivel de significancia del 5%, entonces se rechaza la hipótesis nula solamente si el resultado muestral es tan diferente del valor hipotético que una diferencia de esa magnitud o mayor, pudiera ocurrir aleatoriamente con una probabilidad de 1.05 o menos.

Etapa 3.- Elegir la estadística de prueba. La estadística de prueba puede ser la estadística muestral (el estimador no segado del parámetro que se prueba) o una versión transformada de esa estadística muestral. Por ejemplo, para probar el valor hipotético de una media poblacional, se toma la media de una muestra aleatoria de esa distribución normal, entonces es común que se transforme la media en un valor z el cual, a su vez, sirve como estadística de prueba.

 

Consecuencias de las Decisiones en Pruebas de Hipótesis.

 

Decisiones Posibles

Situaciones Posibles

La hipótesis nula es verdadera

La hipótesis nula es falsa

Aceptar la Hipótesis Nula

Se acepta correctamente

Error tipo II

Rechazar la Hipótesis Nula

Error tipo I

Se rechaza correctamente

 

Etapa 4.- Establecer el valor o valores críticos de la estadística de prueba. Habiendo especificado la hipótesis nula, el nivel de significancia y la estadística de prueba que se van a utilizar, se produce a establecer el o los valores críticos de estadística de prueba. Puede haber uno o más de esos valores, dependiendo de si se va a realizar una prueba de uno o dos extremos.

Etapa 5.- Determinar el valor real de la estadística de prueba. Por ejemplo, al probar un valor hipotético de la media poblacional, se toma una muestra aleatoria y se determina el valor de la media muestral. Si el valor crítico que se establece es un valor de z, entonces se transforma la media muestral en un valor de z.

Etapa 6.- Tomar la decisión. Se compara el valor observado de la estadística muestral con el valor (o valores) críticos de la estadística de prueba. Después se acepta o se rechaza la hipótesis nula. Si se rechaza ésta, se acepta la alternativa; a su vez, esta decisión tendrá efecto sobre otras decisiones de los administradores operativos, como por ejemplo, mantener o no un estándar de desempeño o cuál de dos estrategias de mercadotecnia utilizar.

Conceptos Básicos para el Procedimiento de Pruebas de Hipótesis.

Hipótesis Estadística:

Al intentar alcanzar una decisión, es útil hacer hipótesis (o conjeturas) sobre la población aplicada.

Tales hipótesis, que pueden ser o no ciertas, se llaman hipótesis estadísticas.

Son, en general, enunciados acerca de las distribuciones de probabilidad de las poblaciones.

Hipótesis Nula:

En muchos casos formulamos una hipótesis estadística con el único propósito de rechazarla o invalidarla. Así, si queremos decidir si una moneda está trucada, formulamos la hipótesis de que la moneda es buena (o sea p = 0,5, donde p es la probabilidad de cara).

Analógicamente, si deseamos decidir si un procedimiento es mejor que otro, formulamos la hipótesis de que no hay diferencia entre ellos (o sea. Que cualquier diferencia observada se debe simplemente a fluctuaciones en el muestreo de la misma población). Tales hipótesis se suelen llamar hipótesis nula y se denotan por H0.

Hipótesis Alternativa.

Toda hipótesis que difiere de una dada se llamará una hipótesis alternativa. Por ejemplo: Si una hipótesis es p = 0,5, hipótesis alternativa podrían ser p = 0,7, p ¹ 0,5 ó p > 0,5.

Una hipótesis alternativa a la hipótesis nula se denotará por H1.

Errores de tipo I y de tipo II.

Si rechazamos una hipótesis cuando debiera ser aceptada, diremos que se ha cometido un error de tipo I.

Por otra parte, si aceptamos una hipótesis que debiera ser rechazada, diremos que se cometió un error de tipo II.

En ambos casos, se ha producido un juicio erróneo.

Para que las reglas de decisión (o no contraste de hipótesis) sean buenas, deben diseñarse de modo que minimicen los errores de la decisión; y no es una cuestión sencilla, porque para cualquier tamaño de la muestra, un intento de disminuir un tipo de error suele ir acompañado de un crecimiento del otro tipo. En la práctica, un tipo de error puede ser más grave que el otro, y debe alcanzarse un compromiso que disminuya el error más grave.

La única forma de disminuir ambos a la vez es aumentar el tamaño de la muestra que no siempre es posible.

Niveles de Significación.

Al contrastar una cierta hipótesis, la máxima probabilidad con la que estamos dispuesto a correr el riesgo de cometerán error de tipo I, se llama nivel de significación.

Esta probabilidad, denota a menudo por a se, suele especificar antes de tomar la muestra, de manera que los resultados obtenidos no influyan en nuestra elección.

En la práctica, es frecuente un nivel de significación de 0,05 ó 0,01, si bien se une otros valores. Si por ejemplo se escoge el nivel de significación 0,05 (ó 5%) al diseñar una regla de decisión, entonces hay unas cinco (05) oportunidades entre 100 de rechazar la hipótesis cuando debiera haberse aceptado; Es decir, tenemos un 95% de confianza de que hemos adoptado la decisión correcta. En tal caso decimos que la hipótesis ha sido rechazada al nivel de significación 0,05, lo cual quiere decir que tal hipótesis tiene una probabilidad 0,05 de ser falsa.

Veamos como se combinan todos los conceptos anteriores:

En un contraste de hipótesis (también denominado test de hipótesis o Contraste de significación) se decide si cierta hipótesis H0 que denominamos hipótesis nula puede ser rechazada o no a la vista de los datos suministrados por una muestra de la población. Para realizar el contraste es necesario establecer previamente una hipótesis alternativa (H1) que será admitida cuando H0 sea rechazada. Normalmente H1es la negación de H0, aunque esto no es necesariamente así.

El procedimiento general consiste en definir un estadístico T relacionado con la hipótesis que deseamos contrastar. A éste lo denominamos estadístico del contraste. A continuación suponiendo que H0 es verdadera se calcula un intervalo de denominado intervalo de aceptación de la hipótesis nula, $\left(T_i,T_s\right)$de manera que al calcular sobre la muestra T=Texp el criterio a seguir sea:

\begin{displaymath}\left\{
\begin{array}{lll}
\mbox{ Si } T_{exp} \in
\left(T_i...
...zamos $H_0$\space y aceptamos $H_1$\space }
\end{array}\right.
\end{displaymath}

El intervalo de aceptación o más precisamente, de no rechazo de la hipótesis nula, se establece fijando una cantidad $\alpha $suficientemente pequeña denominada nivel de significación, de modo que la probabilidad de que el estadístico del contraste tome un valor fuera del mismo -- región crítica--

\begin{displaymath}\mbox{región crítica }\equiv { {\cal C} }= I\!\!R\setminus
\left(T_i,T_s\right)
\end{displaymath}

Cuando la hipótesis nula es cierta sea inferior o al $100\cdot \alpha\%$; Esto se ha de entender como sigue:

Si H0 es correcta el criterio de rechazo sólo se equivoca con probabilidad $\alpha $, que es la probabilidad de que una muestra dé un valor del estadístico del contraste extraño (fuera del intervalo de aceptación).

La decisión de rechazar o no la hipótesis nula están al fin y al cabo basado en la elección de una muestra tomada al azar, y por tanto es posible cometer decisiones erróneas. Los errores que se pueden cometer se clasifican como sigue:

Error de tipo I:

Es el error que consiste en rechazar H0 cuando es cierta. La probabilidad de cometer este error es lo que anteriormente hemos denominado nivel de significación. Es una costumbre establecida el denotarlo siempre con la letra $\alpha $

\begin{displaymath}\alpha = {{\cal P}}\left[
\mbox{ rechazar } {H_0}_{\mid H_0 \...
...[
\mbox{ aceptar } {H_1}_{\mid H_0 \mbox{ es cierta}}
\right].
\end{displaymath}

Error de tipo II:

Es el error que consiste en no rechazar H0 cuando es falsa. La probabilidad de cometer este error la denotamos con la letra β.

\begin{displaymath}\beta={{\cal P}}\left[
\mbox{ no rechazar } {H_0}_{\mid H_0 \...
...rechazar } {H_0}_{\mid H_1 \mbox{ es cierta}}
\right].
\right)
\end{displaymath}

Pruebas de Uno y Dos Extremos (Unilaterales y Biblaterales).

Cuando estudiamos ambos valores estadísticos es decir, ambos lados de la media lo llamamos prueba de uno y dos extremos o contraste de una y dos colas.

Con frecuencia no obstante, estaremos interesados tan sólo en valores extremos a un lado de la media (o sea, en uno de los extremos de la distribución), tal como sucede cuando se contrasta la hipótesis de que un proceso es mejor que otro (lo cual no es lo mismo que contrastar si un proceso es mejor o peor que el otro) tales contrastes se llaman unilaterales, o de un extremo. En tales situaciones, la región crítica es una región situada a un lado de la distribución, con área igual al nivel de significación.

La siguiente tabla de valores críticos de “z” para contraste de unos o dos extremos en varios niveles de significación.

Nivel de significación a

0.10

0.05

0.01

0.005

0.02

Valores críticos de “z” para Test Unilaterales

-1.28 o 1.28

-1.645 o 1.645

-2.33 o 2.33

-2.58 o 2.58

-2.88 o 2.88

Valores Críticos de “z” para Test Bilaterales

- 1.645 y 1.645

- 1.96 y 1.96

-2.58 y 2.58

-2.81 y 2.81

-3.08 y 3.08

 

Curva Característica Operativa y Curva de Potencia.

Hemos visto como limitar el error de tipo I eligiendo adecuadamente el nivel de significación.

Es posible evitar el riesgo de cometer error de tipo II simplemente no aceptado nunca hipótesis, pero en muchas aplicaciones prácticas esto es inviable.

En tales casos se suele recurrir a curvas de operación características o curvas de “OC”, que son gráficos que muestran las probabilidades de error de tipo II bajo diversas hipótesis.

Proporcionan indicadores de hasta que punto un test dado nos permitirá evitar un error de tipo II; es decir, nos indicará la potencia de un test a la hora de prevenir decisiones erróneas. Son útiles en el diseño de experimentos porque sugieren entre otras cosas al tamaño de muestra a manejar.

Grados de Libertad.

Para el cálculo de un estadístico, es necesario emplear tanto observaciones de muestra como propiedades de ciertos parámetros de la población. Si estos parámetros son desconocidos, hay que estimarlos a partir de la muestra el número de grados de libertad de un estadístico, generalmente denotado por “v” se define como el número “N” de observaciones independientes en la muestra (o sea, el tamaño de la muestra) menos el número K de parámetros de la población, que debe ser estimado a partir de observaciones muéstrales.

En símbolos, v = N – k.

Observaciones

1. Los errores de tipo I y II no están relacionados más que del siguiente modo: Cuando α decrece β crece. Por tanto no es posible encontrar tests que hagan tan pequeños como queramos ambos errores simultáneamente. De este modo es siempre necesario privilegiar a una de las hipótesis, de manera que no será rechazada, a menos que su falsedad se haga muy evidente. En los contrastes, la hipótesis privilegiada es H0 que sólo será rechazada cuando la evidencia de su falsedad supere el umbral del $100\cdot (1-\alpha)\%$.

 

2. Al tomar α muy pequeño tendremos que β se puede aproximar a uno. Lo ideal a la hora de definir un test es encontrar un compromiso satisfactorio entre $\alpha $y α (aunque siempre a favor de H0). Denominamos potencia de un contraste a la cantidad 1-β, es decir

\begin{displaymath}\mbox{potencia del contraste }\equiv 1-\beta =
{{\cal P}}\left[
\mbox{ rechazar } {H_0}_{\mid H_0 \mbox{ es falsa}}
\right]
\end{displaymath}


 

no rechazar H0

rechazar H0

H0 es cierta

Correcto

Error tipo I

 

Probabilidad $1-\alpha $

Probabilidad $\alpha $

H0 es falsa

Error tipo II

Correcto

 

Probabilidad $\beta$

Probabilidad $1-\beta$

3. En el momento de elegir una hipótesis privilegiada podemos en principio dudar entre si elegir una dada o bien su contraria. Criterios a tener en cuenta en estos casos son los siguientes:

\begin{displaymath}\left\{
\begin{array}{l}
H_0\: : \: \mbox{ el paciente empeor...
...box{ el paciente mejora con el tratamiento}
\end{array}\right.
\end{displaymath}

·         Otro ejemplo claro es cuando acaban de instalar un nuevo ascensor en el edificio que habitamos y queremos saber si el ascensor caerá o no al vacío cuando nosotros estemos dentro. Una persona prudente es la que espera a que un número suficiente de vecinos suyos hayan usado el ascensor (muestra aleatoria) y realiza un test del tipo

\begin{displaymath}\left\{
\begin{array}{l}
H_0\: : \: \mbox{ el ascensor se cae...
...
H_1\: : \: \mbox{ el ascensor no se caerá}
\end{array}\right.
\end{displaymath}

Y sólo aceptará la hipótesis alternativa para $\alpha\approx 0$aunque para ello tenga que ocurrir que , ya que las consecuencias del error de tipo I (ir al hospital) son mucho más graves que las del error del tipo II (subir a pie varios pisos).

Es decir a la hora de decidirse por una de las dos hipótesis no basta con elegir la más probable (nadie diría ``voy a tomar el ascensor pues la probabilidad de que no se caiga es del 60%"). Hay que elegir siempre la hipótesis H0 a menos que la evidencia a favor de H1 sea muy significativa.

Volviendo al ejemplo de la estatura de los habitantes de un pueblo, un estadístico de contraste adecuado es $\overline {X}$. Si la hipótesis H0 fuese cierta se tendría que

\begin{displaymath}\overline{X}{\leadsto}{ {{\bf N} \left( \mu,\frac{\sigma^2}{n} \right)} }
\end{displaymath}

(Suponiendo claro está que la distribución de las alturas de los españoles siga una distribución normal de parámetros conocidos, por ejemplo

\begin{displaymath}{ {{\bf N} \left( \mu=1'74,\sigma^2=10^2 \right)} }
\end{displaymath}

Denotemos mediante µ0 el verdadero valor de la media en el pueblo que estudiamos. Como la varianza de $\overline {X}$es pequeña para grandes valores de n, lo lógico es pensar que si el valor obtenido con la muestra $\overline{X}=\overline{x}$está muy alejado de µ=1’74 (región crítica), entonces

Concretamente en el caso a, donde la muestra es

\begin{displaymath}\mbox{Muestra }= \{1,50;1,52;1,48;1,55;1,60;1,49;1,55;1,63\}
\end{displaymath}

El contraste de hipótesis conveniente es:

\begin{displaymath}\left\{
\begin{array}{l}
H_0\: : \: \mu=\mu_0
\\
\mbox{\it }
\\
H_1\: : \: \mu>\mu_0
\end{array}\right.
\end{displaymath}

En este caso H1 no es estrictamente la negación de H0. Esto dará lugar a un contraste unilateral, que son aquellos en los que la región crítica está formada por un sólo intervalo:

\begin{eqnarray*}%
\mbox{Intervalo de no rechazo de $H_0$\space } &\equiv&
\lef...
...t)
\\
\mbox{Región crítica } &\equiv&
\left(-\infty,T_i\right]
\end{eqnarray*}

En el caso b, donde la muestra es:

\begin{displaymath}\mbox{Muestra }= \{1,65;1,80;1,73;1,52;1,75;1,65;1,75;1,78\}
\end{displaymath}

El contraste de hipótesis que deberíamos realizar es:

\begin{displaymath}\left\{
\begin{array}{l}
H_0\: : \: \mu=\mu_0
\\
\mbox{\it }
\\
H_1\: : \: \mu\neq\mu_0
\end{array}\right.
\end{displaymath}

Como vemos, ahora sí se puede decir que H1 es la negación de H0. Esto es un contraste bilateral, que son aquellos en los que la región crítica está formada por dos intervalos separados:

\begin{eqnarray*}%
\mbox{Intervalo donde no se rechaza $H_0$\space } &\equiv&
\...
...equiv&
\left(-\infty,T_i\right]
\cup
\left[T_s,+\infty\right)
\end{eqnarray*}

Los últimos conceptos que introducimos son:

 

Contrastes paramétricos en una población normal

Supongamos que la característica X que estudiamos sobre la población sigue una distribución normal y tomamos una muestra de tamaño n

\begin{displaymath}\vec{X}\equiv X_1,\dots,X_n
\end{displaymath}

Mediante muestreo aleatorio simple. Vamos a ver cuales son las técnicas para contrastar hipótesis sobre los parámetros que rigen X. Vamos a comenzar haciendo diferentes tipos de contrastes para medias y después sobre las varianzas y desviaciones típicas.

Contrastes para la media

Test de dos colas con varianza conocida

Suponemos que $X{\leadsto}{ {{\bf N} \left( \mu,\sigma^2 \right)} }$donde $\sigma ^2$es conocido y queremos contrastar si es posible que µ (desconocida) sea en realidad cierto valor µ0 fijado. Esto es un supuesto teórico que nunca se dará en la realidad pero servirá para introducir la teoría sobre contrastes.

El test se escribe entonces como:

\begin{displaymath}\left\{
\begin{array}{l}
H_0\: : \: \mu=\mu_0
\\
\mbox{\it }
\\
H_1\: : \: \mu\neq\mu_0
\end{array}\right.
\end{displaymath}

Como hemos mencionado anteriormente, la técnica para hacer el contraste consiste en suponer que H0 es cierta, y averiguar con esta hipótesis quien es la distribución del estadístico del contraste que este caso es lógico que deba estar muy relacionado con $\overline {X}$. Si al obtener una muestra concreta se tiene que $\overline{X}=\overline{x}$es un valor muy alejado de µ0, se debe rechazar H0. Veamos esto con más detalle:

\begin{eqnarray*}H_0 \mbox{ cierta }
\Longleftrightarrow X{\leadsto}{ {{\bf N} \...
..._0}{\sigma /\sqrt{n} }{\leadsto}{ {{\bf N} \left( 0,1 \right)} }
\end{eqnarray*}

Para poder acceder a las probabilidades de la normal, hemos tipificado (ya que los valores para hacer la tipificación son conocidos). Si H0 es cierta, entonces esperamos que el valor zexp obtenido sobre la muestra

\begin{displaymath}{
\mbox{\fbox{$\displaystyle
z_{exp}=\frac{\overline{x}-\mu_0}{\sigma/\sqrt{n}}
$ } }
}
\end{displaymath}

Esté cercano a cero con una gran probabilidad. Esto se expresa fijando un nivel de significación $\alpha $, y tomando como región crítica ${\cal C}$, a los valores que son muy extremados y con probabilidad $\alpha $en total, o sea,

\begin{displaymath}\left\{
\begin{array}{rcl}
{{\cal P}}[Z_{exp}\leq z_{\alpha/2...
...P}}[-z_{1-\alpha/2} \leq Z_{exp} \leq z_{1-\alpha/2}]=1-\alpha
\end{displaymath}

Entonces la región crítica consiste en

\begin{eqnarray*}{ {\cal C} }&=& \left\{ z_{exp}, \mbox{ tal que }
z_{exp} < -z...
...exp}:\:\left\vert z_{exp}\right\vert\leq z_{1-\alpha/2} \right\}
\end{eqnarray*}

Luego rechazaremos la hipótesis nula si

\begin{displaymath}\left\vert z_{exp}\right\vert> z_{1-\alpha/2}
\end{displaymath}

Aceptando en consecuencia la hipótesis alternativa.

Figura: La región de rechazo de la hipótesis nula es la sombreada. Se rechaza H0 cuando el estadístico zexp toma un valor comprendido en la zona sombreada de la gráfica pequeña, N(0,1), o equivalentemente, cuando el estadístico $\overline {X}$toma un valor en la zona sombreada de la gráfica grande, ${ {{\bf N} \left ( \mu _0,\sigma ^2 \right )} }$.

\includegraphics[angle=-90, width=0.8\textwidth]{f9-1.epsi}

 

Tests de una cola con varianza conocido

Consideremos un contraste de hipótesis donde ahora la hipótesis alternativa es compuesta:

  \begin{displaymath}\left\{
\begin{array}{l}
H_0\: : \: \mu=\mu_0
\\
\mbox{\it }...
...ox{\it }
\\
H_1\: : \: \mu < \mu_0
\end{array}\right.
\right)
\end{displaymath}
Bajo la hipótesis nula la distribución de la media muestral es

\begin{eqnarray*}H_0 \mbox{ cierta }
\Longleftrightarrow X{\leadsto}{ {{\bf N} \...
..._0}{\sigma /\sqrt{n} }{\leadsto}{ {{\bf N} \left( 0,1 \right)} }
\end{eqnarray*}

Y como región crítica consideraremos aquella formada por los valores extremadamente bajos de Zexp, con probabilidad $\alpha $, es decir:

\begin{displaymath}{{\cal P}}[Z_{exp}\leq z_{\alpha}]= \alpha
\Longrightarrow
{{...
...\left[
\underbrace{z_{\alpha}} \leq
z_{exp} \right] = 1-\alpha
\end{displaymath}

Entonces la región de aceptación, o de modo más correcto, de no rechazo de la hipótesis nula es: \begin{displaymath}z_{exp} > z_{\alpha}
\end{displaymath}

Figura: Se rechaza la hipótesis nula, cuando uno de los estadístico Z o $\overline {X}$toma un valor en la zona sombreada de sus gráficas respectivas.

\includegraphics[angle=-90, width=0.8\textwidth]{f9-2.epsi}

Es evidente que si en el contraste de significación, hubiésemos tomado como hipótesis alternativa su contraria, es decir

\begin{displaymath}\left\{
\begin{array}{l}
H_0\: : \: \mu=\mu_0
\\
\mbox{\it }...
...ox{\it }
\\
H_1\: : \: \mu > \mu_0
\end{array}\right.
\right)
\end{displaymath}

Por simetría con respecto al caso anterior, la región donde no se rechaza la hipótesis nula es:

\begin{displaymath}z_{exp} < z_{1-\alpha}
\end{displaymath}

Figura: Regiones de aceptación y rechazo para el test unilateral contrario.

\includegraphics[angle=-90, width=0.8\textwidth]{f9-3.epsi}

Test de dos colas con varianza desconocida

$X{\leadsto}{ {{\bf N} \left( \mu,\sigma^2 \right)} }$Sea donde ni µ ni σ2son conocidos y queremos realizar el contraste:

\begin{displaymath}\left\{
\begin{array}{l}
H_0\: : \: \mu=\mu_0
\\
\mbox{\it }
\\
H_1\: : \: \mu\neq\mu_0
\end{array}\right.
\end{displaymath}

Al no conocer $\sigma ^2$va a ser necesario estimarlo a partir de su estimador insesgado: la cuasivarianza muestral, $\hat{\cal S}^2$, ya definida en la relación, página. Por ello la distribución del estimador del contraste será una ${ {{\bf t} } }$de Student, que ha perdido un grado de libertad, según el teorema de Cochran, enunciado en la página y la definición de la distribución de Student en la página:

\begin{displaymath}{
\mbox{\fbox{$\displaystyle
H_0 \mbox{ cierta }
\Longleftri...
...hat{\cal S}}}{\sqrt{n}}}{\leadsto}{ {{\bf t} } }_{n-1}
$ } }
}
\end{displaymath}


Consideramos como región crítica ${\cal C}$, a las observaciones de Texp extremas

\begin{displaymath}\left\{
\begin{array}{rcl}
{{\cal P}}[T_{exp}\leq t_{n-1,\alp...
...-1,1-\alpha/2} \leq T_{exp} \leq t_{n-1,1-\alpha/2}]
=1-\alpha
\end{displaymath}

O sea

\begin{displaymath}{ {\cal C} }=
\left\{T_{exp} < -t_{n-1,1-\alpha/2}
\:\:\mbox{ ó } \:\:
t_{n-1,1-\alpha/2} <T_{exp}\right\}
\end{displaymath}

 

Observación

Para dar una forma homogénea a todos los contrastes de hipótesis es costumbre denominar al valor del estadístico del contraste calculado sobre la muestra como valor experimental y a los extremos de la región crítica, como valores teóricos. Definiendo entonces:

\begin{eqnarray*}T_{exp} &=& \frac{\overline{X}-\mu_0}{\frac{{\hat{\cal S}}}{\sqrt{n}}}
\\
& &
\\
T_{teo} & = & t_{n-1,1-\alpha/2}
\end{eqnarray*}

El resultado del contraste es el siguiente:

Figura: Región crítica para el contraste bilateral de una media.

\includegraphics[angle=-90, width=0.8\textwidth]{f9-4.epsi}

\begin{displaymath}\left\{
\begin{array}{ccl}
\mbox{ si } \left\vert T_{exp}\rig...
... rechazamos } H_0 \mbox{ y aceptamos } H_1.
\end{array}\right.
\end{displaymath}

 

Tests de una cola con varianza desconocido

Si realizamos el contraste

\begin{displaymath}\left\{
\begin{array}{l}
H_0\: : \: \mu=\mu_0
\\
\mbox{\it }...
...ox{\it }
\\
H_1\: : \: \mu < \mu_0
\end{array}\right.
\right)
\end{displaymath}


Por analogía con el contraste bilateral, definiremos

\begin{eqnarray*}T_{exp} &=& \frac{\overline{X}-\mu_0}{\frac{{\hat{\cal S}}}{\sqrt{n}}}
\\
& &
\\
T_{teo} & = & t_{n-1,1-\alpha}
\end{eqnarray*}

Y el criterio para contrastar al nivel de significación $\alpha $es:

Figura: Región crítica para uno de los contrastes unilaterales de una media.

\includegraphics[angle=-90, width=0.8\textwidth]{f9-5.epsi}

\begin{displaymath}\left\{
\begin{array}{ccl}
\mbox{ si } T_{exp} \geq -T_{teo} ...
... rechazamos } H_0 \mbox{ y aceptamos } H_1.
\end{array}\right.
\end{displaymath}

Para el contraste contrario,

\begin{displaymath}\left\{
\begin{array}{l}
H_0\: : \: \mu=\mu_0
\\
\mbox{\it }...
...ox{\it }
\\
H_1\: : \: \mu > \mu_0
\end{array}\right.
\right)
\end{displaymath}


Definimos Texp y Tteo como anteriormente y el criterio a aplicar es:

Figura: Región crítica para el contrastes unilateral de una media contrario al anterior.

\includegraphics[angle=-90, width=0.8\textwidth]{f9-6.epsi}

\begin{displaymath}\left\{
\begin{array}{ccl}
\mbox{ si } T_{exp} \leq T_{teo} &...
... rechazamos } H_0 \mbox{ y aceptamos } H_1.
\end{array}\right.
\end{displaymath}

 

Ejemplo

Conocemos que las alturas X de los individuos de una ciudad, se distribuyen de modo gaussiano. Deseamos contrastar con un nivel de significación de $\alpha=0'05$si la altura media es diferente de 174 cm. Para ello nos basamos en un estudio en el que con una muestra de n=25 personas se obtuvo:

\begin{eqnarray*}\overline{x}&=& 170 \mbox{ cm}
\\
{\cal S}&=& 10 \mbox{ cm}
\end{eqnarray*}

Solución:

El contraste que se plantea es:

\begin{displaymath}\left\{
\begin{array}{l}
H_0\: : \: \mu=174 \mbox{ cm}
\\
\m...
...\it }
\\
H_1\: : \: \mu\neq 174 \mbox{ cm}
\end{array}\right.
\end{displaymath}

La técnica a utilizar consiste en suponer que H0 es cierta y ver si el valor que toma el estadístico

\begin{displaymath}T_{exp}=\frac{\overline{x}-174}{\frac{{\hat{\cal S}}}{\sqrt{n}}}\,
{\leadsto}{ {{\bf t} } }_{n-1}
={ {{\bf t} } }_{24}
\end{displaymath}

Es ``razonable" o no bajo esta hipótesis, para el nivel de significación dado. Aceptaremos la hipótesis alternativa (y en consecuencia se rechazará la hipótesis nula) si no lo es, es decir, si

\begin{displaymath}\left\vert T_{exp}\right\vert \geq t_{24,1-\alpha/2}
=t_{24,0'975} = 2'06
\end{displaymath}

Para ello procedemos al cálculo de Texp:

\begin{displaymath}{\cal S}=10 \Longrightarrow {\hat{\cal S}}= {\cal S}\,\sqrt{\frac{n}{n-1}} =
10 \,\sqrt{\frac{25}{24}} = 10'206
\end{displaymath}

\begin{displaymath}\left\vert T_{exp}\right\vert=
\frac{\left\vert 170-174\right...
...qrt{25}}}=
\left\vert-1'959\right\vert\leq t_{24,0'975} = 2'06
\end{displaymath}

Luego, aunque podamos pensar que ciertamente el verdadero valor de µ no es 174, no hay una evidencia suficiente para rechazar esta hipótesis al nivel de confianza del 95% . Es decir, no se rechaza H0.

Figura: El valor de Texp no está en la región crítica (aunque ha quedado muy cerca), por tanto al no ser la evidencia en contra de H0 suficientemente significativa, ésta hipótesis no se rechaza.

\includegraphics[angle=-90, width=0.6\textwidth]{f9-7.epsi}

 

Ejemplo

Consideramos el mismo ejemplo de antes. Visto que no hemos podido rechazar el que la altura media de la población sea igual a 174 cm, deseamos realizar el contraste sobre si la altura media es menor de 174 cm.

Solución:

Ahora el contraste es

\begin{displaymath}\left\{
\begin{array}{l}
H_0\: : \: \mu\geq 174 \mbox{ cm}
\\...
...ox{\it }
\\
H_1\: : \: \mu< 174 \mbox{ cm}
\end{array}\right.
\end{displaymath}

Para realizar este contraste, consideramos el caso límite y observamos si la hipótesis nula debe ser rechazada o no. Este es:

\begin{displaymath}\left\{
\begin{array}{l}
H_0'\: : \: \mu= 174 \mbox{ cm}
\\
\mbox{\it }
\\
H_1\: : \: \mu< 174 \mbox{ cm}
\end{array}\right.
\end{displaymath}

De nuevo la técnica a utilizar consiste en suponer que H0' es cierta y ver si el valor que toma el estadístico:

\begin{displaymath}T_{exp}=\frac{\overline{x}-174}{\frac{{\hat{\cal S}}}{\sqrt{n}}}\,
{\leadsto}{ {{\bf t} } }_{n-1}
={ {{\bf t} } }_{24}
\end{displaymath}

Es aceptable bajo esta hipótesis, con un nivel de confianza del 95%. Se aceptará la hipótesis alternativa (y en consecuencia se rechazará la hipótesis nula) si \begin{displaymath}T_{exp} \leq t_{24,\alpha}=
-t_{24,1-\alpha}=-t_{24,0'95} = -1'71
\end{displaymath}

Recordamos que el valor de Texp obtenido fue de

Texp=-1'959< t24,0'05= -t24,0'95 = -1'71


Por ello hemos de aceptar la hipótesis alternativa.

Figura: El valor te Texp está en la región crítica, por tanto existe una evidencia significativa en contra de H0, y a favor de H1.

\includegraphics[angle=-90, width=0.6\textwidth]{f9-8.epsi}

Es importante observar este hecho curioso: Mientras que en el ejemplo anterior no existía una evidencia significativa para decir que µ≠174cm, el ``simple hecho" de plantearnos un contraste que parece el mismo pero en versión unilateral nos conduce a rechazar de modo significativo que µ=174 y aceptamos que µ<174cm. Es por ello que podemos decir que no sólo H0' es rechazada, sino también H0. Es en este sentido en el que los tests con H0 y H0' los consideramos equivalentes:

\begin{displaymath}\left\{
\begin{array}{l}
H_0'\: : \: \mu= 174 \mbox{ cm}
\\
...
...ox{\it }
\\
H_1\: : \: \mu< 174 \mbox{ cm}
\end{array}\right.
\end{displaymath}

 

Contrastes para la varianza

Consideremos que el carácter que estudiamos sobre la población sea una v.a. normal cuya media y varianza son desconocidas. Vamos a contrastar la hipótesis:

\begin{displaymath}H_0 \: : \: \sigma^2 = \sigma^2_0, \qquad
\mbox{donde $\sigma_0^2$\space es un valor prefijado}
\end{displaymath}


Frente a otras hipótesis alternativas que podrán dar lugar a contrastes bilaterales o unilaterales. La técnica consiste en utilizar el teorema de Cochran, para observar que el siguiente estadístico experimental que utiliza el estimador insesgado de la varianza, posee una distribución x2, con n-1 grados de libertad:

\begin{displaymath}{
\mbox{\fbox{$\displaystyle
H_0 \mbox{ cierta }
\Longrighta...
...ma_0^2}\,{\leadsto}{ \mbox{\boldmath$\chi$ } }_{n-1}^2
$ } }
}
\end{displaymath}

Entonces construimos las regiones críticas que correspondan a las hipótesis alternativas que se formulen en cada caso atendiendo a la ley de distribución x2.

Contraste bilateral

Cuando el contraste a realizar es

\begin{displaymath}\left\{
\begin{array}{l}
H_0\: : \: \sigma^2=\sigma_0^2
\\
\...
...\it }
\\
H_1\: : \: \sigma^2\neq\sigma_0^2
\end{array}\right.
\end{displaymath}

Definimos

\begin{eqnarray*}\chi_{exp}^2 &=& (n-1)\cdot \frac{{\hat{\cal S}^{2}}}{\sigma_0^...
...{n-1,\alpha/2}^2
\\
& &
\\
b_{teo} &=& \chi_{n-1,1-\alpha/2}^2
\end{eqnarray*}


Y el criterio que suministra el contraste es el expresado en la figura 9.9:

Figura: Contraste bilateral de una varianza.

\includegraphics[angle=-90, width=0.6\textwidth]{f9-9.epsi}

\begin{displaymath}\left\{
\begin{array}{ccl}
\mbox{ si } a_{teo} \leq \chi_{exp...
... rechazamos } H_0 \mbox{ y aceptamos } H_1.
\end{array}\right.
\end{displaymath}

Contrastes unilaterales

Para un contraste de significación al nivel $\alpha $del tipo

\begin{displaymath}\left\{
\begin{array}{l}
H_0\: : \: \sigma^2=\sigma_0^2
\\
\...
...\
H_1\: : \: \sigma^2 < \sigma_0^2
\end{array}\right.
\right)
\end{displaymath}


Se tiene que el resultado del mismo es el que refleja la figura 9.10:

Figura: Contraste unilateral del tipo $H_0\: : \: \sigma^2\geq\sigma_0^2$.

\includegraphics[angle=-90, width=0.6\textwidth]{f9-10.epsi}

\begin{displaymath}a_{teo} = \chi_{n-1,\alpha}^2 \longrightarrow
\left\{
\begin{...
... rechazamos } H_0 \mbox{ y aceptamos } H_1.
\end{array}\right.
\end{displaymath}

Para el contraste contrario tenemos la formulación análoga (cf. figura 9.11):

\begin{displaymath}\left\{
\begin{array}{l}
H_0\: : \: \sigma^2=\sigma_0^2
\\
\...
...\
H_1\: : \: \sigma^2 > \sigma_0^2
\end{array}\right.
\right)
\end{displaymath}


Calculamos el extremo inferior de la región crítica en una tabla de la distribución x2n-1

\begin{displaymath}b_{teo} = \chi_{n-1,1-\alpha}^2 \longrightarrow
\left\{
\begi...
... rechazamos } H_0 \mbox{ y aceptamos } H_1.
\end{array}\right.
\end{displaymath}

Figura: Contraste unilateral del tipo $H_0\: : \: \sigma^2\leq\sigma_0^2$.

\includegraphics[angle=-90, width=0.6\textwidth]{f9-11.epsi}

Tabla: Estadísticos asociados a una muestra aleatoria simple, procedente de una población normal.

X1, X2, ..., $X_n{\leadsto}{ {{\bf N} \left( \mu,\sigma^2 \right)} }$

$\displaystyle
\frac{\overline{X}-\mu}{
\displaystyle \sigma\,\frac{1}{\sqrt{n}}
}
\,{\leadsto}{ {{\bf N} \left( 0,1 \right)} }
$

$\displaystyle
\sum_{i=1}^n \frac{(X_i - \mu)^2}{\sigma^2}
\,{\leadsto}{ \mbox{\boldmath$\chi$ } }_n^2
$

$\displaystyle
\frac{\overline{X}-\mu}{
\displaystyle {\hat{\cal S}}\, \frac{1}{\sqrt{n}}
}
\,{\leadsto}{ {{\bf t} } }_{n-1}
$

$\displaystyle
\sum_{i=1}^n \frac{(X_i - \overline{X})^2}{\sigma^2}
= (n-1)\frac{{\hat{\cal S}^{2}}}{\sigma^2}\,{\leadsto}{ \mbox{\boldmath$\chi$ } }_{n-1}^2
$

 

Contrastes sobre la diferencia de proporciones

Supongamos que tenemos dos muestras independientes tomadas sobre dos poblaciones, en la que estudiamos una variable de tipo dicotómico (Bernoulli):

\begin{eqnarray*}\vec{X}_1 &{\equiv}& X_{11},X_{12},\dots,X_{1n_1}
\\
\vec{X}_2 &{\equiv}& X_{21},X_{22},\dots,X_{2n_2}
\end{eqnarray*}

Si X1 y X2 contabilizan en cada caso el número de éxitos en cada muestra se tiene que cada una de ellas se distribuye como una variable aleatoria binomial:

\begin{eqnarray*}X_1 &=& \sum_{i=1}^{n_1}X_{1i}\:{\leadsto}{ {{\bf B} \left( n_1...
...i=1}^{n_2}X_{2i}\:{\leadsto}{ {{\bf B} \left( n_2,p_2 \right)} }
\end{eqnarray*}

De modo que los estimadores de las proporciones en cada población tienen distribuciones que de un modo aproximado son normales (cuando n1 y n2 son bastante grandes)

\begin{eqnarray*}\hat{P_1}=\frac{X_1}{n_1} {\: \stackrel{\approx}{\leadsto}\:}
{...
...leadsto}\:}
{ {{\bf N} \left( p_2,\frac{p_2 q_2}{n_2} \right)} }
\end{eqnarray*}

El contraste que nos interesa realizar es el de si la diferencia entre las proporciones en cada población es una cantidad conocida $\Delta$

\begin{displaymath}H_0\:\: :\: \: p_1-p_2 = \Delta
\end{displaymath}

Si H0 fuese cierta se tendría que

\begin{displaymath}\hat{P_1}-\hat{P_2}{\: \stackrel{\approx}{\leadsto}\:}{ {{\bf...
..._{\Delta},\frac{p_1 q_1}{n_1}
+ \frac{p_2 q_2}{n_2} \right)} }
\end{displaymath}

Desafortunadamente ni p1 ni p2 son conocidos de antemano y utilizamos sus estimadores, lo que da lugar a un error que es pequeño cuando los tamaños muestrales son importantes:

\begin{displaymath}{
\mbox{\fbox{$\displaystyle
\frac{(\hat{p_1}-\hat{p_2})-\De...
...{\approx}{\leadsto}\:}{ {{\bf N} \left( 0,1 \right)} }
$ } }
}
\end{displaymath}

 

Contraste bilateral

El contraste bilateral sobre la diferencia de proporciones es

\begin{displaymath}\left\{
\begin{array}{l}
H_0\: : \: p_1-p_2=\Delta
\\
\mbox{\it }
\\
H_1\: : \: p_1-p_2\neq \Delta
\end{array}\right.
\end{displaymath}

Entonces se define

\begin{displaymath}Z_{exp} = \frac{(\hat{p_1}-\hat{p_2})-\Delta}{
\sqrt{\display...
...rac{\hat{p}_1\hat{q}_1}{n_1}
+\frac{\hat{p}_2\hat{q}_2}{n_2}}}
\end{displaymath}

Y se rechaza la hipótesis nula si $Z_{exp}<-z_{1-\alpha/2}$o si $Z_{exp}>z_{1-\alpha/2}$

 

Contrastes unilaterales

En el contraste

\begin{displaymath}%
\left\{
\begin{array}{l}
H_0\: : \: p_1-p_2=\Delta
\\
\mbo...
...it }
\\
H_1\: : \: p_1-p_2< \Delta
\end{array}\right.
\right)
\end{displaymath}

Se rechazará H0 si $Z_{exp}<-z_{1-\alpha}$. Para el test contrario

\begin{displaymath}\left\{
\begin{array}{l}
H_0\: : \: p_1-p_2=\Delta
\\
\mbox{...
...it }
\\
H_1\: : \: p_1-p_2> \Delta
\end{array}\right.
\right)
\end{displaymath}

Se rechaza H0 si $Z_{exp}>z_{1-\alpha}$.

Problemas

En todos los problemas que siguen a continuación, se supone que las muestras han sido elegidas de modo independiente, y que las cantidades cuantitativas que se miden, se distribuyen de modo gaussiano. En temas posteriores se verá cómo contrastar si estas premisas pueden ser aceptadas o no al examinar las muestras.

Ejercicio 1. El calcio se presenta normalmente en la sangre de los mamíferos en concentraciones de alrededor de 6 mg por cada 100 ml del total de sangre. La desviación típica normal de ésta variable es 1 mg de calcio por cada 100 ml del volumen total de sangre. Una variabilidad mayor a ésta puede ocasionar graves trastornos en la coagulación de la sangre. Una serie de nueve pruebas sobre un paciente revelaron una media muestral de 6,2 mg de calcio por 100 ml del volumen total de sangre, y una desviación típica muestral de 2 mg de calcio por cada 100 ml de sangre. ¿Hay alguna evidencia, para un nivel α=0.05, de que el nivel medio de calcio para este paciente sea más alto del normal?

Ejercicio 2. El número de accidentes mortales en una ciudad es, en promedio, de 12 mensuales. Tras una campaña de señalización y adecentamiento de las vías urbanas se contabilizaron en 6 meses sucesivos 8, 11, 9, 7, 10 , 9 accidentes mortales. ¿Fue efectiva la campaña?

Ejercicio 3. El promedio de las puntuaciones de un número elevado de alumnos de Bioestadística es de 6,50. Un determinado año se examinaron 50 alumnos con resultados promedio de 7,25 y desviación típica de 1. ¿Variaron las calificaciones?

Ejercicio 4. El peso medio de mujeres de 30 a 40 años es de 53 kg. Un estudio realizado en 16 mujeres de tales edades que siguen una dieta vegetariana da $\overline{x}=50$ y ${\cal S}=5$. ¿Modifica la dieta el peso medio?

Ejercicio 5. Una población infantil se dice que es susceptible de recibir una campaña de educación e higiene si su porcentaje de niños con dientes cariados es superior al 15%. Una población con 12.637 niños, ¿debe hacerse la campaña si de 387 de ellos 70 tenían algún diente cariado?

Ejercicio 6. Un 8% de los individuos que acuden a un servicio sanitario son hiperutilizadores del mismo (más de 11 visitas al año) y, de entre ellos, un 70% son mujeres. De entre los no hiperutilizadores, son mujeres el 51%. ¿Puede afirmarse que han variado los hábitos de éstas si, tras una campaña de información y control de visitas, de 90 mujeres elegidas al azar 6 resultaron hiperutilizadoras?

Ejercicio 7. Se conoce que un 20% de los individuos tratados crónicamente con digoxina sufren una reacción adversa por causa de ella. A 10 pacientes se les administró durante largo tiempo digoxina más otros medicamentos, y de ellos 5 desarrollaron la reacción adversa. ¿Puede afirmarse que la asociación entre la digoxina y los otros medicamentos hace variar el número de reacciones adversas?

Ejercicio 8. Para comprobar si un tratamiento con ácidos grasos es eficaz en pacientes con eczema atípico, se tomaron 10 pacientes con eczema de más de 9 meses y se les sometió durante 3 semanas a un tratamiento ficticio (placebo) y durante las tres siguientes a un tratamiento con ácidos grasos. Tras cada periodo, un médico ajeno al proyecto evaluó la importancia del eczema en una escala de 0 (no eczema) a 10 (tamaño máximo de eczema).


Los datos fueron los siguientes:

Placebo

6

8

4

8

5

6

5

6

4

5

Tratamiento

5

6

4

5

3

6

6

2

2

6

 

¿Es eficaz el tratamiento?

Ejercicio 9. En un programa de Control de Enfermedades Crónicas, la hipertensión está incluida como la primera patología a controlar. 15 pacientes hipertensos son sometidos al programa y controlados en su tensión asistólica antes y después de 6 meses de tratamiento. Los datos son los siguientes:

 

Inic.

180

200

160

170

180

190

190

180

190

160

170

190

200

210

220

Fin.

140

170

160

140

130

150

140

150

190

170

120

160

170

160

150

 

¿Es efectivo el tratamiento?

Ejercicio 10. Muchos autores afirman que los pacientes con depresión tienen una función cortical por debajo de lo normal debido a un riego sanguíneo cerebral por debajo de lo normal. A dos muestras de individuos, unos con depresión y otros normales, se les midió un índice que indica el flujo sanguíneo en la materia gris (dado en mg/(100g/min))obteniéndose:

 

Depresivos

n1=19

$\overline{x}_1=47$

${\hat{\cal S}}_1=7'8$

Normales

n2=22

$\overline{x}_2=53'8$

${\hat{\cal S}}_2=6'1$

 

¿Hay evidencia significativa a favor de la afirmación de los autores?

Ejercicio 11. Por fistulización se obtuvo el pH de 6 muestras de bilis hepática con los siguientes resultados:

7,83; 8,52; 7,32; 7,79; 7,57; 6,58

Se desea saber al nivel de significación del 0,05 si la bilis hepática puede considerarse neutra. Si se conociera σ=0.5, ¿qué decisión tomaríamos?

Ejercicio 12. La prueba de la d-xilosa permite la diferenciación entre una esteatorrea originada por una mala absorción intestinal y la debida a una insuficiencia pancreática, de modo que cifras inferiores a 4 grs. de d-xilosa, indican una mala absorción intestinal. Se realiza dicha prueba a 10 individuos, obteniéndose una media de 3,5 grs. y una desviación típica de 0'5 grs. ¿Se puede decir que esos pacientes padecen una mala absorción intestinal?

Ejercicio 13. La eliminación por orina de aldosterona está valorada en individuos normales en 12 mgs/24 h. por término medio. En 50 individuos con insuficiencia cardíaca se observó una eliminación media de aldosterona de 13 mgs/24 h., con una desviación típica de 2,5 mgs/24 h.

1. ¿Son compatibles estos resultados con los de los individuos normales?

2. ¿La insuficiencia cardiaca aumenta la eliminación por orina de aldosterona?

Ejercicio 14. La tabla siguiente muestra los efectos de un placebo y de la hidroclorotiacida sobre la presión sanguínea sistólica de 11 pacientes.

 

Placebo

211

210

210

203

196

190

191

177

173

170

163

H-cloro

181

172

196

191

167

161

178

160

149

119

156

 

Según estos datos experimentales, ¿podemos afirmar que existe diferencia en la presión sistólica media durante la utilización de estos dos fármacos?

Ejercicio 15. Se sabe que el 70% de los pacientes internados en un hospital traumatológico requieren algún tipo de intervención quirúrgica. Para determinar si un nuevo método de fisioterapia reduce el porcentaje de intervenciones, se aplica éste a 30 pacientes de los cuales 17 requieren alguna intervención quirúrgica. Comprobar que no hay razones suficientes para afirmar la eficacia del método con un nivel de confianza del 95%.

Ejercicio 16. De un estudio sobre la incidencia de la hipertensión en la provincia de Málaga, se sabe que en la zona rural el porcentaje de hipertensos es del 27,7%. Tras una encuesta a 400 personas de una zona urbana, se obtuvo un 24% de hipertensos.

1. ¿Se puede decir que el porcentaje de hipertensos en la zona urbana es distinto que en la zona rural?

2. ¿Es menor el porcentaje de hipertensos en la zona urbana que en la zona rural?

Ejercicio 17. Con cierto método de enseñanza para niños subnormales se obtiene una desviación típica de 8, en las puntuaciones de los tests finales. Se pone a prueba un nuevo método y se ensaya en 51 niños. Las calificaciones obtenidas en los tests finales dan una desviación típica de 10. ¿Puede asegurarse que el nuevo método produce distinta variación en las puntuaciones?

Ejercicio 18. Se desea comparar la actividad motora espontánea de un grupo de 25 ratas control y otro de 36 ratas desnutridas. Se midió el número de veces que pasaban delante de una célula fotoeléctrica durante 24 horas. Los datos obtenidos fueron los siguientes:

 

Ratas de control

n1=25

$\overline{x}_1 = 869,8$

${\cal S}_1 = 106,7$

Ratas desnutridas

n2=36

$\overline{x}_2 = 465$

$ {\cal S}_2 = 153,7 $

 

¿Se observan diferencias significativas entre el grupo control y el grupo desnutrido?

Ejercicio 19. Se pretende comprobar la hipótesis expuesta en algunos trabajos de investigación acerca de que la presencia del antígeno AG-4 está relacionada con un desenlace Con éste fin, se hizo una revisión sobre las historias clínicas de 21 mujeres muertas por carcinoma de cuello uterino, observando que 6 de ellas presentaban el citado antígeno. Por otro lado y con fines de comparación se tomó otra muestra de 42 personas, con edades similares a las del grupo anterior y que reaccionaron bien al tratamiento del carcinoma de cuello uterino, en 28 de las cuales se observó la presencia del citado antígeno. ¿Está relacionada la presencia del antígeno con una efectividad del tratamiento?

Ejercicio 20. Se quiso probar si la cirrosis de hígado hacia variar el índice de actividad de la colinesterasa en suero. Se eligieron dos muestras aleatorias e independientes de individuos. Los resultados fueron:

 

Individuos normales

n1 = 20

$ \overline{x}_1 = 1,8$

$ {\cal S}_1 = 0,4$

Individuos cirróticos

n2=25

$ \overline{x}_2 = 0,66$

$ {\cal S}_2 = 0,2$

 

La cirrosis de hígado, ¿hace variar el índice de la colinesterasa en suero?

Ejercicio 21. Un investigador ha realizado el siguiente experimento: Tomó una primera muestra de 25 pacientes que padecían cierto síntoma y otra segunda muestra de 30 pacientes con el mismo síntoma. A los de la primera muestra les aplicó un tratamiento específico y a los de la segunda les dio un placebo.

Anotó el tiempo en horas en que cada uno dijo que el síntoma había desaparecido y obtuvo los siguientes resultados:

 

Muestra 1a

n1=25

$\sum_i x_{i1} = 85 $

$ \sum_i x_{i1}^2 = 343$

Muestra 2a

n2=30

$\sum_i x_{i2} = 216$

$ \sum_i x_{i2}^2 = 1.650$

 

¿Puede concluir el investigador que el tratamiento es realmente efectivo?

Ejercicio 22. Para comprobar si la tolerancia a la glucosa en sujetos sanos tiende a decrecer con la edad se realizó un test oral de glucosa a dos muestras de pacientes sanos, unos jóvenes y otros adultos. El test consistió en medir el nivel de glucosa en sangre en el momento de la ingestión (nivel basal) de 100 grs. de glucosa y a los 60 minutos de la toma. Los resultados fueron los siguientes:

Jóvenes:

Basal

81

89

80

75

74

97

76

89

83

77

60 minutos

136

150

149

141

138

154

141

155

145

147

 

Adultos:

Basal

98

94

93

88

79

90

86

89

81

90

60 minutos

196

190

191

189

159

185

182

190

170

197

 

1. ¿Se detecta una variación significativa del nivel de glucosa en sangre en cada grupo?

2. ¿Es mayor la concentración de glucosa en sangre a los 60 minutos, en adultos que en jóvenes?

3. El contenido basal de glucosa en sangre, ¿es menor en jóvenes que en adultos?

4. ¿Se detecta a los 60 minutos una variación del nivel de glucosa en sangre diferente de los adultos, en los jóvenes?

 

UNIDAD: PRUEBA DE BONDAD DE AJUSTE

Pruebas de tablas de contingencias

En muchas ocasiones, los n elementos de una muestra de población pueden clasificarse de acuerdo con dos criterios diferentes. Por ello interesa conocer si los dos métodos de clasificación son estadísticamente independientes; por ejemplo, podemos considerar la población de ingenieros graduado y tal vez deseemos determinar si el salario inicial es independiente de las disciplinas académicas.

Supóngase que el primer método de clasificación tiene r niveles y que el segundo método de clasificación tiene c niveles. Sea oij  la frecuencia observada para el nivel i  del primer método de clasificación y el nivel j  del segundo método de clasificación. Los datos aparecerían, en general, como en la tabla. Una tabla de tales características se llama comúnmente tabla de contingencia r X c.

Estamos interesados en probar la hipótesis de que los métodos de clasificación de renglón y de columna son independientes. Si rechazamos esta hipótesis, concluimos que hay cierta interacción  entre los dos criterios de clasificación. Los procedimientos de prueba exactos son difíciles de obtener, pero una estadística de prueba aproximada es valida para n grande. Supóngase las oij como variables aleatorias multinomiales y pij como la probabilidad de que un elemento elegido al azar cae en la celda ijesima, dado que las dos clasificaciones son independientes. Entonces pij  = uivj , donde ui  es la probabilidad de que un elemento elegido al azar caiga en el renglón de clase i  y vj es la probabilidad de que un elemento seleccionado en forma aleatoria caiga en la columna de clase j. Luego, suponiendo independencia, los estimadores de máxima probabilidad de ui  y vj son:

  ûi =   Oij

ûj =  Oij

           Una tabla de contingencia r X c

Columnas

 

 

1

2

...

c

 

 

 

 

 

 

 

1

O11

O12

...

O1c

 

2

O21

O22

...

O2c

Renglones

...

...

...

...

...

 

r

Or1

Or2

...

Orc

 

 

 

 

 

 

En consecuencia, el número esperado de cada celda es

Eij  =  nûivj  = Oij Oij

Entonces, para  n grande, la estadística

                                                                            2               

*   X20  =  - X2 (r – 1) (c – 1)


Aproximadamente, y rechazaríamos la hipótesis de independencia si

X20   > X2a, (r – 1) (c – 1).

 

Prueba de bondad de  ajuste de ji-cuadrada

El procedimiento de prueba requiere una muestra aleatoria de tamaño n de la variable aleatoria X, cuya función de densidad de probabilidad se desconoce. Estas n observaciones se arreglan en un histograma de frecuencias, teniendo k intervalos de clase. Sea 01 la frecuencia observada en el intervalo de la clase iesimo. De la distribución de probabilidad hipotética, calculamos la frecuencia esperada en el intervalo de clase iesimo, denotada  E1. La estadística de prueba es:

X20  = 

Puede demostrar que X²0 sigue aproximadamente la distribución ji cuadrada con k-p-1 grados de libertad, donde p representa el numero de parámetros de la distribución hipotética  estimada por el medio de estadística de muestra. Esta aproximación se mejora cuando n aumenta. Rechazaríamos la hipótesis de que X se ajusta ala distribución hipotética si X²0>X²α k-p-1

Un punto que debe advertirse en la aplicación de este procedimiento de prueba se refiere ala magnitud de las frecuencias esperadas. Si estas frecuencias esperadas son demasiado pequeñas, entonces X²0 no reflejan la desviación de las observaciones respecto alas esperadas, si no solo las mas pequeñas de las frecuencias esperadas. No hay un acuerdo general en relación con el valor mínimo de las frecuencias esperadas, aunque los valores de 3,4 y 5 se utilizan ampliamente como mínimos. Si la frecuencia esperada es demasiado pequeña, puede combinarse con la frecuencia esperada en un intervalo de clase adyacente. Las frecuencias observadas correspondientes se combinaran también en ese caso, y k se reducirá en 1. No se requiere que los intervalos de clase sean de igual ancho.

Ejemplo

Una distribución completamente especificada Un científico de computadoras ha desarrollado un algoritmo para generar enteros pseudoaleatorios sobre el intervalo 0-9. Codifica el algoritmo y genera 1000 dígitos pseudoaleatorios. Los datos se muestran en la tabla 11-3. ¿Existe evidencia de que el generador de números aleatorios esta trabajando correctamente?

Si esta trabajando de manera correcta, entonces los valores 0-9 deben seguir la distribución uniforme discreta, la cual implica que cada uno de los enteros debe ocurrir exactamente 100 veces. Esto es, las frecuencias esperadas E =100 para I=0,1,….,9 Puesto que estas frecuencias estimadas pueden estimarse sin que sea necesario estimular ningún parámetro a partir de los datos de muestra, la prueba resultante de bondad de ajuste de la ji cuadrada tendrá k-p-1=10-0-1=9 grados de libertad.

                                                                                                                 Total

                                                                                                                 

                                    0      1      2      3      4      5      6      7      8      9      n

_______________________________________________________________

Frecuencia

   Observada     O      94   93   112   101   104   95   100   99   108   94   1000

 

Frecuencias

   Esperada       E    100  100 100  100  100  100  100   100   100  100 1000

_______________________________________________________________

El valor esperado de la estadística de prueba es

                            2                                        2                              2                                             2

X20  =    =

Puesto que X     =16.92 no somos capaces de rechazar la hipótesis de que los datos proviene de una distribución uniforme discreta. En consecuencia, el generador de números aleatorios parece estar trabajando en forma satisfactoria.

1.4          Test de Kolmogorov-Smirnov

Para la aplicación del test señalado, es necesario determinar la Frecuencia observada acumulada. Para la frecuencia observada en el caso especial de Gumbel, se ordena la información de menor a mayor y se aplica:

Donde:

Fn (x): frecuencia observada acumulada.

n: N° total de orden

N: N° total de datos.

En el caso de la frecuencia teórica acumulada, ésta se determina a través de la función de Gumbel.

Una vez determinadas ambas frecuencias, se obtiene el supremo de las diferencias entre ambas, en la i-ésima posición de orden, que se denomina D.

Luego, asumiendo un valor de significancia, se recurre a la tabla de valores críticos de D en la prueba de bondad de ajuste de Kolmogorov-Smirnov, y considerando el tamaño de la muestra, se establece lo siguiente:

Si D < D tabla, se acepta que (el ajuste es adecuado, con el nivel de confiabilidad asumido.

1.5          Problemas

Ejercicio 1. Ante la sospecha de que el hábito de fumar de una embarazada puede influir en el peso de su hijo al nacer, se tomaron dos muestras, una de fumadoras y otra de no fumadoras, y se clasificó a sus hijos en tres categorías en función de su peso en relación con los percentiles ρ10 y ρ90 de la población. El resultado se expresa en la tabla siguiente:

 

Peso del niño

¿Madre fumadora?

Menor de ρ10

Entre ρ10 y ρ90

Mayor de ρ90

Si

117

529

19

No

124

1147

117

¿Hay una evidencia significativa a favor de la sospecha a la vista de los resultados de la muestra?

Ejercicio 2. Varios libros de Medicina Interna recomiendan al médico la palpación de la arteria radial con el fin de evaluar el estado de la pared arterial. Se tomaron 215 pacientes y se les clasificó según la palpabilidad de dicha arteria (grados 0, 1 y 2 para no palpable, palpable y muy palpable o dura, respectivamente) y según una puntuación de 0 a 4 en orden creciente de degeneración arterial (evaluada tras la muerte del paciente y su análisis anatomo-patológico). Los datos son los de la tabla siguiente:

 

Palpabilidad

Degeneración

0

1

2

0

20

5

5

1

60

20

10

2

45

15

15

3

10

5

5

¿Existe relación entre el grado de palpabilidad y el análisis anatomopatológico?

Ejercicio 3. Se realizó una encuesta a 2979 andaluces para evaluar su opinión acerca de la atención recibida en los Ambulatorios de la Seguridad Social, clasificándolos también en relación a sus estudios. Analizar los datos de la siguiente tabla:

 

Opinión

Nivel de estudios

Buena

Regular

Mala

Ninguno

800

144

32

Primarios

905

312

67

Bachiller

287

157

44

Medios

95

48

11

Superiores

38

32

7

Ejercicio 4. Con el fin de conocer si un cierto tipo de bacterias se distribuyen al azar en un determinado cultivo o si, por el contrario, lo hacen con algún tipo de preferencia (el centro, los extremos, etc...), se divide un cultivo en 576 áreas iguales y se cuenta el número de bacterias en cada área.

Los resultados son los siguientes:

 

no de bacterias

0

1

2

3

4

≥5

no de áreas

229

211

93

35

7

1

 

¿Obedecen los datos a una distribución de Poisson?

Ejercicio 5. La siguiente tabla recoge la distribución de los triglicéridos en suero, expresados en mg/dl en 90 niños de 6 años:

Nivel de triglicéridos

Frecuencias

10 - 20

5

20 - 30

11

30 - 40

15

40 - 50

24

50 - 60

18

60 - 70

12

70 - 80

4

80 - 90

1

 

Contrastar la hipótesis de que el nivel de triglicéridos en niños de 6 años sigue una distribución Normal.

Ejercicio 6. La distribución en Andalucía del grupo sanguíneo es de un 35%, 10%, 6% y un 49% para los grupos A, B, AB y O respectivamente. En Málaga, se realizó el estudio en una muestra de 200 individuos obteniéndose una distribución del 50%, 30%, 18%, y 10% para los grupos A, B AB y O respectivamente.
Se desea saber si la distribución del grupo sanguíneo en dicha provincia es igual que en Andalucía.

Ejercicio 7. En un estudio diseñado para determinar la aceptación por una parte de los pacientes de un nuevo analgésico, 100 médicos seleccionaron cada uno de ellos una muestra de 25 pacientes para participar en el estudio.

Cada paciente después de haber tomado el nuevo analgésico durante un periodo de tiempo determinado, fue interrogado para saber si prefería éste o el que había tomado anteriormente con regularidad, obteniendo los siguientes resultados:

no de pacientes que

no de médicos que

no total de pacientes

prefieren el nuevo

obtienen estos

que prefieren el

analgésico

resultados

nuevo analgésico

0

5

0

1

6

6

2

8

16

3

10

30

4

10

40

5

15

75

6

17

102

7

10

70

8

10

80

9

9

81

10 o más

0

0

Total

100

500

Queremos saber si estos datos se ajustan a una distribución binomial.

Ejercicio 8. Disponemos de una muestra de 250 mujeres mayores de 18 años, cuyos pesos son los presentados en la tabla adjunta, y queremos saber si los datos de esta muestra provienen de una distribución Normal.

Pesos

no de mujeres

30 - 40

16

40 - 50

18

50 - 60

22

60 - 70

51

70 - 80

62

80 - 90

55

90 - 100

22

100 - 110

4

 

Ejercicio 9. Deseamos conocer, si las distribuciones atendiendo al grupo sanguíneo, en tres muestras referidas atendiendo al tipo de tensión arterial, se distribuyen de igual manera. Para lo cual, se reunió una muestra de 1500 sujetos a los que se les determinó su grupo sanguíneo y se les tomó la tensión arterial, clasificándose ésta en baja, normal, y alta.

Obteniéndose los siguientes resultados:

 

Grupo sanguíneo

Tensión arterial

A

B

AB

O

Total

Baja

28

9

7

31

75

Normal

543

211

90

476

1.320

Alta

44

22

8

31

105

Total

615

242

105

538

1.500

 

Ejercicio 10. La recuperación producida por dos tratamientos distintos A y B se clasifican en tres categorías: muy buena, buena y mala. Se administra el tratamiento “A” a 30 pacientes y B a otros 30: De las 22 recuperaciones muy buenas, 10 corresponden al tratamiento A; de las 24 recuperaciones buenas, 14 corresponden al tratamiento A y de los 14 que tienen una mala recuperación corresponden al tratamiento A. ¿Son igualmente efectivos ambos tratamientos para la recuperación de los pacientes?

TABLAS

TABLA DE LA NORMAL

z

0.00

.01

.02

.03

.04

.05

.06

.07

.08

.09

0.0

.5000

.5040

.5080

.5120

.5160

.5199

.5239

.5279

.5319

.5359

0.1

.5398

.5438

.5478

.5517

.5557

.5596

.5636

.5675

.5714

.5753

0.2

.5793

.5832

.5871

.5910

.5948

.5987

.6026

.6064

.6103

.6141

0.3

.6179

.6217

.6255

.6293

.6331

.6368

.6406

.6443

.6480

.6517

0.4

.6554

.6591

.6628

.6664

.6700

.6736

.6772

.6808

.6844

.6879

0.5

.6915

.6950

.6985

.7019

.7054

.7088

.7123

.7157

.7190

.7224

0.6

.7257

.7291

.7324

.7357

.7389

.7422

.7454

.7486

.7517

.7549

0.7

.7580

.7611

.7642

.7673

.7704

.7734

.7764

.7794

.7823

.7852

0.8

.7881

.7910

.7939

.7967

.7995

.8023

.8051

.8078

.8106

.8133

0.9

.8159

.8186

.8212

.8238

.8264

.8289

.8315

.8340

.8365

.8389

1.0

.8413

.8438

.8461

.8485

.8508

.8531

.8554

.8577

.8599

.8621

1.1

.8643

.8665

.8686

.8708

.8729

.8749

.8770

.8790

.8810

.8830

1.2

.8849

.8869

.8888

.8907

.8925

.8944

.8962

.8980

.8997

.9015

1.3

.9032

.9049

.9066

.9082

.9099

.9115

.9131

.9147

.9162

.9177

1.4

.9192

.9207

.9222

.9236

.9251

.9265

.9279

.9292

.9306

.9319

1.5

.9332

.9345

.9357

.9370

.9382

.9394

.9406

.9418

.9429

.9441

1.6

.9452

.9463

.9474

.9484

.9495

.9505

.9515

.9525

.9535

.9545

1.7

.9554

.9564

.9573

.9582

.9591

.9599

.9608

.9616

.9625

.9633

1.8

.9641

.9649

.9656

.9664

.9671

.9678

.9686

.9693

.9699

.9706

1.9

.9713

.9719

.9726

.9732

.9738

.9744

.9750

.9756

.9761

.9767

2.0

.9772

.9778

.9783

.9788

.9793

.9798

.9803

.9808

.9812

.9817

2.1

.9821

.9826

.9830

.9834

.9838

.9842

.9846

.9850

.9854

.9857

2.2

.9861

.9864

.9868

.9871

.9875

.4878

.9881

.9884

.9887

.9890

2.3

.9893

.9896

.9898

.9901

.9904

.9906

.9909

.9911

.9913

.9916

2.4

.9918

.9920

.9922

.9925

.9927

.9929

.9931

.9932

.9934

.9936

2.5

.9938

.9940

.9941

.9943

.9945

.9946

.9948

.9949

.9951

.9952

2.6

.9953

.9955

.9956

.9957

.9959

.9960

.9961

.9962

.9963

.9964

2.7

.9965

.9966

.9967

.9968

.9969

.9970

.9971

.9972

.9973

.9974

2.8

.9974

.9975

.9976

.9977

.9977

.9978

.9979

.9979

.9980

.9981

2.9

.9981

.9982

.9982

.9983

.9984

.9984

.9985

.9985

.9986

.9986

3.0

.9987

.9987

.9987

.9988

.9988

.9989

.9989

.9989

.9990

.9990

3.1

.9990

.9991

.9991

.9991

.9992

.9992

.9992

.9992

.9993

.9993

3.2

.9993

.9993

.9994

.9994

.9994

.9994

.9994

.9995

.9995

.9995

3.3

.9995

.9995

.9995

.9996

.9996

.9996

.9996

.9996

.9996

.9997

3.4

.9997

.9997

.9997

.9997

.9997

.9997

.9997

.9997

.9997

.9998

 

BIBLIOGRAFÍA

·         MC. ALLISTER. Elementos de Estadística en la economía y los negocios. Primera Edición.Ecasa. México D.F. 1987

·         KENNETH D. HPKINS, B.R. HPKINS, GENE V GLASS. Estadística Básica para las Ciencias Sociales y del Comportamiento.Tercera Edición. Ed. Prentice Hall. México D.F. 1997

·         P. ARMITAGE, G. BERRY, Estadística para la Investigación Biomédica. Doyma, Barcelona, 1992. 

·         MARTÍN ANDRÉS, J.D. LUNA DEL CASTILLO, Bioestadística para las Ciencias de la salud. Norma, México D.F. 1994

·         R.D. REMINGTON, M.A. SCHORK, Estadística Biométrica y Sanitaria. Prentice Hall International, México D.F., 1979.

·         STEEL, TORRIE, Bioestadística (Principios y Procedimientos). Mac Graw-Hill, México D.F., 1985.

·         M. TSOKOS, Estadística para Psicología y Ciencias de la Salud. Interamericana Mac Graw-Hill, México D.F., 1989.

·         S.L. WEINBERG, K.P. GOLDBERG, Estadística Básica para las Ciencias Sociales. Nueva Editorial Interamericana, Mexico, 1982.

BIBLIOGRAFÍA BÁSICA Y COMPLEMENTARIA

A.      Probabilidad y Estadística para Ingeniería  y Administración.HINES, WILLIAM, W. Y DOUGLAS C. MONTGOMERY.ED. CECSA 1986

B.      Estadística para Ingenieros.BOWKER ALBERT H. Y LIBERMAN GERALD J. ED. Prentice Hall Hispanoamericana 1981

C.      Mathematical Statistics.FREUND JHON E. Ed. Prentice Hall 2da. ed. 1971

D.      Probability and Statistics for EngineersWALPOLE, RONALD E. Y RAYMOND H. MYERS.ED. 2nd. ed. 1978 Capítulo 5

E.      Estadística Matemática ERWING KREYSZIG.ED. Limusa

F.      Estadística para Administración.WILLIAM J. STEVENSON  

G.     WALPOLE. Probabilidad y Estadísitica  para Ingenieros.Sexta Edición. Prentice Hall.

 

Autores

Alejandrina Ruby Hipólito Picazo

alejandrinarubih@yahoo.com.mx

Arturo Pérez Esparza

Lucero Daniela Hernández Adriano

danielahadriano@hotmail.com

Darío Castillo

Mónica Alejandra Zamago Grimaldo

Alejawie_z83@hotmail.com

Eduardo Hernández

Ruth Isaura Hernández Lara

suspira2veces@hotmail.com

Juan De Dios González Riquejo

Sonia Leticia Hernández Rodríguez

Sonia.hernandezrodriguez@alcoa.com

Juan Efrén Salas Cuellar

efrensalas@hotmail.com

Julio Antonio Sánchez Morales

julioshark84@hotmail.com

Luis Ángel Bibiano Martínez

Miguel Ángel Mayo

Miguel Ramírez Carvajal

Pablo López

plopez@c-sgroup.com

Raymundo Rocha De Luna

René Gerardo García Espinoza

rene_garcia000@hotmail.com

Uriel Zatarain González

Vicente Reyes Espino

Heriberto

3° Semestre de Ingeniería Industrial


Ing. Jorge Luis Ledezma

julioshark@prodigy.net.mx

 

Ciudad Acuña, Coahuila