Muestreo Aleatorio - Decisión Estadística

REPUBLICA BOLIVARIANA DE VENEZUELA

UNIVERSIDAD YACAMBU

CONTADURIA PÚBLICA

Autor: Heydi Cordero

Muestreo Aleatorio - Decisión Estadística

· Diferencia entre Estadística Descriptiva e Inferencial.

La estadística inferencial o inductiva. Sirve extrapolar los resultados obtenidos en el análisis de los datos y a partir de ello predecir acerca de la población, con un margen de confianza conocido. Se apoya fuertemente mediante el cálculo de probabilidades.

La estadística descriptiva o deductiva. Se construye a partir de los datos y la inferencia sobre la población no se puede realizar, al menos con una confianza determinada, la representación de la información obtenida de los datos se representa mediante el uso de unos cuantos parámetros, tablas y algunas graficas planteadas de tal forma que den importancia los mismos datos a través de parámetros que caractericen la distribución.

· Muestras y Población

Una muestra es un subconjuntos de datos tomados de la población, cuya finalidad es la de realizar inferencias acerca de la población a partir del comportamiento de sus elementos. Es claro que si la muestra es un subconjunto de la población entonces la muestra tendrá un número menor de elementos. La naturaleza de la muestra radica en la optimización de los recursos, por ejemplo, si deseamos hacer un estudio acerca de las lecturas que a los estudiantes de Michoacán les gusta leer, el estudio implicaría considerar a los estudiantes de lugares remotos, resultando difícil desde el punto de vista económico, sin embargo la estadística plantea métodos mediante los cuales con una elección adecuada del tamaño de muestra podemos predecir a partir de una muestra las preferencias que tienen los estudiantes acerca del tipo de lectura.

Una población es conjunto de elementos que tienen características comunes, al menos una. Por ejemplo, una población es el grupo de estudiantes de un país.

En el caso particular de la estadística la población constituye el objeto de estudio, es decir, la población es el conjunto de individuos o entes que constituyen el objeto de estudio sobre el que se desea predecir un comportamiento a partir del estudio.

· Técnicas de Muestreo

Muestreo probabilística: forman parte de este tipo de muestreo todos aquellos métodos para los que puede calcularse la probabilidad de extracción de cualquiera de las muestras posibles. Este conjunto de técnicas de muestreo es el más aconsejable, aunque en ocasiones no es posible optar por él. En este caso se habla de muestras probabilísticas, pues no es razonable hablar de muestras representativas dado que no conocemos las características de la población. El muestreo aleatorio simple puede ser de dos tipos:

Sin reposición de los elementos: cada elemento extraído se descarta para la subsiguiente extracción. Por ejemplo, si se extrae una muestra de una "población" de bombillas para estimar la vida media de las bombillas que la integran, no será posible medir más que una vez la bombilla seleccionada.

Con reposición de los elementos: las observaciones se realizan con reemplazamiento de los individuos, de forma que la población es idéntica en todas las extracciones. En poblaciones muy grandes, la probabilidad de repetir una extracción es tan pequeña que el muestreo puede considerarse sin reposición aunque, realmente, no lo sea.

Para realizar este tipo de muestreo, y en determinadas situaciones, es muy útil la extracción de números aleatorios mediante ordenadores, calculadoras o tablas construidas al efecto.

Muestreo estratificado

Consiste en la división previa de la población de estudio en grupos o clases que se suponen homogéneos respecto a característica a estudiar. A cada uno de estos estratos se le asignaría una cuota que determinaría el número de miembros del mismo que compondrán la muestra.

Según la cantidad de elementos de la muestra que se han de elegir de cada uno de los estratos, existen dos técnicas de muestreo estratificado:

· Asignación proporcional: el tamaño de cada estrato en la muestra es proporcional a su tamaño en la población.

· Asignación óptima: la muestra recogerá más individuos de aquellos estratos que tengan más variabilidad. Para ello es necesario un conocimiento previo de la población.

Por ejemplo, si existen k sub poblaciones y dejamos que N_i denote el tamaño de la sub población i, N denote el tamaño de la población total, y dejamos que n represente el tamaño de la muestra, y deje n denotar el tamaño de muestra, entonces seleccionamos una muestra estratificada siempre que escogemos:

n_i = n(N_i/N)

unidades aleatorias de la sub población i, donde i = 1,2, …. ,k.

El estimador es:

_s =  W_t. _t, sobre 1 , 2, .L (estratificado), y _t es X_it/n_t.

Su varianza es:

W²_t /(N_t-n_t)S²_t/[n_t(N_t-1)]

La población total T es estimada por N. _s; su varianza es:

N²_t(N_t-n_t)S²_t/[n_t(N_t-1)].

Muestreo sistemático

Se utiliza cuando el universo es de gran tamaño o ha de extenderse en el tiempo. Primero hay que identificar las unidades y relacionarlas con el calendario (cuando proceda). Luego hay que calcular una constante, que se denomina coeficiente de elevación K= N/n; donde N es el tamaño del universo y n el tamaño de la muestra. Determinar en qué fecha se producirá la primera extracción, para ello hay que elegir al azar un número entre 1 y K; de ahí en adelante tomar uno de cada K a intervalos regulares. Ocasionalmente, es conveniente tener en cuenta la periodicidad del fenómeno.

Muestreo por conglomerados

Cuando la población se encuentra dividida, de manera natural, en grupos que se suponen que contienen toda la variabilidad de la población, es decir, la representan fielmente respecto a la característica a elegir, pueden seleccionarse sólo algunos de estos grupos o conglomerados para la realización del estudio.

Dentro de los grupos seleccionados se ubicarán las unidades elementales, por ejemplo, las personas a encuestar, y podría aplicársele el instrumento de medición a todas las unidades, es decir, los miembros del grupo, o sólo se le podría aplicar a algunos de ellos, seleccionados al azar. Este método tiene la ventaja de simplificar la recogida de información muestral.

Cuando, dentro de cada conglomerado, se extraen los individuos que formarán parte de la muestra por m.a.s., el muestreo se llama bietápico.

Las ideas de estratificación y conglomerados son opuestas. El primer método funciona mejor cuanto más homogénea es la población respecto del estrato, aunque más diferentes son éstos entre sí. En el segundo, ocurre lo contrario. Los conglomerados deben presentar toda la variabilidad, aunque deben ser muy parecidos entre sí.

Muestreo Aleatorio es probablemente el método de muestreo más usado en la toma de decisiones de hoy en día. Muchas decisiones, por lo tanto, son escogiendo un número dentro de un sombrero o un grano de un barril, estos dos métodos son intentos para alcanzar una selección aleatoria de un conjunto de elementos. Pero, un verdadero muestreo aleatorio debe ser alcanzado con la ayuda de una computadora o de una tabla de números aleatorios de los cuales sus valores son generados por generadores de números aleatorios.

Un muestreo aleatorio de tamaño n es obtenido de una población de tamaño N. La estimación balanceada para la varianza de es:

Var() = S²(1-n/N)/n,

donde n /N la fracción de la muestra con respecto a la población. Para proporción de muestra menor a 10%, el factor de corrección para una población finita es (N-n)/ (N-1), el cual es casi 1.

El T total es estimado por N  , su varianza es N²Var().

Para variables tipo 0, 1 (binarias), variación en la proporción estimada p es:

S² = p(1-p)  (1-n/N)/(n-1).

Para el cociente r = x_i/y_i= / , la variación para r es:

[(N-n)(r²S²_x + S²_y -2 r Cov(x, y)]/[n(N-1)²].

Determinación del tamaño de la muestra (n) con referencia a datos binarios: Los integradores más pequeños que sean mas grandes o iguales a:

[t² N p(1-p)] / [t² p(1-p) + ² (N-1)],

de donde N es el tamaño total de números de casos, n el tamaño de la muestra,  el error esperado, t el valor obtenido de la distribución t correspondiente a un cierto intervalo de confianza, y p la probabilidad de un evento.

· Estadístico y Parámetro

Estadístico: variable aleatoria que sólo depende de la muestra aleatoria elegida para calcularla. Descripción resumida de una medida en la muestra seleccionada.

Estadístico de calidad. Es un estadístico similar al estadístico Z de la distribución normal, y que se calcula de igual forma, pues es la diferencia entre un valor x especificado y la media de la muestra dividida por la desviación estándar.

Estadístico inferior de calidad. Es el estadístico de calidad donde el valor de X es el límite inferior de especificación.

Estadístico superior de calidad. Es el estadístico de calidad conde el valor de x es le límite superior de especificación.

Una parámetro es una medida usada para describir alguna característica de una población, tal como una media aritmética, una mediana o una desviación estándar de una población.

Rodas O y otros, Teoría básica del muestreo. Disponible en www.monografias.com/trabajos11

Estimación acerca de los valores de un dato. // Valor real de la medida estadística correspondiente de toda población. Debe ser deducido de las estimaciones de la muestra elegida al azar que pueden ser medidas. // Valor que resume una serie particular de observaciones cuantitativas. // Valor calculado partiendo de una muestra para caracterizar el universo de donde ha sido tomada. // Es una constante en una ecuación que contiene dos o más variables por cada valor, de las cuales se da una curva determinada en un sistema de curvas (página 163).

Tamayo M (1999) Diccionario de investigación científica. México: Limusa.

Parámetros estadísticos. Son datos que resumen el estudio realizado en la población. Pueden ser de dos tipos:

Parámetros de centralización. Son datos que representan de forma global a toda la población. Entre ellos vamos a estudiar la media aritmética, la moda y la mediana.

Parámetros de dispersión. Son datos que informan de la concentración o dispersión de los datos respecto de los parámetros de centralización. Por ejemplo el recorrido, la desviación media, la varianza y la desviación típica.

Parámetros de centralización. Son datos que representan de forma global a toda la población. Por ejemplo, si hacemos un examen en la clase y queremos tener una idea global del resultado de dicho examen, ¿cómo lo podríamos hacer? Parece lógico que sumando todas las notas y dividiendo el resultado por el número de alumnos, es decir, lo que todos conocemos como calculando la media.

· Distribución en el Muestreo de la Media y Varianza

Una distribución de muestreo describe las probabilidades asociadas a un estadístico cuando una muestra aleatoria es dibujada de la población entera.

La distribución de muestreo es la densidad (para un estadístico continua, tal como una media estimada), o función de probabilidad (para estadístico discreto, tal como una proporción estimada).

La derivación de la distribución de muestreo es el primer paso para calcular un intervalo de confianza o para realizar una prueba de hipótesis a un parámetro.

Ejemplo: Suponga que x1,.......,xn son valores de una muestra simple escogida al azar de una población normalmente distribuida con el valor esperado: y varianza conocida ². Por lo tanto, la media muestral se distribuye normalmente con valor esperado y varianza ²/n.

Ejemplo de distribución muestral de medias: si de una población normal con varianza 4 se extrae una muestra aleatoria de tamaño 20 en la que se calcula se puede decir que  tiene una probabilidad de 0,95 de estar comprendida en el intervalo

que sería el intervalo de confianza al 95% para 

En general esto es poco útil, en los casos en que no se conoce  tampoco suele conocerse ²; en el caso más realista de ² desconocida los intervalos de confianza se construyen con la t de Student (otra fdp continua para la que hay tablas) en lugar de la z.

o, haciendo énfasis en que es el error estándar estimado de la media,

Este manera de construir los intervalos de confianza sólo es válido si la variable es normal. Cuando n es grande (>30) se puede sustituir t por z sin mucho error.

Distribución de Muestreo de la Media y la Varianza para Poblaciones Normales: Dado una variable aleatoria X que se distribuye normalmente con media  y desviación estándar , para una muestra escogida al azar del tamaño n:

o La distribución de muestreo de [ - ] n^½  , es la distribución normal estándar.

o La distribución de muestreo de [ - ]  n^½  S, es una distribución T con parámetro gl = n-1.

o La distribución de muestreo de [S²(n-1)  ²], es un ² es una distribución con parámetro gl = n-1.

o Para dos muestras independientes, la distribución de muestreo de [S ₁² / S₂²], la distribución de muestreo de gl₁ = n ₁-1, y gl₂= n ₂-1.

· Teorema Central del Limite

El teorema de límite central (TLC) es un “límite” que es “central” para prácticas estadísticas. Para propósitos prácticos, la idea principal del TLC es que el promedio (centro de datos) de una muestra de observaciones dibujadas de alguna población está distribuido aproximadamente como una distribución normal si se resuelven ciertas condiciones. En estadística teórica hay varias versiones del teorema de límite central dependiendo de cómo se especifican estas condiciones. Éstos se refieren a los tipos de condiciones hechas sobre la distribución de la población parientes (población de la cual la muestra es dibujada) y del procedimiento actual de muestreo.

Teorema: Sea $X 1$ , $X 2$ , ..., $X n$ una muestra aleatoria de una distribución con media μ y varianza σ². Entonces, si n es suficientemente grande, la variable aleatoria

$\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$

tiene aproximadamente una distribución normal con $\mu_{\bar X} = \mu$ y $\sigma^2_{\bar X}= \sigma^2/n$ .

También se cumple que si

${T_0}=\sum_{i=1}^{n}X_i$

tiene aproximadamente una distribución normal con $\mu_{T_0} = n\mu$ y $\sigma^2_{T_0} = n\sigma^2$ . Cuanto más grande sea el valor de n, mejor será la aproximación.

El Teorema del Límite Central garantiza una distribución normal cuando n es suficientemente grande.

Una de las versiones más simples del teorema de límite central indicada por muchos libros de textos es: si tomamos una muestra aleatoria de tamaño (n) de la población entera, entonces, el medio de la muestra el cual es una variable aleatoria se definida por:

x_i / n,

tiene un histograma que converge a la forma de una distribución normal si n es suficientemente grande. Equivalente, la distribución de la media muestral se acerca a la distribución normal mientras que el tamaño de muestra aumenta.

Resultado que asegura que la distribución de muestreo de la media se acerca a la normalidad cuando el tamaño de la muestra se incrementa, sin importar la forma de la distribución de la población de la que se selecciona la muestra.

· Estimación de Parámetros

Coeficientes correspondientes a los contrastes especificados (por defecto son las desviaciones respecto a la media total). Existe una estimación de parámetro para cada uno de los grados de libertad. Para cada estimación de parámetro se realiza una prueba de t bilateral.

· Estimación puntual y por Intervalos

Estimación puntual: Valor único calculado a partir de las observaciones muestrales que se utiliza como estimación del valor poblacional o parámetro.

Por ejemplo queremos estimar la nota media de los alumnos de bachiller en la asignatura de matemáticas que notaremos. Sea X la variable aleatoria que indica la nota obtenida por cada estudiante. Tomamos una muestra de tamaño n y denotamos la nota media de la muestra. Si al tomar una muestra de 100 estudiantes obtenemos que la media es 6´2, este número lo tomaríamos como estimativo de. Decimos que 6´2 es una estimación puntual de.

Un estimador puntual T de un parámetro es cualquier estadística que nos permita a partir de los datos muestrales obtener valores aproximados del parámetro.

Para indicar que T es un estimador del parámetro escribimos =T.

Con esto queremos decir que empleamos la expresión dada mediante T para obtener valores próximos al valor del parámetro.

Es muy probable que haya error cuando un parámetro es estimado. Es cierto que si el número de observaciones al azar se hace suficientemente grande, éstas proporcionarían un valor que casi sería semejante al parámetro; pero a menudo hay limitaciones de tiempo y de recursos y se tendrá que trabajar con unas cuántas observaciones. Para poder utilizar la información que se tenga de la mejor forma posible, se necesita identificar las estadísticas que sean “buenos” estimadores. Hay cuatro criterios que se suelen aplicar para determinar si una estadística es un buen estimador: Insesgamiento, eficiencia, consistencia y suficiencia.

· Estimación por intervalos.

Nos proponemos determinar dos números entre los cuales se halla el parámetro estudiado con cierta certeza.

El procedimiento para obtener un intervalo (de confianza) para un parámetro, la media, por ejemplo, requiere de la determinación de un estimador del parámetro y de la distribución del estimador.

Ejemplo

Tratamos de obtener un intervalo de confianza para la media de una población normal.

Sabemos que si X sigue una normal de media y varianza entonces la media muestral sigue una normal de la misma media y de varianza la varianza poblacional partida por n, tamaño de la muestra.

Vamos a determinar a y b tales que P[a< <b]=0´95.

Para calcular estos valores es necesario estandarizar X:

= 0´95.

Por lo tanto = 0´95.

En realidad hay infinitos pares de números para los que se cumple la ecuación anterior. De éstos vamos a escoger el par de números que se hallan situados simétricamente respecto de cero en la distribución normal. Llegamos a que y a partir de estas ecuaciones obtenemos a = y b = .

Con lo que obtendríamos o lo que es lo mismo el intervalo que se llama intervalo (aleatorio) de confianza.

A partir de los datos muestrales podemos determinar el valor de y obtenemos así un intervalo numérico. El valor 1´96 se debe a que pedíamos una probabilidad de 0´95. Para indicar el intervalo para cualquier valor de probabilidad podemos utilizar la expresión. Expresión que puede simplificarse. Que se llama longitud del intervalo.

Un intervalo de confianza para un parámetro es un intervalo construido alrededor del estimador del parámetro de tal manera que podemos esperar que el verdadero valor del parámetro quede incluido en dicho intervalo.

El nivel de confianza de un intervalo es una probabilidad(expresada en porcentaje) que representa la seguridad de que el intervalo encierra el verdadero valor del parámetro .

En el ejemplo el nivel de confianza es del 95%.En general el nivel de confianza se expresa en la forma 100(1- )%. (1- )=0´95. El valor representa la probabilidad de que el parámetro quede fuera del intervalo y en este caso es 0´5. Esta situación la representaremos en el siguiente gráfico:

Para cada nivel de confianza existe un valor de tabla ( normal, t , , F) asociado al nivel de confianza dado. Este valor se llama coeficiente de confiabilidad y se denota:

NORMAL	DISTRIBUCIÓN T	JI CUADRADO	DISTRIBUCIÓN F

Si queremos un intervalo con un nivel de confianza de 100(1- )%, en la tabla correspondiente buscaremos un valor de variable para el que el área de cola superior(también inferior) sea del 100(1- /2)% ya que la porción de área que no será cubierta por el intervalo debe tener una medida de tamaño y se toma como norma general de procedimiento que se reparta en partes iguales entre las dos colas.

Los tres conceptos básicos que encierra un intervalo quedan resumidos en la expresión general para un intervalo de confianza:

ESTIMADOR (COEF. DE CONF.) . (ERROR ESTÁNDAR)

Ejemplo:

Sea X la variable aleatoria que se utiliza para designar el peso de un pasajero de avión y que interesa conocer, el peso medio de todos los pasajeros. Para ello tomamos una muestra de 36 pasajeros y obtenemos una media muestral de 160 libras. Supongamos que la distribución de los pasajeros sea normal con desviación estándar 36. Calcula el intervalo del 95% de confianza...

El intervalo está dado por la expresión, reemplazamos los valores y obtenemos 160 (1´96).(30/6). Por lo tanto el intervalo pedido es: [150´2,169´8].

Si nos hubieran pedido un intervalo del 90% de confianza tendríamos 160 (1´645).(30/6). Y el intervalo pedido es [151´78,168´23].

Podríamos construir también un intervalo de confianza del 99% obteniendo 160 (2´575).(30/6). Y el intervalo sería [147´13,172´88].

Al observar los intervalos podemos notar que a medida que se aumenta el nivel de confianza la longitud del intervalo también aumenta como podemos ver en la figura.

Tenemos las siguientes propiedades sobre la longitud del intervalo:

PROPIEDAD 1. Para un tamaño de muestra y una varianza dada a medida que aumenta el nivel de confianza también lo hace la longitud del intervalo

PROPIEDAD 2. Para un nivel de confianza y una varianza dadas cuando el tamaño de la muestra aumenta la longitud del intervalo disminuye.

Estas propiedades se deducen de la expresión de la longitud del intervalo L= . Como podemos ver si la varianza se considera fija la fórmula está sujeta a dos números cuyas acciones se contraponen en cuanto a la longitud, el nivel de confianza y el tamaño de la muestra..

Para que un intervalo sea tomado en cuenta con algún interés, el nivel de confianza debe ser alto.

Suelen presentarse dos interpretaciones para un intervalo de confianza, una probabilísticay otra práctica. Veamos cómo son en el caso de la media:

Desde un punto de vista de la probabilidad se dice: “En el muestreo aleatorio simple de una población normal de media y varianza conocida, el
100(1- )% de todos los intervalos de la forma incluirá la media desconocida ”.

Aplicando esto al ejemplo anterior podemos decir que de 100 muestras de tamaño 36 que escojamos de los pasajeros del avión, 95 de ellas(aproximadamente) producirán intervalos que contendrán el verdadero peso promedio . O lo que es lo mismo, de 100 intervalos obtenidos por la fórmula anterior 95 de ellos contendrán el verdadero valor del parámetro.

De la interpretación probabilística se desprende la práctica que se establece así: ”Si se realiza un muestreo aleatorio simple en una población normal con media y varianza conocida , se tiene el 100(1- )% de confianza de que el intervalo particular contendrá el verdadero valor del parámetro desconocido ”

· Intervalos de confianza

Llamamos Intervalo de confianza al intervalo que con un cierto nivel de confianza, contiene al parámetro que se está estimando.

Intervalo de confianza para la media

De una población desconocemos la media  y deseamos estimarla a partir de la media x obtenida en una muestra de tamaño n

Sabemos que si la población es normal N(,) y extraemos de ella muestras de tamaño n, o sin ser la población normal es n>30,

La distribución muestral de medias es ,

por tanto si fijamos una probabilidad 1-, sabemos que la

es decir, el (1-)% de las x está a una distancia de  inferior a

Entonces para un nivel de confianza 1-,  pertenece al intervalo:

donde z__/2 es el llamado valor crítico, valor tal que P(-z__/2z z__/2)=1-, y x la media de la muestra.

Si la desviación típica de la población es desconocida, lo que suele ocurrir en la práctica, la aproximaremos por la de la muestra siempre que n>100.

Intervalo de confianza para la proporción

Si deseamos estimar la proporción p con que una determinada característica se da en una población, a partir de la proporción p' observada en una muestra de tamaño n, sabemos que:

la distribución muestral de proporciones sigue una distribución normal con q=1-p

Como la proporción p de la población es desconocida, se aproxima por la de la muestra siempre que n>100.

Entonces para un nivel de confianza 1-, p pertenece al intervalo:

· Error Probable

Es la mitad del ancho del intervalo y corresponde a la precisión del intervalo

· Calculo del tamaño de la muestra

El tamaño de la muestra depende del nivel de confianza que se desee para los resultados y de la amplitud del intervalo de confianza, es decir del error máximo que se esté dispuesto a admitir. Fijados estos, 1- y E, podemos calcular el tamaño mínimo de la muestra que emplearemos.

En el caso de estimar proporciones con lo que

El tamaño que debe tener la muestra depende del nivel de confianza propuesto, así como del máximo error que estemos dispuestos a admitir entre el valor estimado y el valorreal del parámetro que corresponde al error de estimación.

Veamos cómo se determinaría el tamaño de la muestra a partir de la consideración del nivel de confianza y del error de estimación cuando hacemos muestreo con repetición o en poblaciones infinitas.

Supongamos que d es el error de estimación (precisión) y el nivel de confianza es 100(1- ) para la estimación de la media de una población normal con varianza conocida, con estos datos formamos la ecuación d=

De esta ecuación, elevando al cuadrado obtenemos d²=Z²de esta ecuación despejamos nd²=Z²por lo tanton =. Esta fórmula nos permite obtener el tamaño de la muestra cuando tratamos de estimar un intervalo de confianza para la media con error de estimación y nivel de confianza dados.

El tamaño de la muestra depende de dos elementos básicos (supuesta dada la varianza) que hay que sopesar cuando se va a tomar una decisión al respecto; se trata del nivel de confianza y del error de estimación y tenemos:

1. El tamaño de la muestra aumenta a medida que aumenta el nivel de confianza para un error de estimación y una varianza dados.

2. El tamaño de la muestra aumenta a medida que disminuye el error de estimación para un nivel de confianza y varianza dados.

· Error Tipo I. Error Tipo II

Error tipo 1. Error que se presenta cuando los resultados de la muestra llevan al rechazo de la hipótesis nula que en realidad es verdadera. También se conoce como error alfa.

Error tipo 2. Error que se presenta cuando los resultados de la muestra llevan a la aceptación de la hipótesis nula que en realidad es falsa. También se conoce como error beta.

Error tipo I.- “Posible error al rechazar la hipótesis nula cuando en realidad es cierta. Su probabilidad se representa mediante la letra griega alfa. Como mínimo su valor ha de ser inferior a 0.05. Es decir, riesgo de equivocarnos en el 5% de los casos”.

Vallejo Ruiloba J y otros, “Introducción a la psicopatología y la psiquiatría”, Masson, Barcelona, 1999, 4° edición, pág 74.

Error tipo II.- “Posible error al aceptar la hipótesis nula. Su probabilidad se representa por beta. Su valor ha de ser inferior a 0,20, es decir, 20%”.

Vallejo Ruiloba J y otros, “Introducción a la psicopatología y la psiquiatría”, Masson, Barcelona, 1999, 4° edición, pág 74.

· Nivel de Significación.

El nivel de significación, representada por , es la probabilidad de cometer error tipo I, y por lo general se asume que tiene un valor de .05 ó .01. También puede ser interpretado como el área de la región que contiene todos los valores posibles donde la hipótesis nula es rechazada.

Valor que indica el porcentaje de valores de muestra que están fuera ce ciertos límites, suponiendo que la hipótesis nula es correcta, es decir, se trata de la probabilidad de rechazar la hipótesis nula cuando es cierta.

· Contraste de hipótesis

Suele utilizarse cuando se necesita conocer hasta qué punto una deferencia entre dos medidas es mayor de lo que cabe esperarse debido al azar, para muestras cuyo número de elementos es inferior a treinta (N 30). La prueba de significación t es eficiente cuando se comparan dos grupos y mediante dos situaciones básicas: 1) que los dos grupos sean independientes y 2) que los dos grupos se hallen relacionados.

El principio que rige la utilización de las pruebas de significación es la comparación del resultado empírico obtenido en la investigación, con lo que solo cabría esperar si se hubiere actuado al azar. Dicho principio se enuncia de la siguiente forma: todos los resultados son debidos al azar mientras no se demuestre lo contrario (página 173).

Tamayo M (1999) Diccionario de investigación científica. México: Limusa.

· Contraste sobre la diferencia de las medias de 2 muestras grandes.

Sean dos muestras aleatorias simples e obtenidas de dos poblaciones X e Y, con distribuciones respectivas N y N,y se supone que _X² _Y². Se desea contrastar

$H : m = m <==> m - m = 0 0 X Y X Y$

El estadístico de contraste que se utiliza es

$--X---Y----- d5 = V~ ^2 ^2 SX-+ SY- n m$

(1.18)

Si H₀ es cierto se verifica que

$d ~ t 5 g$

siendo g = n + m - 2 + , con un término de corrección

Contrastes sobre la diferencia de medias, muestreo apareado: En este caso las dos muestras aleatorias simples tienen igual tamaño muestral e y son obtenidas al realizar dos observaciones X_i e Y _i sobre el mismo individuo, el i-ésimo. Por la naturaleza del muestreo apareado las dos muestras son dependientes. Para eliminar este problema se estudia la variable diferencia Z = Y - X, por tanto, a partir de las dos muestras iniciales se calcula la muestra de diferencias , Z_i = X_i - Y_i. Para contrastar la hipótesis

$H0 : mX = mY <==> mX - mY = 0 <==> mZ = 0.$

Se utiliza el siguiente estadístico de contraste:

$d = -Z- V~ n. 6 ^SZ$

(1.19)

Si H₀ es cierto

$d6 ~ tn- 1.$

· Distribución T de Student.

La distribución t tiene las siguientes propiedades: es continua, tiene forma de campana y es simétrica respecto al cero como la distribución z, existe una familia de distribuciones t que comparten una media de cero pero con desviaciones estándar diferentes, la distribución t está más dispersa y es más plana en el centro que la distribución z, pero se acerca a ella cuando el tamaño de la muestra crece.

· Grados de Libertad

Número de valores de una muestra que podemos especificar libremente, después de que ya sabemos algo sobre dicha muestra.

Los grados de libertad se los utiliza para determinar el valor de la distribución que vas a utilizar para realizar una estimación de intervalo o para contrastar una hipótesis, por lo que una distribución con dos grados de libertad puede ser aplicada para cualquier número con tal de que el tercer número esté dado por la restricción de la fórmula

· Aplicaciones de los contrastes de Hipótesis

Los contrastes de hipótesis, como la inferencia estadística en general, son herramientas de amplio uso en la ciencia en general. En particular, la moderna Filosofía de la ciencia desarrolla el concepto de falsabilidad de las teorías científicas basándose en los conceptos de la inferencia estadística en general y de los contrastes de hipótesis. En este contexto, cuando se desea optar entre dos posibles teorías científicas para un mismo fenómeno (dos hipótesis) se debe realizar un contraste estadístico a partir de los datos disponibles sobre el fenómeno que permitan optar por una u otra.

Las técnicas de contraste de hipótesis son también de amplia aplicación en muchos otros casos, como ensayos clínicos de nuevos medicamentos, control de calidad, encuestas, etcétera.

INFOGRAFIA

http://dieumsnh.qfb.umich.mx/estadistica/glosario.htm

http://es.wikipedia.org/wiki/Muestreo_en_estad%C3%ADstica

http://www.hrc.es/bioest/Introducion_est.html

http://descartes.cnice.mecd.es/materiales_didacticos/inferencia_estadistica/estimac.htm

http://home.ubalt.edu/ntsbarsh/Business-stat/opre504S.htm

http://home.ubalt.edu/ntsbarsh/Business-stat/opre504S.htm#rwclt

http://www.cyta.com.ar/biblioteca/bddoc/bdlibros/guia_estadistica/modulo_10.htm

http://www.galeon.com/pcazau/402-voc-esta-meto.htm

http://www.so.ucr.ac.cr/Enlaces/Estadistica/problemas/Diccionario.html

http://www.estadistico.com/dic.html?PHPSESSID=ab5dfc1428f6ce908fa18384d611b5ba&q=aplicaciones+teorema+central+del+limite&mod=111

http://thales.cica.es/rd/Recursos/rd99/ed99-0018-04/MINTERVALOS.html