lunes, 9 de noviembre de 2015

MEDIDAS DE TENDENCIA CENTRAL



La medidas de centralización nos indican en torno a qué valor (centro) se distribuyen los datos.

La medidas de centralización son:
Moda
La moda es el valor que tiene mayor frecuencia absoluta.

Se representa por Mo.

Se puede hallar la moda para variables cualitativas y cuantitativas.

Hallar la moda de la distribución:

2, 3, 3, 4, 4, 4, 5, 5 Mo= 4

Si en un grupo hay dos o varias puntuaciones con la misma frecuencia y esa frecuencia es la máxima, ladistribución es bimodal o multimodal, es decir, tiene varias modas.

1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9Mo= 1, 5, 9

Cuando todas las puntuaciones de un grupo tienen la misma frecuencia, no hay moda.

2, 2, 3, 3, 6, 6, 9, 9

Si dos puntuaciones adyacentes tienen la frecuencia máxima, la moda es el promedio de las dos puntuaciones adyacentes.

0, 1, 3, 3, 5, 5, 7, 8Mo = 4

Cálculo de la moda para datos agrupados
1º Todos los intervalos tienen la misma amplitud.



Li es el límite inferior de la clase modal.

fi es la frecuencia absoluta de la clase modal.

fi--1 es la frecuencia absoluta inmediatamente inferior a la en clase modal.

fi-+1 es la frecuencia absoluta inmediatamente posterior a la clase modal.

ai es la amplitud de la clase.

También se utiliza otra fórmula de la moda que da un valor aproximado de ésta:


Ejemplo

Calcular la moda de una distribución estadística que viene dada por la siguiente tabla:
fi
[60, 63) 5
[63, 66) 18
[66, 69) 42
[69, 72) 27
[72, 75) 8
100






2º Los intervalos tienen amplitudes distintas.

En primer lugar tenemos que hallar las alturas.



La clase modal es la que tiene mayor altura.




La fórmula de la moda aproximada cuando existen distintas amplitudes es:


Ejemplo

En la siguiente tabla se muestra las calificaciones (suspenso, aprobado, notable y sobresaliente) obtenidas por un grupo de 50 alumnos. Calcular la moda.
fihi
[0, 5) 15 3
[5, 7) 20 10
[7, 9) 12 6
[9, 10) 3 3
50






Mediana
Es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor.

La mediana se representa por Me.

La mediana se puede hallar sólo para variables cuantitativas.
Cálculo de la mediana

1 Ordenamos los datos de menor a mayor.

2 Si la serie tiene un número impar de medidas la mediana es la puntuación central de la misma.

2, 3, 4, 4, 5, 5, 5, 6, 6Me= 5

3 Si la serie tiene un número par de puntuaciones la mediana es la media entre las dos puntuaciones centrales.

7, 8, 9, 10, 11, 12Me= 9.5
Cálculo de la mediana para datos agrupados

La mediana se encuentra en el intervalo donde la frecuencia acumulada llega hasta la mitad de la suma de las frecuencias absolutas.

Es decir tenemos que buscar el intervalo en el que se encuentre .



Li es el límite inferior de la clase donde se encuentra la mediana.

es la semisuma de las frecuencias absolutas.

Fi-1 es la frecuencia acumulada anterior a la clase mediana.

ai es la amplitud de la clase.

La mediana es independiente de las amplitudes de los intervalos.
Ejemplo

Calcular la mediana de una distribución estadística que viene dada por la siguiente tabla:
fiFi
[60, 63) 5 5
[63, 66) 18 23
[66, 69) 42 65
[69, 72) 27 92
[72, 75) 8 100
100


100 / 2 = 50

Clase modal: [66, 69)



Media aritmética
La media aritmética es el valor obtenido al sumar todos los datos y dividir el resultado entre el número total dedatos.

es el símbolo de la media aritmética.




Ejemplo

Los pesos de seis amigos son: 84, 91, 72, 68, 87 y 78 kg. Hallar el peso medio.



Media aritmética para datos agrupados

Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la media es:




Ejercicio de media aritmética

En un test realizado a un grupo de 42 personas se han obtenido las puntuaciones que muestra la tabla. Calcula la puntuación media.
xifixi · fi
[10, 20) 15 1 15
[20, 30) 25 8 200
[30,40) 35 10 350
[40, 50) 45 9 405
[50, 60 55 8 440
[60,70) 65 4 260
[70, 80) 75 2 150
42 1 820




Propiedades de la media aritmética
1 La suma de las desviaciones de todas las puntuaciones de una distribución respecto a la media de la misma igual a cero.



Las suma de las desviaciones de los números 8, 3, 5, 12, 10 de su media aritmética 7.6 es igual a 0:

8 − 7.6 + 3 − 7.6 + 5 − 7.6 + 12 − 7.6 + 10 − 7.6 =

= 0. 4 − 4.6 − 2.6 + 4. 4 + 2. 4 = 0

2 La media aritmética de los cuadrados de las desviaciones de los valores de la variable con respecto a unnúmero cualquiera se hace mínima cuando dicho número coincide con la media aritmética.



3 Si a todos los valores de la variable se les suma un mismo número, la media aritmética queda aumentada en dicho número.

4 Si todos los valores de la variable se multiplican por un mismo número la media aritmética queda multiplicadapor dicho número.

Observaciones sobre la media aritmética

1 La media se puede hallar sólo para variables cuantitativas.

2 La media es independiente de las amplitudes de los intervalos.

3 La media es muy sensible a las puntuaciones extremas. Si tenemos una distribución con los siguientes pesos:

65 kg, 69kg , 65 kg, 72 kg, 66 kg, 75 kg, 70 kg, 110 kg.

La media es igual a 74 kg, que es una medida de centralización poco representativa de la distribución.

4 La media no se puede calcular si hay un intervalo con una amplitud indeterminada.
xifi

domingo, 8 de noviembre de 2015

GRÁFICAS PARA VARIABLES CUANTITATIVAS (INTERVALOS)

Histograma
Una variable continua puede tomar todos los valores comprendidos en un rango. Para clasificar los datos se cogen intervalos, a ser posible, de amplitud constante. Una vez ordenados los datos en una tabla podremos construir una gráfica que represente esos datos. 
La representación son rectángulos cuya área es proporcional a la frecuencia de cada modalidad, en el caso de que los intervalos que se tomen sean iguales, las alturas de los rectángulos se pueden tomar iguales a las frecuencias correspondientes.
  1. Histograma con intervalos constantes
    La esperanza de vida de un hombre al nacer viene dada por la tabla que se adjunta, como se observa los intervalos en que se divide son de amplitud constante, entonces se puede representar el histograma correspondiente tomando
    Periodo
    Esperanza de vida
    [1951,1956)58,60
    [1956,1960)63,75
    [1961,1966)66,51
    [1966,1971)67,67
    [1971,1976)68,42
    [1976,1981)69,69
    [1981,1986)71,97
    [1986,1991)72,58
    [1991,1996)73,19
    [1996,2000]74,20
    Histograma


    También se puede construir el histograma de las frecuencias acumuladas.

Polígono de frecuencias

Se obtiene uniendo con segmento los puntos de coordenadas (xi,ni)  en el caso en que tomemos las frecuencias absolutas, si fuesen las relativas cambiaríamos ni por f i

El número de habitantes por vivienda en Andalucia en 2001,según el Instituto Andaluz de Estadística, es el que se adjunta en la tabla, vamos a representar un poligono de frecuencias.
Nº ResidentesViviendas
1 persona444.390
2 personas551.618
3 personas477.622
4 personas573.254
5 personas244.544
6 personas81.973
7 personas26.793
8 personas9.989
9 personas3.712
10 o más personas3.284
Poligono de frecuencias
Por otro lado, al tratarse de un caracter cuantitativo podemos ordenar los datos y realizar una representación de los datos acumulados, en este caso tomamos Ni en lugar de ni

Poligonal acumulada.
Nº ResidentesViviendas acumuladas
1 persona444.390
2 personas996.008
3 personas1.473.630
4 personas2.046.884
5 personas2.291.428
6 personas2.373.401
7 personas2.400.194
8 personas2.410.183
9 personas2.413.895
10 o más personas2.417.179
Poligono de frecuencias acumuladas
Cuando las variables son continuas, utilizamos como diagramas diferenciales los histogramas y los polígonos de frecuencias.
Un histograma se construye a partir de la tabla estadística, representando sobre cada intervalo, un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos.
El polígono de frecuencias se construye fácilmente si tenemos representado previamente el histograma, ya que consiste en unir mediante lineas rectas los puntos del histograma que corresponden a las marcas de clase. Para representar el polígono de frecuencias en el primer y último intervalo, suponemos que adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia nula, y se unen por una línea recta los puntos del histograma que corresponden a sus marcas de clase. Obsérvese que de este modo, el polígono de frecuencias tiene en común con el histograma el que las áreas de la gráficas sobre un intervalo son idénticas. Veanse ambas gráficas diferenciales representadas en la parte superior de la figura 1.8.
El diagrama integral para una variable continua se denomina también polígono de frecuencias acumulado, y se obtiene como la poligonal definida en abcisas a partir de los extremos de los intervalos en los que hemos organizado la tabla de la variable, y en ordenadas por alturas que son proporcionales a las frecuencias acumuladas. Dicho de otro modo, el polígono de frecuencias absolutas es una primitiva del histograma. Véase la parte inferior de la figura 1.8, en la que se representa a modo de ilustración los diagramas correspondientes a la variable cuantitativa continua expresada en la tabla siguiente:


IntervalosciniNi 
0 -- 2122 
2 -- 4313 
4 -- 6547 
6 -- 87310 
8 - 109212 
  12  


  
Figura: Diagramas diferenciales e integrales para una variable continua.
\includegraphics[angle=0, width=0.5\textwidth]{fig01-08.epsi}

GRÁFICAS PARA VARIABLES CUANTITATIVAS (SERIES)

Diagrama de barras para variables cuantitativas discretas
El procedimiento a seguir es similar al del caso cualitativo, con la salvedad de que ahora podremos obtener también diagramas de barras acumulados, cosa que no era posible determinar en el caso cualitativo.
Consideremos el número de habitantes por vivienda en Andalucia en 2001,según el Instituto Andaluz de Estadística.
La variable número de habitantes es cuantitativa por tanto podemos ordenar sus modalidades y realizar un estudio acumulado.
Nº ResidentesViviendas
1 persona444.390
2 personas551.618
3 personas477.622
4 personas573.254
5 personas244.544
6 personas81.973
7 personas26.793
8 personas9.989
9 personas3.712
10 o más personas3.284
Nº ResidentesViviendas acumuladas
1 persona444.390
2 personas996.008
3 personas1.473.630
4 personas2.046.884
5 personas2.291.428
6 personas2.373.401
7 personas2.400.194
8 personas2.410.183
9 personas2.413.895
10 o más personas2.417.179


Variable Cuantitativa Discreta: gráfico de escalones.

Esta gráfica, se realiza para la variable discreta, con las frecuenciasacumuladas.
Pueden ser frecuencias absolutas o relativas, pero siempre acumuladas.
Se suele llamar gráfico de escalera, o escalones, por la forma cortada que va tomando, a medida que se van acumulando las frecuencias.
El corte se va produciendo, porque la variable es discreta, y solo toma valores puntuales, o sea exactos. No hay continuidad entre ellos.

CIRCULAR
Se toma un círculo y se divide en tantos sectores como clases tengamos, siendo el arco del círculo proporcional a las frecuencias absolutas (también lo podemos hacer con las frecuencias relativas o porcentajes)
Para determinar el arco circular que corresponde a cada clase relacionamos el total de observaciones con los 360º grados de la circunferencia. Los grados de cada clase vendrán dados por .
Ejemplo
Los resultados en la primera evaluación de un curso de Bachillerato son los siguientes:
aprobados1 suspenso2 suspensos3 suspensos4 o más
79853

GRÁFICAS PARA VARIABLES CUALITATIVAS

Diagrama de barras.

Para realizar esta representación tomamos el primer cuadrante de un sistema de coordenadas donde el eje de abscisas se corresponderá con las modalidades y el de ordenada con las frecuencias, éstas pueden ser absolutas o relativas. 
Veamos con un ejemplo como queda.

En una empresa se desea conocer el color de ojos de sus empleados, se observa a los 50 empleados y se obtienen los siguientes resultados: 

Color ojos
Empleados
Negros
14
Marrones
24
Verdes
4
Azules
8
El diagrama de barras asociado es:

En otras ocasiones tenemos los datos de dos variables y queremos representarlos en un mismo diagrama de barras para compararlos, lo más probable es que no haya el mismo número de observaciones en cada una de ellas, por lo que no sería acertado representar el diagrama de barras con las frecuencias absolutas, en este caso las frecuencias relativas son más adecuadas para su representación.
Dos  empresas estudian el estado civil de sus empleados con el siguiente resultado:




 CIRCULAR
Se toma un círculo y se divide en tantos sectores como clases tengamos, siendo el arco del círculo proporcional a las frecuencias absolutas (también lo podemos hacer con las frecuencias relativas o porcentajes)
Para determinar el arco circular que corresponde a cada clase relacionamos el total de observaciones con los 360º grados de la circunferencia. Los grados de cada clase vendrán dados por .

Ejemplo
Los resultados en la primera evaluación de un curso de Bachillerato son los siguientes:


aprobados1 suspenso2 suspensos3 suspensos4 o más
79853
Fuentes de contaminación acústica en Andalucía
Fuente: Consejería de Medio Ambiente

TABLAS PARA VARIABLES CUANTITATIVAS (INTERVALOS)

Tabla para variable cuantitativa continua
Una variable cuantitativa continua puede tomar todos los valores reales comprendidos entre un valor inicial y un final. Estos valores los vamos a agrupar en intervalos de la forma 
( l i , l i+1 ]. Diremos que x pertenece al intervalo ( l i , l i+1 ] si , como se puede observar el intervalo que hemos tomado es semicerrado por la derecha, normalmente los intervalos suelen ser semicerrados para tomar todos los valores posibles y evitar que un mismo valor pueda entrar en dos intervalos distintos.
Llamaremos amplitud de un intervalo ( ai ) a la distancia existente entre sus extremos, es decir, ai = l i+1 - l i. Para el cálculo de medidas de centralización y dispersión será necesario usar un representante de cada intervalo, a ese representante lo llamaremos marca de clase y será el punto medio del intervalo, esto es, .

La tabla de frecuencias para una variable cuantitativa continua tiene la siguiente estructura:
ModalidadMarca de claseF. AbsolutaF. RelativaPorcentajeF. Abs. Acumu.F. Rel. Acumu.
( l i , l i+1 ]xinipi=100 fi
Elección de intervalos para variables continuas 
A la hora de seleccionar los intervalos para las variables continuas, se plantean varios problemas como son el número de intervalos a elegir y sus tamaños.
El número de intervalos, k, a utilizar no está determinado de forma fija y por tanto tomaremos un k que nos permita trabajar cómodamente y ver bien la estructura de los datos; Como referencia nosotros tomaremos una de los siguientes valores aproximados:
  1. Si n es pequeño tomaremos como número de intervalos 
  2. Si en cambio n es grande tomaremos 
Por ejemplo si el número de observaciones que tenemos es n=100, un buen criterio es agrupar las observaciones en  intervalos. Sin embargo si tenemosn=1.000.000, será mas razonable elegir intervalos, que 
¿Cómo determinamos los intervalos?
  1. Tomemos el conjunto de datos y lo ordenamos de menor a mayor.
  2. Consideremos el rango de los datos, es decir, la diferencia entre el valor menor y mayor R = xmayor - x menor
  3. Determinamos k usando una de las dos fórmulas anteriormente expuesta, en función del número de datos.
  4. Vamos a considerar intervalos con igual amplitud, y ésta será . Puede que el valor que hemos determinado sea un número poco estético y sea más útil redondearlos, por ejemplo supongamos que a = 15.12654 tomaríamos a = 15, análogamente podemos hacer lo mismo con menor o xmayor.
  • Determinamos los extremos de los intervalos
    • l 0 = menor o l 0 = menor(redondeado).
    • l 1 = l 0 a
    • En general l i = l i-1 a

TABLA PARA VARIABLES CUANTITATIVAS (SERIES)

Tabla para variable cuantitativa discreta
En un centro de Educación secundara se pregunta a 40 alumnos por el número de hermanos que tienen, el resultado es el siguiente:

1,1,1,2,3,4,4,2,0,0,0,1,2,1,0,1,0,2,3,1,0,0,0,1,1,2,3,3,2,1,1,1,0,0,0,3,0,1,1,3
Ahora contamos, ordenamos los datos y construimos la tabla estadística.

  1. En la primara columna de la tabla colocaremos los distintos caracteres de la modalidad objeto de estudio ordenados de menor a mayor (esto será posible en los caracteres cuantitativos), en nuestro caso el número de hermanos.
  2. En la columna siguiente ponemos la frecuencia absoluta de cada carácter (contamos el número de veces que aparece cada valor). La suma de las frecuencias absolutas debe coincidir con el total de datos procesados.
  3. La tercera columna estará formada por las frecuencias relativas, cada frecuencia relativa se obtiene dividiendo la frecuencia absoluta correspondiente por el total de datos. La suma de todas las frecuencias relativas debe ser 1.
  4. En ocasiones se comprenden mejor los datos relativos dados en por ciento, para ello creamos una nueva columna en la que multiplicaremos las frecuencias relativas por 100, así tendremos el porcentaje de datos que se corresponden con dada modalidad.
  5. Finalmente crearemos dos columnas en las que reflejaremos las frecuencias absolutas y relativas acumuladas.
En nuestro ejemplo la tabla queda como sigue:
xinifipiNiFi
0120,330%120,3
1140,3535%260,65
260,1515%320,8
360,1515%380,95
420,055%401
 401100%  

TABLAS PARA VARIABLES CUALITATIVAS

Una tabla estadística sirve para presentar de forma ordenada las distribuciones de frecuencias. Su forma general es la siguiente:


ModalidadFrecuencia AbsolutaFrecuencia RelativaPorcentajeFrecuencia Absoluta AcumuladaFrecuencia Relativa Acumulada
ci, xinipi=100 fi

Tabla para variable cualitativa En el caso de variable cualitativa no se pueden calcular las frecuencias acumuladas pues no es posible establecer un orden en las clases dentro de la modalidad.Colocamos en la tabla aquellos valores que son independientes del lugar en que se pongan las modalidades.Calculemos la tabla de frecuencias para una variable cualitativa.Inactivos por tipos de inactividad declarada (miles de personas).


Modalidadnifipi
Estudiante522,60,138013,80%
Percibiendo una pensión de jubilación o unos ingresos de prejubilación712,30,188218,82%
Labores del hogar1.480,000,391039,10%
Incapacitado permanente265,90,07027,02%
Percibiendo una pensión distinta de la jubilación o prejubilación525,30,138813,88%
Otras situaciones279,50,07387,38%
 3785,61100,00%
FUENTE: IEA. Explotación de la Encuesta de Población Activa del INE (Metodología 20