miércoles, 2 de diciembre de 2015

REGRESIÓN LINEAL






COEFICIENTE DE CORRELACIÓN DE PEARSON

En ocasiones nos puede interesar estudiar si existe o no algún tipo de relación entre dos variables aleatorias. Así, por ejemplo, podemos preguntarnos si hay alguna relación entre las notas de la asignatura Estadística I y las de Matemáticas I. Una primera aproximación al problema consistiría en dibujar en el plano R2 un punto por cada alumno: la primera coordenada de cada punto sería su nota en estadística, mientras que la segunda sería su nota en matemáticas. Así, obtendríamos una nube de puntos la cual podría indicarnos visualmente la existencia o no de algún tipo de relación (lineal, parabólica, exponencial, etc.) entre ambas notas.

Otro ejemplo, consistiría en analizar la facturación de una empresa en un periodo de tiempo dado y de cómo influyen los gastos de promoción y publicidad en dicha facturación. Si consideramos un periodo de tiempo de 10 años, una posible representación sería situar un punto por cada año de forma que la primera coordenada de cada punto sería la cantidad en euros invertidos en publicidad, mientras que la segunda sería la cantidad en euros obtenidos de su facturación. De esta manera, obtendríamos una nube de puntos que nos indicaría el tipo de relación existente entre ambas variables. En particular, nos interesa cuantificar la intensidad de la relación lineal entre dos variables. El parámetro que nos da tal cuantificación es el coeficiente de correlación lineal de Pearson r, cuyo valor oscila entre –1 y +1

Como se observa en los diagramas anteriores, el valor de r se aproxima a +1 cuando la correlación tiende a ser lineal directa (mayores valores de X significan mayores valores de Y), y se aproxima a –1 cuando la correlación tiende a ser lineal inversa. Es importante notar que la existencia de correlación entre variables no implica causalidad. ¡Atención!: si no hay correlación de ningún tipo entre dos v.a., entonces tampoco habrá correlación lineal, por lo que r = 0. Sin embargo, el que ocurra r = 0 sólo nos dice que no hay correlación lineal, pero puede que la haya de otro tipo. El siguiente diagrama resume el análisis del coeficiente de correlación entre dos variables:



 EJEMPLOS:


lunes, 9 de noviembre de 2015

MEDIDAS DE POSICIÓN




Las medidas de posición dividen un conjunto de datos en grupos con el mismo número de individuos.

Para calcular las medidas de posición es necesario que los datos estén ordenados de menor a mayor.

La medidas de posición son:
Cuartiles
Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales.

Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos.

Q2 coincide con la mediana.



Cálculo de los cuartiles

1 Ordenamos los datos de menor a mayor.

2 Buscamos el lugar que ocupa cada cuartil mediante la expresión .
Número impar de datos

2, 5, 3, 6, 7, 4, 9


Número par de datos

2, 5, 3, 4, 6, 7, 1, 9





Cálculo de los cuartiles para datos agrupados

En primer lugar buscamos la clase donde se encuentra , en la tabla de las frecuencias acumuladas.



Li es el límite inferior de la clase donde se encuentra la mediana.

N es la suma de las frecuencias absolutas.

Fi-1 es la frecuencia acumulada anterior a la clase mediana.

ai es la amplitud de la clase.



Ejercicio de cuartiles

Calcular los cuartiles de la distribución de la tabla:
fiFi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110,
120) 2 65
65

Cálculo del primer cuartil




Cálculo del segundo cuartil




Cálculo del tercer cuartil







Deciles

Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales.

Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos.

D5 coincide con la mediana.



Cálculo de los deciles

En primer lugar buscamos la clase donde se encuentra , en la tabla de las frecuencias acumuladas.



Li es el límite inferior de la clase donde se encuentra la mediana.

N es la suma de las frecuencias absolutas.

Fi-1 es la frecuencia acumulada anterior a la clase mediana.

ai es la amplitud de la clase.



Ejercicio de deciles

Calcular los deciles de la distribución de la tabla:
fiFi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65

Cálculo del primer decil




Cálculo del segundo decil




Cálculo del tercer decil




Cálculo del cuarto decil




Cálculo del quinto decil




Cálculo del sexto decil




Cálculo del séptimo decil




Cálculo del octavo decil




Cálculo del noveno decil







Percentiles

Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales.

Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos.

P50 coincide con la mediana.
Cálculo de los percentiles

En primer lugar buscamos la clase donde se encuentra , en la tabla de las frecuencias acumuladas.



Li es el límite inferior de la clase donde se encuentra la mediana.

N es la suma de las frecuencias absolutas.

Fi-1 es la frecuencia acumulada anterior a la clase mediana.

ai es la amplitud de la clase.



Ejercicio de percentiles

Calcular el percentil 35 y 60 de la distribución de la tabla:
fiFi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65

Percentil 35




Percentil 60

























RELACIÓN DE LA ESTADÍSTICA CON OTRAS CIENCIAS



"La estadística es una técnica especial apta para el estudio cuantitativo de los fenómenos de masa o colectivo, cuya mediación requiere una masa de observaciones de otros fenómenos más simples llamados individuales o particulares".

Murria R. Spiegel, (1991) dice: "La estadística estudia los métodos científicos para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis.



"La estadística es la ciencia que trata de la recolección, clasificación y presentación de los hechos sujetos a una apreciación numérica como base a la explicación, descripción y comparación de los fenómenos". (Yale y Kendal, 1954).




Cualquiera sea el punto de vista, lo fundamental es la importancia científica que tiene la estadística, debido al gran campo de aplicación que posee. La investigación en Psicología, Sociología y Educación, al igual que ocurre en otras ciencias, en buena medida se basa en el manejo de recursos estadísticos como elementos indispensables para llegar a conclusiones aceptables por el resto de la comunidad científica. Dada la peculiaridad de su objeto de estudio, inabordable en la mayoría de los casos si no es a través de perspectivas complejas de relación entre variables, la atención de los investigadores en las ciencias humanas y sociales se concentra cada vez más en la llamada Estadística Multivariante. Los diseños complejos de investigación y análisis, las aportaciones más recientes de la informática para la aplicación de técnicas avanzadas de manipulación de datos y la discusión de estos aspectos desde perspectivas teóricas y aplicadas, preocupan y concentran a multitud de profesionales cuyo quehacer cotidiano es el estudio de cómo se investiga, haciendo de ello su especialidad. Paralelamente, otras especialidades dentro de estas ciencias utilizan el conocimiento ya elaborado y retransmitido, preocupadas más por los resultados y posibilidades que por las condiciones de aplicación y el fundamentos de uso, de tal forma que se ha propiciado la utilización de las técnicas estadísticas, sin considerar la adecuación de éstas a las condiciones en las que se aplican.

A su vez, las ciencias sociales se han visto apabulladas en los últimos años por avances vertiginosos en informática y aplicaciones estadísticas (Manheim, 1982; Rossi y otros, 1983), y muy especialmente en la psicología (Judd y otros, 1995), lo que favorece una absorción de poca calidad por parte de los especialistas en áreas no metodológicas. Por otro lado, la adopción de procedimientos informáticos para realizar tareas metodológicas no parece ser una solución inmediata, considerando la ansiedad que generan los ordenadores, fenómeno muy generalizado (Fariña y Arce, 1993).

La fusión de esta creciente complicación de las herramientas de análisis, junto con la discrepancia entre los objetivos de formación y la necesidad de uso de los recursos estadísticos, consigue finalmente que el especialista en áreas aplicadas tienda a descuidar aspectos muy básicos, previos a la aplicación de estos recursos estadísticos complejos. Por otro lado, en muchas ocasiones, la aplicación de herramientas estadísticas se deja arrastrar por hipótesis de comodidad, en el sentido de aplicarse para permitir la ejecución de una prueba o el ajuste de un modelo, no porque son las estrategias más adecuadas, sino porque son las más cómodas

La física estadística o mecánica estadística es la parte de la física que trata de determinar el comportamiento agregado termodinámico de sistemas macroscópicos a partir de consideraciones microscópicas utilizando para ello herramientas estadísticas junto a leyes mecánicas.

La física estadística puede describir numerosos campos con una naturaleza estocástica (reacciones nucleares, sistemas biológicos, químicos, neurológicos, etc.).

La estadística industrial es la rama de la estadística que busca implementar los procesos probabilísticos y estadísticos de análisis e interpretación de datos o características de un conjunto de elementos al entorno industrial, a efectos de ayudar en la toma de decisiones y en el control de los procesos industriales y organizacionales.

La historia es la ciencia que tiene como objeto de estudio el pasado de la humanidad y como método el propio de las ciencias sociales.[1] Se denomina también historia al periodo histórico que transcurre desde la aparición de la escritura hasta la actualidad.

Es considerada "la ciencia de las ciencias" por englobar en su estudio multitud de otras ciencias, a priori sin relación a ella. Más allá de las acepciones propias de la ciencia histórica, historia en el lenguaje usual es la narración de cualquier suceso, incluso de sucesos imaginarios y de mentiras.[2] [3] En medicina se utiliza el concepto de historia clínica para el registro de datos sanitarios significativos de un paciente, que se remontan hasta su nacimiento o incluso a suherencia genética.

En la historia la estadística cumple una función primordial para poder ubicar en el tiempo y en el espacio cada uno de los acontecimientos desde la creación del universo.

La bioestadística, de forma general, es la aplicación de la estadística a la biología. Debido a que las cuestiones a investigar en biología son de naturaleza muy variada, por ejemplo, la medicina, ciencias agropecuarias y forestales, la bioestadística ha expandido sus dominios para incluir cualquier modelo cuantitativo, no sólo estadístico, que pueda ser usado para responder a estas necesidades.

La bioestadística puede ser considerada como una rama, altamente especializada, de la informática médica que puede ser, a su vez, complementada por la bioinformática.

Algunos campos de investigación usan la estadística tan extensamente que tienen terminología especializada. Estas disciplinas incluyen:


Ciencias actuariales


Física estadística


Estadística industrial


Estadística Espacial


Matemáticas Estadística


Estadística en Medicina


Estadística en Nutrición


Estadística en Agronomía


Estadística en Planificación


Estadística en Investigación


Estadística en Derecho


Estadística en Restauración de Obras


Estadística en Literatura


Estadística en Astronomía


Estadística en la Antropología (Antropometría)


Estadística en Historia


Estadística Militar


Geoestadística


Bioestadística


Estadísticas de Negocios


Estadística Computacional


Estadística en las Ciencias de la Salud


Investigación de Operaciones


Estadísticas de Consultoría


Estadística de la educación, la enseñanza, y la formación


Estadística en la comercialización o mercadotecnia


Cienciometría


Estadística del Medio Ambiente


Estadística en Epidemiología


Minería de datos (aplica estadística y reconocimiento de patrones para el conocimiento de datos)


Estadística económica (Econometría)


Estadística en Ingeniería


Geografía y Sistemas de información geográfica, más específicamente en Análisis espacial


Demografía


Estadística en psicología (Psicometría)


Calidad y productividad


Estadísticas sociales (para todas las ciencias sociales)


Cultura estadística


Encuestas por Muestreo


Análisis de procesos y quimiometría (para análisis de datos en química analítica e ingeniería química)


Estadísticas Deportivas


MEDIDAS DE DISPERSIÓN



Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de la distribución.


Las medidas de dispersión son:
Rango o recorrido


El rango es la diferencia entre el mayor y el menor de los datos de una distribución estadística.
Desviación media


La desviación respecto a la media es la diferencia entre cada valor de la variable estadística y la media aritmética.


Di = x - x


La desviación media es la media aritmética de los valores absolutos de las desviaciones respecto a la media.


La desviación media se representa por




Ejemplo


Calcular la desviación media de la distribución:


9, 3, 8, 8, 9, 8, 9, 18







Desviación media para datos agrupados


Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la desviación media es:




Ejemplo


Calcular la desviación media de la distribución:





xi 

fi 

xi · fi 

|x - x| 

|x - x| · fi 


[10, 15) 

12.5 


37.5 

9.286 

27.858 


[15, 20) 

17.5 


87.5 

4.286 

21.43 


[20, 25) 

22.5 


157.5 

0.714 

4.998 


[25, 30) 

27.5 


110 

5.714 

22.856 


[30, 35) 

32.5 


65 

10.174 

21.428 






21 

457.5 



98.57 








Varianza


La varianza es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística.


La varianza se representa por .


Varianza para datos agrupados




Para simplificar el cálculo de la varianza vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.


Varianza para datos agrupados


Ejercicios de varianza


Calcular la varianza de la distribución:


9, 3, 8, 8, 9, 8, 9, 18









Calcular la varianza de la distribución de la tabla:





xi

fi

xi · fi

xi2 · fi 


[10, 20) 

15 


15 

225 


[20, 30) 

25 


200 

5000 


[30,40) 

35 

10 

350 

12 250 


[40, 50) 

45 


405 

18 225 


[50, 60 

55 


440 

24 200 


[60,70) 

65 


260 

16 900 


[70, 80) 

75 


150 

11 250 






42 

1 820 

88 050 








Propiedades de la varianza


1 La varianza será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales.


2 Si a todos los valores de la variable se les suma un número la varianza no varía.


3 Si todos los valores de la variable se multiplican por un número la varianza queda multiplicada por elcuadrado de dicho número.


4 Si tenemos varias distribuciones con la misma media y conocemos sus respectivas varianzas se puede calcular lavarianza total.


Si todas las muestras tienen el mismo tamaño:




Si las muestras tienen distinto tamaño:





Observaciones sobre la varianza


1 La varianza, al igual que la media, es un índice muy sensible a las puntuaciones extremas.


2 En los casos que no se pueda hallar la media tampoco será posible hallar la varianza.


3 La varianza no viene expresada en las mismas unidades que los datos, ya que las desviaciones están elevadas al cuadrado.



Desviación típica


La desviación típica es la raíz cuadrada de la varianza.


Es decir, la raíz cuadrada de la media de los cuadrados de las puntuaciones de desviación.


La desviación típica se representa por σ.


Desviación típica para datos agrupados




Para simplificar el cálculo vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.


Desviación típica para datos agrupados


Ejercicios de desviación típica


Calcular la desviación típica de la distribución:


9, 3, 8, 8, 9, 8, 9, 18






Calcular la desviación típica de la distribución de la tabla:





xi

fi

xi · fi

xi2 · fi 


[10, 20) 

15 


15 

225 


[20, 30) 

25 


200 

5000 


[30,40) 

35 

10 

350 

12 250 


[40, 50) 

45 


405 

18 225 


[50, 60) 

55 


440 

24 200 


[60,70) 

65 


260 

16 900 


[70, 80) 

75 


150 

11 250 






42 

1 820 

88 050 








Propiedades de la desviación típica


1 La desviación típica será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales.


2 Si a todos los valores de la variable se les suma un número la desviación típica no varía.


3 Si todos los valores de la variable se multiplican por un número la desviación típica queda multiplicada por dicho número.


4 Si tenemos varias distribuciones con la misma media y conocemos sus respectivas desviaciones típicas se puede calcular la desviación típica total.


Si todas las muestras tienen el mismo tamaño:




Si las muestras tienen distinto tamaño:





Observaciones sobre la desviación típica


1 La desviación típica, al igual que la media y la varianza, es un índice muy sensible a las puntuaciones extremas.


2 En los casos que no se pueda hallar la media tampoco será posible hallar la desviación típica.


3 Cuanta más pequeña sea la desviación típica mayor será la concentración de datos alrededor de la media.