miércoles, 2 de diciembre de 2015
COEFICIENTE DE CORRELACIÓN DE PEARSON
En ocasiones nos puede interesar estudiar si existe o no algún tipo de relación entre dos
variables aleatorias. Así, por ejemplo, podemos preguntarnos si hay alguna relación entre las
notas de la asignatura Estadística I y las de Matemáticas I. Una primera aproximación al
problema consistiría en dibujar en el plano R2
un punto por cada alumno: la primera coordenada
de cada punto sería su nota en estadística, mientras que la segunda sería su nota en
matemáticas. Así, obtendríamos una nube de puntos la cual podría indicarnos visualmente la
existencia o no de algún tipo de relación (lineal, parabólica, exponencial, etc.) entre ambas notas.
Otro ejemplo, consistiría en analizar la facturación de una empresa en un periodo de tiempo dado y de cómo influyen los gastos de promoción y publicidad en dicha facturación. Si consideramos un periodo de tiempo de 10 años, una posible representación sería situar un punto por cada año de forma que la primera coordenada de cada punto sería la cantidad en euros invertidos en publicidad, mientras que la segunda sería la cantidad en euros obtenidos de su facturación. De esta manera, obtendríamos una nube de puntos que nos indicaría el tipo de relación existente entre ambas variables. En particular, nos interesa cuantificar la intensidad de la relación lineal entre dos variables. El parámetro que nos da tal cuantificación es el coeficiente de correlación lineal de Pearson r, cuyo valor oscila entre –1 y +1
EJEMPLOS:
Otro ejemplo, consistiría en analizar la facturación de una empresa en un periodo de tiempo dado y de cómo influyen los gastos de promoción y publicidad en dicha facturación. Si consideramos un periodo de tiempo de 10 años, una posible representación sería situar un punto por cada año de forma que la primera coordenada de cada punto sería la cantidad en euros invertidos en publicidad, mientras que la segunda sería la cantidad en euros obtenidos de su facturación. De esta manera, obtendríamos una nube de puntos que nos indicaría el tipo de relación existente entre ambas variables. En particular, nos interesa cuantificar la intensidad de la relación lineal entre dos variables. El parámetro que nos da tal cuantificación es el coeficiente de correlación lineal de Pearson r, cuyo valor oscila entre –1 y +1
Como se observa en los diagramas anteriores, el valor de r se aproxima a +1 cuando la
correlación tiende a ser lineal directa (mayores valores de X significan mayores valores de Y),
y se aproxima a –1 cuando la correlación tiende a ser lineal inversa.
Es importante notar que la existencia de correlación entre variables no implica causalidad.
¡Atención!: si no hay correlación de ningún tipo entre dos v.a., entonces tampoco habrá
correlación lineal, por lo que r = 0. Sin embargo, el que ocurra r = 0 sólo nos dice que no hay
correlación lineal, pero puede que la haya de otro tipo.
El siguiente diagrama resume el análisis del coeficiente de correlación entre dos variables:
lunes, 9 de noviembre de 2015
MEDIDAS DE POSICIÓN
Las medidas de posición dividen un conjunto de datos en grupos con el mismo número de individuos.
Para calcular las medidas de posición es necesario que los datos estén ordenados de menor a mayor.
La medidas de posición son:
Cuartiles
Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales.
Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos.
Q2 coincide con la mediana.
Cálculo de los cuartiles
1 Ordenamos los datos de menor a mayor.
2 Buscamos el lugar que ocupa cada cuartil mediante la expresión .
Número impar de datos
2, 5, 3, 6, 7, 4, 9
Número par de datos
2, 5, 3, 4, 6, 7, 1, 9
Cálculo de los cuartiles para datos agrupados
En primer lugar buscamos la clase donde se encuentra , en la tabla de las frecuencias acumuladas.
Li es el límite inferior de la clase donde se encuentra la mediana.
N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase.
Ejercicio de cuartiles
Calcular los cuartiles de la distribución de la tabla:
fiFi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110,
120) 2 65
65
Cálculo del primer cuartil
Cálculo del segundo cuartil
Cálculo del tercer cuartil
Deciles
Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales.
Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos.
D5 coincide con la mediana.
Cálculo de los deciles
En primer lugar buscamos la clase donde se encuentra , en la tabla de las frecuencias acumuladas.
Li es el límite inferior de la clase donde se encuentra la mediana.
N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase.
Ejercicio de deciles
Calcular los deciles de la distribución de la tabla:
fiFi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65
Cálculo del primer decil
Cálculo del segundo decil
Cálculo del tercer decil
Cálculo del cuarto decil
Cálculo del quinto decil
Cálculo del sexto decil
Cálculo del séptimo decil
Cálculo del octavo decil
Cálculo del noveno decil
Percentiles
Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales.
Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos.
P50 coincide con la mediana.
Cálculo de los percentiles
En primer lugar buscamos la clase donde se encuentra , en la tabla de las frecuencias acumuladas.
Li es el límite inferior de la clase donde se encuentra la mediana.
N es la suma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase.
Ejercicio de percentiles
Calcular el percentil 35 y 60 de la distribución de la tabla:
fiFi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65
Percentil 35
Percentil 60
RELACIÓN DE LA ESTADÍSTICA CON OTRAS CIENCIAS
"La estadística es una técnica especial apta para el estudio cuantitativo de los fenómenos de masa o colectivo, cuya mediación requiere una masa de observaciones de otros fenómenos más simples llamados individuales o particulares".
Murria R. Spiegel, (1991) dice: "La estadística estudia los métodos científicos para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis.
"La estadística es la ciencia que trata de la recolección, clasificación y presentación de los hechos sujetos a una apreciación numérica como base a la explicación, descripción y comparación de los fenómenos". (Yale y Kendal, 1954).
Cualquiera sea el punto de vista, lo fundamental es la importancia científica que tiene la estadística, debido al gran campo de aplicación que posee. La investigación en Psicología, Sociología y Educación, al igual que ocurre en otras ciencias, en buena medida se basa en el manejo de recursos estadísticos como elementos indispensables para llegar a conclusiones aceptables por el resto de la comunidad científica. Dada la peculiaridad de su objeto de estudio, inabordable en la mayoría de los casos si no es a través de perspectivas complejas de relación entre variables, la atención de los investigadores en las ciencias humanas y sociales se concentra cada vez más en la llamada Estadística Multivariante. Los diseños complejos de investigación y análisis, las aportaciones más recientes de la informática para la aplicación de técnicas avanzadas de manipulación de datos y la discusión de estos aspectos desde perspectivas teóricas y aplicadas, preocupan y concentran a multitud de profesionales cuyo quehacer cotidiano es el estudio de cómo se investiga, haciendo de ello su especialidad. Paralelamente, otras especialidades dentro de estas ciencias utilizan el conocimiento ya elaborado y retransmitido, preocupadas más por los resultados y posibilidades que por las condiciones de aplicación y el fundamentos de uso, de tal forma que se ha propiciado la utilización de las técnicas estadísticas, sin considerar la adecuación de éstas a las condiciones en las que se aplican.
A su vez, las ciencias sociales se han visto apabulladas en los últimos años por avances vertiginosos en informática y aplicaciones estadísticas (Manheim, 1982; Rossi y otros, 1983), y muy especialmente en la psicología (Judd y otros, 1995), lo que favorece una absorción de poca calidad por parte de los especialistas en áreas no metodológicas. Por otro lado, la adopción de procedimientos informáticos para realizar tareas metodológicas no parece ser una solución inmediata, considerando la ansiedad que generan los ordenadores, fenómeno muy generalizado (Fariña y Arce, 1993).
La fusión de esta creciente complicación de las herramientas de análisis, junto con la discrepancia entre los objetivos de formación y la necesidad de uso de los recursos estadísticos, consigue finalmente que el especialista en áreas aplicadas tienda a descuidar aspectos muy básicos, previos a la aplicación de estos recursos estadísticos complejos. Por otro lado, en muchas ocasiones, la aplicación de herramientas estadísticas se deja arrastrar por hipótesis de comodidad, en el sentido de aplicarse para permitir la ejecución de una prueba o el ajuste de un modelo, no porque son las estrategias más adecuadas, sino porque son las más cómodas
La física estadística o mecánica estadística es la parte de la física que trata de determinar el comportamiento agregado termodinámico de sistemas macroscópicos a partir de consideraciones microscópicas utilizando para ello herramientas estadísticas junto a leyes mecánicas.
La física estadística puede describir numerosos campos con una naturaleza estocástica (reacciones nucleares, sistemas biológicos, químicos, neurológicos, etc.).
La estadística industrial es la rama de la estadística que busca implementar los procesos probabilísticos y estadísticos de análisis e interpretación de datos o características de un conjunto de elementos al entorno industrial, a efectos de ayudar en la toma de decisiones y en el control de los procesos industriales y organizacionales.
La historia es la ciencia que tiene como objeto de estudio el pasado de la humanidad y como método el propio de las ciencias sociales.[1] Se denomina también historia al periodo histórico que transcurre desde la aparición de la escritura hasta la actualidad.
Es considerada "la ciencia de las ciencias" por englobar en su estudio multitud de otras ciencias, a priori sin relación a ella. Más allá de las acepciones propias de la ciencia histórica, historia en el lenguaje usual es la narración de cualquier suceso, incluso de sucesos imaginarios y de mentiras.[2] [3] En medicina se utiliza el concepto de historia clínica para el registro de datos sanitarios significativos de un paciente, que se remontan hasta su nacimiento o incluso a suherencia genética.
En la historia la estadística cumple una función primordial para poder ubicar en el tiempo y en el espacio cada uno de los acontecimientos desde la creación del universo.
La bioestadística, de forma general, es la aplicación de la estadística a la biología. Debido a que las cuestiones a investigar en biología son de naturaleza muy variada, por ejemplo, la medicina, ciencias agropecuarias y forestales, la bioestadística ha expandido sus dominios para incluir cualquier modelo cuantitativo, no sólo estadístico, que pueda ser usado para responder a estas necesidades.
La bioestadística puede ser considerada como una rama, altamente especializada, de la informática médica que puede ser, a su vez, complementada por la bioinformática.
Algunos campos de investigación usan la estadística tan extensamente que tienen terminología especializada. Estas disciplinas incluyen:
Ciencias actuariales
Física estadística
Estadística industrial
Estadística Espacial
Matemáticas Estadística
Estadística en Medicina
Estadística en Nutrición
Estadística en Agronomía
Estadística en Planificación
Estadística en Investigación
Estadística en Derecho
Estadística en Restauración de Obras
Estadística en Literatura
Estadística en Astronomía
Estadística en la Antropología (Antropometría)
Estadística en Historia
Estadística Militar
Geoestadística
Bioestadística
Estadísticas de Negocios
Estadística Computacional
Estadística en las Ciencias de la Salud
Investigación de Operaciones
Estadísticas de Consultoría
Estadística de la educación, la enseñanza, y la formación
Estadística en la comercialización o mercadotecnia
Cienciometría
Estadística del Medio Ambiente
Estadística en Epidemiología
Minería de datos (aplica estadística y reconocimiento de patrones para el conocimiento de datos)
Estadística económica (Econometría)
Estadística en Ingeniería
Geografía y Sistemas de información geográfica, más específicamente en Análisis espacial
Demografía
Estadística en psicología (Psicometría)
Calidad y productividad
Estadísticas sociales (para todas las ciencias sociales)
Cultura estadística
Encuestas por Muestreo
Análisis de procesos y quimiometría (para análisis de datos en química analítica e ingeniería química)
Estadísticas Deportivas
MEDIDAS DE DISPERSIÓN
Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de la distribución.
Las medidas de dispersión son:
Rango o recorrido
El rango es la diferencia entre el mayor y el menor de los datos de una distribución estadística.
Desviación media
La desviación respecto a la media es la diferencia entre cada valor de la variable estadística y la media aritmética.
Di = x - x
La desviación media es la media aritmética de los valores absolutos de las desviaciones respecto a la media.
La desviación media se representa por
Ejemplo
Calcular la desviación media de la distribución:
9, 3, 8, 8, 9, 8, 9, 18
Desviación media para datos agrupados
Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la desviación media es:
Ejemplo
Calcular la desviación media de la distribución:
xi
fi
xi · fi
|x - x|
|x - x| · fi
[10, 15)
12.5
3
37.5
9.286
27.858
[15, 20)
17.5
5
87.5
4.286
21.43
[20, 25)
22.5
7
157.5
0.714
4.998
[25, 30)
27.5
4
110
5.714
22.856
[30, 35)
32.5
2
65
10.174
21.428
21
457.5
98.57
Varianza
La varianza es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística.
La varianza se representa por .
Varianza para datos agrupados
Para simplificar el cálculo de la varianza vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.
Varianza para datos agrupados
Ejercicios de varianza
Calcular la varianza de la distribución:
9, 3, 8, 8, 9, 8, 9, 18
Calcular la varianza de la distribución de la tabla:
xi
fi
xi · fi
xi2 · fi
[10, 20)
15
1
15
225
[20, 30)
25
8
200
5000
[30,40)
35
10
350
12 250
[40, 50)
45
9
405
18 225
[50, 60
55
8
440
24 200
[60,70)
65
4
260
16 900
[70, 80)
75
2
150
11 250
42
1 820
88 050
Propiedades de la varianza
1 La varianza será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales.
2 Si a todos los valores de la variable se les suma un número la varianza no varía.
3 Si todos los valores de la variable se multiplican por un número la varianza queda multiplicada por elcuadrado de dicho número.
4 Si tenemos varias distribuciones con la misma media y conocemos sus respectivas varianzas se puede calcular lavarianza total.
Si todas las muestras tienen el mismo tamaño:
Si las muestras tienen distinto tamaño:
Observaciones sobre la varianza
1 La varianza, al igual que la media, es un índice muy sensible a las puntuaciones extremas.
2 En los casos que no se pueda hallar la media tampoco será posible hallar la varianza.
3 La varianza no viene expresada en las mismas unidades que los datos, ya que las desviaciones están elevadas al cuadrado.
Desviación típica
La desviación típica es la raíz cuadrada de la varianza.
Es decir, la raíz cuadrada de la media de los cuadrados de las puntuaciones de desviación.
La desviación típica se representa por σ.
Desviación típica para datos agrupados
Para simplificar el cálculo vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores.
Desviación típica para datos agrupados
Ejercicios de desviación típica
Calcular la desviación típica de la distribución:
9, 3, 8, 8, 9, 8, 9, 18
Calcular la desviación típica de la distribución de la tabla:
xi
fi
xi · fi
xi2 · fi
[10, 20)
15
1
15
225
[20, 30)
25
8
200
5000
[30,40)
35
10
350
12 250
[40, 50)
45
9
405
18 225
[50, 60)
55
8
440
24 200
[60,70)
65
4
260
16 900
[70, 80)
75
2
150
11 250
42
1 820
88 050
Propiedades de la desviación típica
1 La desviación típica será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales.
2 Si a todos los valores de la variable se les suma un número la desviación típica no varía.
3 Si todos los valores de la variable se multiplican por un número la desviación típica queda multiplicada por dicho número.
4 Si tenemos varias distribuciones con la misma media y conocemos sus respectivas desviaciones típicas se puede calcular la desviación típica total.
Si todas las muestras tienen el mismo tamaño:
Si las muestras tienen distinto tamaño:
Observaciones sobre la desviación típica
1 La desviación típica, al igual que la media y la varianza, es un índice muy sensible a las puntuaciones extremas.
2 En los casos que no se pueda hallar la media tampoco será posible hallar la desviación típica.
3 Cuanta más pequeña sea la desviación típica mayor será la concentración de datos alrededor de la media.
Suscribirse a:
Entradas (Atom)