+ - 0:00:00
Notes for current slide
Notes for next slide

Estadística IV

Kevin Carrasco & Daniela Olivares

María Fernanda Nuñez

Sociología - UAH

2do Sem 2024

estadisticaiv.netlify.com


Sesión 7: análisis factorial exploratorio

1 / 59

Resumen clase anterior

2 / 59

¿Por qué usar baterías de variables?

3 / 59

4 / 59

Preguntas y error de medición

  • Para medir hechos observables simples usualmente se utiliza una pregunta (ej: edad)

  • Fenómenos complejos se miden en general con más de una pregunta, con el objetivo de dar mejor cuenta del atributo (i.e. minimizar error de medición)

5 / 59

Baterías de indicadores múltiples

  • en general las encuestas suelen incluir varias preguntas respecto de un mismo tema -> baterías de indicadores múltiples
6 / 59

Baterías de indicadores múltiples

  • en general las encuestas suelen incluir varias preguntas respecto de un mismo tema -> baterías de indicadores múltiples

  • cubren distintos aspectos de un mismo fenómeno complejo que no se agota en solo un indicador -> minimiza error de medición

6 / 59

Baterías de indicadores múltiples

  • en general las encuestas suelen incluir varias preguntas respecto de un mismo tema -> baterías de indicadores múltiples

  • cubren distintos aspectos de un mismo fenómeno complejo que no se agota en solo un indicador -> minimiza error de medición

  • problema: ¿cómo se analizan indicadores que están relacionados?¿cómo se muestran los resultados?

6 / 59

Análisis de indicadores en baterías

  1. Univariado: se sugiere presentar análisis descriptivos que contengan todos los indicadores para poder comparar frecuencias

(likert plot, sjPlot)

7 / 59

Análisis de indicadores en baterías

  Razones pobreza falta de habilidad Razones pobreza mala suerte Razones pobreza falta de esfuerzo Razones pobreza sistema económico Razones pobreza sistema educativo
Razones pobreza falta de habilidad          
Razones pobreza mala suerte 0.318***        
Razones pobreza falta de esfuerzo 0.362*** 0.169***      
Razones pobreza sistema económico -0.028 0.028 -0.066*    
Razones pobreza sistema educativo -0.006 0.014 -0.020 0.594***  
Computed correlation used pearson-method with listwise-deletion.
8 / 59

Análisis de indicadores en baterías

  • Se podría asumir un concepto o dimensión subyacente a la batería de items

  • Para facilitar el avance en el análisis (por ejemplo, relacionar ese concepto subyacente con otras variables), muchas veces se reduce la batería a algún tipo de índice (sumativo/promedio)

  • ¿Podemos asegurar que los items están realmente midiendo lo mismo?

9 / 59

¿Miden lo mismo?

  • Cuando el atributo se mide con más de una pregunta, se puede intentar estimar la variable latente mediante índices o técnicas de análisis factorial
10 / 59

Medición y error

  • antes de agrupar indicadores en un índice hay que evaluar si los indicadores se encuentran relacionados

    • -> si miden constructos similares
    • -> si la medición es confiable
11 / 59


¿Cómo estimar el nivel de relación entre indicadores que miden un mismo constructo?

12 / 59


¿Cómo estimar el nivel de relación entre indicadores que miden un mismo constructo?

Distintas maneras, pero todas se basan en la técnica de la correlación

12 / 59

Correlaciones, baterías y dimensiones subyacentes

13 / 59

Entonces:

1. analizar la matriz de correlaciones antes de generar cualquiér técnica de reducción de información (ej: crear índice)

2. evaluar la posibilidad de generar algún tipo de índice que resuma la información

14 / 59

Matriz de correlaciones

Entonces:

  Razones pobreza falta de habilidad Razones pobreza mala suerte Razones pobreza falta de esfuerzo Razones pobreza sistema económico Razones pobreza sistema educativo
Razones pobreza falta de habilidad          
Razones pobreza mala suerte 0.318***        
Razones pobreza falta de esfuerzo 0.362*** 0.169***      
Razones pobreza sistema económico -0.028 0.028 -0.066*    
Razones pobreza sistema educativo -0.006 0.014 -0.020 0.594***  
Computed correlation used pearson-method with listwise-deletion.
15 / 59

Hacia la construcción de un índice

16 / 59

¿Qué es un índice?

17 / 59

¿Qué es un índice?

  • Es una medida estadística que permite agregar una o más variables de distinta naturaleza para sintetizar la parte esencial de la información contenida en un fenómeno.

  • Se utiliza para simplificar y resumir datos complejos en una forma más manejable y comprensible

17 / 59

Ejemplo índice no ponderado

18 / 59

Ejemplo índice ponderado

19 / 59

Alpha de Cronbach

20 / 59

Alpha de Cronbach

  • índice de consistencia interna de una batería

  • usualmente se reporta previo a a construcción de un índice

  • varía entre 0 y 1; valores más cercanos a 1 indican mayor consistencia

  • en general valores sobre 0.6 se consideran aceptables

  • más información aquí

20 / 59

Alpha de Cronbach

  • funcion alpha de la librería psych

  • se genera un objeto (lo llamaremos alpha). Contiene bastante información, por ahora nos enfocaremos solo en el valor de alpha (raw_alpha)

alpha <-psych::alpha(data)
## Some items ( falthab malasue faltesf ) were negatively correlated with the first principal component and
## probably should be reversed.
## To do this, run the function again with the 'check.keys=TRUE' option
alpha$total$raw_alpha
## [1] 0.4363206
21 / 59

Alpha de Cronbach

  • puntaje 0.43, por lo tanto bajo los valores aceptables de consistencia interna

  • esto ya se podía anticipar desde la matriz de correlaciones, que aparentemente mostraba dos dimensiones subyacentes a la batería

  • además, se genera un mensaje de advertencia sobre posibles items codificados a la inversa (dada la correlación entre items de dimensiones distintas)

22 / 59

Opciones

  • construcción de índices basados en la información de la matriz de correlaciones

  • análisis factorial

23 / 59

Construcción de índices

24 / 59

Índice promedio

  • vamos a generar 2 índices a partir de esta batería: uno para atribución interna (falthab,faltesf,malasue) y otro para externa (sisecon,siseduc)

  • tema valores perdidos:

    • para perder el mínimo de casos se recomienda realizar índice aún con casos que no hayan respondido algún item
    • ya que esto distorsionaría el puntaje si fuera sumado, se hace un índice promedio, especificando que se calcule aún con valores perdidos
25 / 59

Índice de atribución interna (Promedio)

data <- cbind(data,
"interna_prom"=rowMeans(data %>%
dplyr::select(falthab,faltesf,malasue),
na.rm=TRUE))
data <- cbind(data,
"externa_prom"=rowMeans(data %>%
dplyr::select(sisecon,siseduc),
na.rm=TRUE))
26 / 59
data %>% slice(11:15)
## falthab malasue faltesf sisecon siseduc interna_prom externa_prom
## 1 3 3 4 4 4 3.333333 4.0
## 2 2 1 4 4 4 2.333333 4.0
## 3 3 4 3 5 4 3.333333 4.5
## 4 4 3 2 NA 3 3.000000 3.0
## 5 1 1 3 3 2 1.666667 2.5
27 / 59

Sin embargo...

alpha <-
psych::alpha(dplyr::select(data,
falthab,
faltesf,
malasue))
alpha$total$raw_alpha
## [1] 0.5384986
alpha <-
psych::alpha(dplyr::select(data,
sisecon,
siseduc))
alpha$total$raw_alpha
## [1] 0.7434989
28 / 59

Resumen índices

  • baterías y dimensiones subyacentes (latentes)

  • evaluación de consistencia interna (previo a construcción de índices)

  • índices y factores

29 / 59

Contenidos



1. Análisis factorial exploratorio

30 / 59

Variables latentes (1)

  • La mayor parte de las variables en el mundo social no son directamente observables. Esto las hace constructos hipotéticos latentes

  • La medición de variables latentes se realiza a partir de indicadores observables, tales como los ítems de una batería/ cuestionario

31 / 59

Variables latentes (2)

  • Lo latente puede ser entendido como la varianza compartida por diferentes indicadores observados

  • La medición de variables latentes se encuentra asociada al modelo de factor común (Thurstone) y al análisis factorial

32 / 59

Factor común

  • Cada indicador en un set de medidas observadas es una función lineal de uno o más factores comunes y un factor único

  • Como referencia podemos usar la teoría clásica de test (CTT), que divide el puntaje de los indicadores entre puntaje verdadero y error

33 / 59

Factor común

  • Cada indicador en un set de medidas observadas es una función lineal de uno o más factores comunes y un factor único

  • Como referencia podemos usar la teoría clásica de test (CTT), que divide el puntaje de los indicadores entre puntaje verdadero y error


X=T+E

Donde

  • X= puntaje observado,
  • T= puntaje verdadero, y
  • E= error
33 / 59

Modelo de factor común

  • La existencia de un solo ítem por constructo no permite aislar puntaje verdadero del error

  • Si existen más ítems, podemos estimar un análisis factorial y distinguir entre varianza común (compartida con otros indicadores) y varianza única (o error)

34 / 59

Análisis factorial

Es un método que permite:

  • identificar la varianza común a una serie de indicadores

  • establecer la contribución de cada indicador a la varianza común

  • estimar posteriormente un índice (puntaje factorial) para cada factor, con mayor precisión que un promedio bruto

35 / 59

Análisis factorial

  • Un factor es una variable no observada o latente que da cuenta de las correlaciones entre indicadores

  • los indicadores están correlacionados porque comparten una causa común - concepto de independencia condicional

  • El o los factores darían cuenta (i.e. causarían) de la covariación entre una serie de medidas observadas (indicadores)

36 / 59


Objetivos del análisis factorial








  • Teórico: relacionar datos con dimensiones latentes basadas en conceptos (validez de constructo)

  • Pragmático: hacer sentido de un conjunto de datos, reducción de dimensiones y obtención de puntajes

  • Metodológico: aislar el error (varianza única) de la varianza común

37 / 59

Alternativas en análisis factorial

  • exploratorio (EFA): Permite explorar las dimensiones que subyacen a una escala

  • confirmatorio (CFA): Permite confirmar las dimensiones que subyacen a una escala, aislando el error de medición en la estimación

38 / 59

Análisis factorial exploratorio (EFA)

  • Forma de análisis factorial donde se estiman la o las variables latentes a un conjunto de indicadores, sin una especificación previa de la estructura factorial.
39 / 59

Análisis factorial exploratorio (EFA)

  • Forma de análisis factorial donde se estiman la o las variables latentes a un conjunto de indicadores, sin una especificación previa de la estructura factorial.
  • Preguntas a responder:

    • ¿Cuántos factores subyacen a un conjunto de indicadores?

    • ¿Cómo se relacionan los indicadores con los factores?

    • ¿Cómo es la calidad del modelo estimado?

39 / 59

Características EFA


  • Basado en la matriz de correlaciones

  • Modelo estandarizado (varianza factores=1)

  • Diferentes métodos de extracción de factores

  • Determinación del número y "calidad" de las dimensiones (continuas) subyacentes a una escala

40 / 59

Ejemplo Brown 2006 (Chap.2)

41 / 59

Ejemplo Brown 2006 (Chap.2)

42 / 59

Ejemplo

## Parallel analysis suggests that the number of factors = 2 and the number of components = NA
Análisis factorial atribuciones de pobreza
  Factor 1 Factor 2 Communality
Razones pobreza falta de habilidad -0.01 0.83 0.69
Razones pobreza falta de esfuerzo -0.06 0.43 0.19
Razones pobreza mala suerte 0.03 0.38 0.15
Razones pobreza sistema económico 1.00 -0.02 0.99
Razones pobreza sistema educativo 0.60 0.01 0.36
Total Communalities 2.37
Cronbach's α 0.75 0.54
43 / 59


Conceptos y parámetros






  • Factores: variables latentes que están a la base de las correlaciones entre los indicadores

  • Cargas factoriales: medida estandarizada de asociación (correlación) entre el indicador y la variable latente

  • Comunalidad: proporción del indicador que se asocia a factor(es) comun(es)

44 / 59


Conceptos y parámetros (2)




  • Varianza única (uniqueness): 1-comunalidad

  • Eigenvalues: medida de proporción de la varianza total correspondiente a cada uno de los factor (SS loadings)

  • Proporción de varianza explicada por el factor = eigenvalue / número de indicadores

45 / 59


Pasos en el análisis




  • Estimación de matriz de correlaciones

  • Extraccion de factores

  • Decisión sobre número de factores

  • Rotación

  • Interpretación y reporte

  • Obtención de puntajes factoriales

46 / 59

47 / 59

Supuestos a evaluar

  • Nivel de medición de variables, normalidad (eventualmente test de normalidad multivariado, ej: Shapiro Wilk multivariado)

  • Test de adecuación muestal (KMO)

    • varía entre 0 y 1, contrasta si las correlaciones parciales entre las variables son pequeñas.

    • valores pequeños (menores a 0.5) indican que los datos no serían adecuados para EFA, ya que las correlaciones entre pares de variables no pueden ser explicadas por otras variables

48 / 59

Supuestos a evaluar (2)

  • Nivel de correlaciones de la matriz: test de esfericidad de Bartlett

    • se utiliza para evaluar la hipótesis que la matriz de correlaciones es una matriz identidad (en la diagonal=1 y bajo la diagonal=0)

    • se busca significación (p < 0.05), ya que se espera que las variables estén correlacionadas

49 / 59

Métodos de extracción

En el análisis factorial exploratorio (AFE), los métodos de extracción se refieren a las técnicas que se utilizan para determinar los factores/ variables latentes a las variables observadas. Los tres métodos principales son:

  • Factores principales

  • Factores principales iterados

  • Maximum likelihood

50 / 59

Métodos de extracción

  • Factores principales

Este es uno de los métodos más comunes para la extracción de factores. Se basa en la descomposición de la matriz de correlaciones para identificar los factores que explican la mayor cantidad de varianza compartida por las variables. Es útil cuando el objetivo es reducir la dimensionalidad manteniendo el máximo de información posible.

51 / 59

Métodos de extracción

  • Factores principales iterados:

Este método es una variante del anterior. Estima las comunalidades (la cantidad de varianza de cada variable explicada por los factores) iterativamente. Reemplaza los valores iniciales de las comunalidades en la matriz de correlaciones con las comunalidades estimadas a partir de los factor loadings (cargas factoriales) y repite el proceso hasta que se alcance una solución estable. Este método mejora la precisión de la estimación de los factores.

52 / 59

Métodos de extracción

  • Maximum likelihood:

Este método busca encontrar los parámetros del modelo que maximicen la probabilidad de que los datos observados sean replicados por el modelo factorial. Es útil cuando se quiere hacer inferencia estadística sobre los factores, ya que permite realizar pruebas de hipótesis y obtener intervalos de confianza para los factores y sus cargas. Es más robusto, pero requiere que los datos cumplan ciertos supuestos como normalidad multivariada.

53 / 59

Instrumentos y criterios de selección del número de factores

  • Criterio de Kaiser: eigenvalues (cantidad de varianza explicada por cada factor) mayores a 1

  • Scree plot (gráfico de sedimentación)

  • Análisis paralelo: comparación de eigenvalues de la muestra con eigenvalues de datos aleatorios. Nº apropiado de factores: numero de eigenvalues de los datos reales que son mayores que sus correspondientes eigenvalues de datos aleatorios

54 / 59

Screeplot y análisis paralelo

55 / 59

Tipos de rotación

  • Ortogonal: asume que los factores no se encuentran correlacionados

  • Oblicua: permite correlación entre factores

56 / 59

Resumen

  • dimensiones subyacentes = factores

  • análisis factorial

    • relación entre indicadores y dimensiones
    • estimación de número de dimensiones probables subyacentes a batería
    • rotación
    • obtención de puntajes factoriales (índices ponderados)
57 / 59

Práctica análisis factorial exploratorio

https://estadisticaiv.netlify.app/practicos/06-content

58 / 59

Estadística IV

Kevin Carrasco & Daniela Olivares

María Fernanda Nuñez

Sociología - UAH

2do Sem 2024

estadisticaiv.netlify.com


Sesión 7: Análisis factorial exploratorio

59 / 59

Resumen clase anterior

2 / 59
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow