+ - 0:00:00
Notes for current slide
Notes for next slide

Estadística IV

Kevin Carrasco & Daniela Olivares

María Fernanda Nuñez

Sociología - UAH

2do Sem 2024

estadisticaiv.netlify.com


Sesión 8: AFE y puntajes factoriales

1 / 53

Resumen hasta ahora

2 / 53

¿Por qué usar baterías de variables?

3 / 53

4 / 53

Preguntas y error de medición

  • Para medir hechos observables simples usualmente se utiliza una pregunta (ej: edad)

  • Fenómenos complejos se miden en general con más de una pregunta, con el objetivo de dar mejor cuenta del atributo (i.e. minimizar error de medición)

5 / 53

Análisis de indicadores en baterías

  1. Univariado: se sugiere presentar análisis descriptivos que contengan todos los indicadores para poder comparar frecuencias

(likert plot, sjPlot)

6 / 53

Análisis de indicadores en baterías

  Grado de acuerdo: Mujeres son mas
refinadas
Grado de acuerdo: Mujeres deberian ser
protegidas
Grado de acuerdo: Mujeres consiguen
privilegios en nombre de igualdad
Grado de acuerdo: Mujeres derrotadas se
quejan de discriminacion
Grado de acuerdo: Mujeres son mas
refinadas
       
Grado de acuerdo: Mujeres deberian ser
protegidas
0.364***      
Grado de acuerdo: Mujeres consiguen
privilegios en nombre de igualdad
0.224*** 0.199***    
Grado de acuerdo: Mujeres derrotadas se
quejan de discriminacion
0.183*** 0.163*** 0.453***  
Computed correlation used pearson-method with listwise-deletion.
7 / 53

Análisis de indicadores en baterías

  • Se podría asumir un concepto o dimensión subyacente a la batería de items

  • Para facilitar el avance en el análisis (por ejemplo, relacionar ese concepto subyacente con otras variables), muchas veces se reduce la batería a algún tipo de índice (sumativo/promedio)

  • ¿Podemos asegurar que los items están realmente midiendo lo mismo?

8 / 53

Correlaciones, baterías y dimensiones subyacentes

9 / 53

Entonces:

1. analizar la matriz de correlaciones antes de generar cualquiér técnica de reducción de información (ej: crear índice)

2. evaluar la posibilidad de generar algún tipo de índice que resuma la información

10 / 53

Matriz de correlaciones

Entonces:

  Grado de acuerdo: Mujeres son mas
refinadas
Grado de acuerdo: Mujeres deberian ser
protegidas
Grado de acuerdo: Mujeres consiguen
privilegios en nombre de igualdad
Grado de acuerdo: Mujeres derrotadas se
quejan de discriminacion
Grado de acuerdo: Mujeres son mas
refinadas
       
Grado de acuerdo: Mujeres deberian ser
protegidas
0.364***      
Grado de acuerdo: Mujeres consiguen
privilegios en nombre de igualdad
0.224*** 0.199***    
Grado de acuerdo: Mujeres derrotadas se
quejan de discriminacion
0.183*** 0.163*** 0.453***  
Computed correlation used pearson-method with listwise-deletion.
11 / 53

Alpha de Cronbach

12 / 53

Alpha de Cronbach

  • índice de consistencia interna de una batería

  • usualmente se reporta previo a a construcción de un índice

  • varía entre 0 y 1; valores más cercanos a 1 indican mayor consistencia

  • en general valores sobre 0.6 se consideran aceptables

  • más información aquí

12 / 53

Alpha de Cronbach

  • funcion alpha de la librería psych

  • se genera un objeto (lo llamaremos alpha). Contiene bastante información, por ahora nos enfocaremos solo en el valor de alpha (raw_alpha)

alpha <-psych::alpha(data)
alpha$total$raw_alpha
## [1] 0.5859888
13 / 53

Alpha de Cronbach

  • puntaje 0.58, por lo tanto bajo los valores aceptables de consistencia interna
14 / 53

Opciones

  • construcción de índices basados en la información de la matriz de correlaciones

  • análisis factorial

15 / 53

Construcción de índices

16 / 53

Índice promedio

  • vamos a generar 2 índices a partir de esta batería: uno para sexismo benevolente y otro para sexismo hostil.
17 / 53

Índice de sexismo (Promedio)

data <- cbind(data,
"benevolente_prom"=rowMeans(data %>%
dplyr::select(son_refinadas,ser_protegidas),
na.rm=TRUE))
data <- cbind(data,
"hostil_prom"=rowMeans(data %>%
dplyr::select(consiguen_privilegios,quejan_discriminacion),
na.rm=TRUE))
18 / 53

Sin embargo...

alpha <-
psych::alpha(dplyr::select(data,
son_refinadas,
ser_protegidas))
alpha$total$raw_alpha
## [1] 0.5204052
alpha <-
psych::alpha(dplyr::select(data,
consiguen_privilegios,
quejan_discriminacion))
alpha$total$raw_alpha
## [1] 0.6206947
19 / 53

Resumen índices

  • baterías y dimensiones subyacentes (latentes)

  • evaluación de consistencia interna (previo a construcción de índices)

  • índices y factores

20 / 53

Contenidos



1. Análisis factorial exploratorio

21 / 53

Variables latentes (1)

  • La mayor parte de las variables en el mundo social no son directamente observables. Esto las hace constructos hipotéticos latentes

  • La medición de variables latentes se realiza a partir de indicadores observables, tales como los ítems de una batería/ cuestionario

22 / 53

Variables latentes (2)

  • Lo latente puede ser entendido como la varianza compartida por diferentes indicadores observados

  • La medición de variables latentes se encuentra asociada al modelo de factor común (Thurstone) y al análisis factorial

23 / 53

Factor común

  • Cada indicador en un set de medidas observadas es una función lineal de uno o más factores comunes y un factor único

  • Como referencia podemos usar la teoría clásica de test (CTT), que divide el puntaje de los indicadores entre puntaje verdadero y error

24 / 53

Factor común

  • Cada indicador en un set de medidas observadas es una función lineal de uno o más factores comunes y un factor único

  • Como referencia podemos usar la teoría clásica de test (CTT), que divide el puntaje de los indicadores entre puntaje verdadero y error


X=T+E

Donde

  • X= puntaje observado,
  • T= puntaje verdadero, y
  • E= error
24 / 53

Modelo de factor común

  • La existencia de un solo ítem por constructo no permite aislar puntaje verdadero del error

  • Si existen más ítems, podemos estimar un análisis factorial y distinguir entre varianza común (compartida con otros indicadores) y varianza única (o error)

25 / 53

Análisis factorial

Es un método que permite:

  • identificar la varianza común a una serie de indicadores

  • establecer la contribución de cada indicador a la varianza común

  • estimar posteriormente un índice (puntaje factorial) para cada factor, con mayor precisión que un promedio bruto

26 / 53

Análisis factorial

  • Un factor es una variable no observada o latente que da cuenta de las correlaciones entre indicadores

  • los indicadores están correlacionados porque comparten una causa común - concepto de independencia condicional

  • El o los factores darían cuenta (i.e. causarían) de la covariación entre una serie de medidas observadas (indicadores)

27 / 53


Objetivos del análisis factorial








  • Teórico: relacionar datos con dimensiones latentes basadas en conceptos (validez de constructo)

  • Pragmático: hacer sentido de un conjunto de datos, reducción de dimensiones y obtención de puntajes

  • Metodológico: aislar el error (varianza única) de la varianza común

28 / 53

Alternativas en análisis factorial

  • exploratorio (EFA): Permite explorar las dimensiones que subyacen a una escala

  • confirmatorio (CFA): Permite confirmar las dimensiones que subyacen a una escala, aislando el error de medición en la estimación

29 / 53

Análisis factorial exploratorio (EFA)

  • Forma de análisis factorial donde se estiman la o las variables latentes a un conjunto de indicadores, sin una especificación previa de la estructura factorial.
30 / 53

Análisis factorial exploratorio (EFA)

  • Forma de análisis factorial donde se estiman la o las variables latentes a un conjunto de indicadores, sin una especificación previa de la estructura factorial.
  • Preguntas a responder:

    • ¿Cuántos factores subyacen a un conjunto de indicadores?

    • ¿Cómo se relacionan los indicadores con los factores?

    • ¿Cómo es la calidad del modelo estimado?

30 / 53

Características EFA


  • Basado en la matriz de correlaciones

  • Modelo estandarizado (varianza factores=1)

  • Diferentes métodos de extracción de factores

  • Determinación del número y "calidad" de las dimensiones (continuas) subyacentes a una escala

31 / 53

Ejemplo

## Parallel analysis suggests that the number of factors = 2 and the number of components = NA
Análisis factorial atribuciones de pobreza
  Factor 1 Factor 2 Communality
Grado de acuerdo: Mujeres son mas
refinadas
0.14 0.60 0.38
Grado de acuerdo: Mujeres deberian ser
protegidas
0.12 0.57 0.34
Grado de acuerdo: Mujeres consiguen
privilegios en nombre de igualdad
0.65 0.21 0.47
Grado de acuerdo: Mujeres derrotadas se
quejan de discriminacion
0.65 0.15 0.44
Total Communalities 1.63
Cronbach's α 0.62 0.52
32 / 53


Conceptos y parámetros






  • Factores: variables latentes que están a la base de las correlaciones entre los indicadores

  • Cargas factoriales: medida estandarizada de asociación (correlación) entre el indicador y la variable latente

  • Comunalidad: proporción del indicador que se asocia a factor(es) comun(es)

33 / 53


Conceptos y parámetros (2)




  • Varianza única (uniqueness): 1-comunalidad

  • Eigenvalues: medida de proporción de la varianza total correspondiente a cada uno de los factor (SS loadings)

  • Proporción de varianza explicada por el factor = eigenvalue / número de indicadores

34 / 53


Pasos en el análisis




  • Estimación de matriz de correlaciones

  • Extraccion de factores

  • Decisión sobre número de factores

  • Rotación

  • Interpretación y reporte

  • Obtención de puntajes factoriales

35 / 53


Pasos en el análisis




  • Estimación de matriz de correlaciones

  • Extraccion de factores

  • Decisión sobre número de factores

  • Rotación

  • Interpretación y reporte

  • Obtención de puntajes factoriales

36 / 53

Supuestos a evaluar

  • Nivel de medición de variables, normalidad (eventualmente test de normalidad multivariado, ej: Shapiro Wilk multivariado)

  • Test de adecuación muestal (KMO)

    • varía entre 0 y 1, contrasta si las correlaciones parciales entre las variables son pequeñas.

    • valores pequeños (menores a 0.5) indican que los datos no serían adecuados para EFA, ya que las correlaciones entre pares de variables no pueden ser explicadas por otras variables

37 / 53

Supuestos a evaluar (2)

  • Nivel de correlaciones de la matriz: test de esfericidad de Bartlett

    • se utiliza para evaluar la hipótesis que la matriz de correlaciones es una matriz identidad (en la diagonal=1 y bajo la diagonal=0)

    • se busca significación (p < 0.05), ya que se espera que las variables estén correlacionadas

38 / 53

Supuestos a evaluar (2)

  Grado de acuerdo: Mujeres son mas
refinadas
Grado de acuerdo: Mujeres deberian ser
protegidas
Grado de acuerdo: Mujeres consiguen
privilegios en nombre de igualdad
Grado de acuerdo: Mujeres derrotadas se
quejan de discriminacion
benevolente_prom hostil_prom
Grado de acuerdo: Mujeres son mas
refinadas
  0.364*** 0.224*** 0.183*** 0.863*** 0.238***
Grado de acuerdo: Mujeres deberian ser
protegidas
0.364***   0.199*** 0.163*** 0.784*** 0.212***
Grado de acuerdo: Mujeres consiguen
privilegios en nombre de igualdad
0.224*** 0.199***   0.453*** 0.257*** 0.842***
Grado de acuerdo: Mujeres derrotadas se
quejan de discriminacion
0.183*** 0.163*** 0.453***   0.210*** 0.863***
benevolente_prom 0.863*** 0.784*** 0.257*** 0.210***   0.273***
hostil_prom 0.238*** 0.212*** 0.842*** 0.863*** 0.273***  
Computed correlation used pearson-method with listwise-deletion.
39 / 53

Métodos de extracción

En el análisis factorial exploratorio (AFE), los métodos de extracción se refieren a las técnicas que se utilizan para determinar los factores/ variables latentes a las variables observadas. Los tres métodos principales son:

  • Factores principales

  • Factores principales iterados

  • Maximum likelihood

40 / 53

Métodos de extracción

  • Factores principales

Este es uno de los métodos más comunes para la extracción de factores. Se basa en la descomposición de la matriz de correlaciones para identificar los factores que explican la mayor cantidad de varianza compartida por las variables. Es útil cuando el objetivo es reducir la dimensionalidad manteniendo el máximo de información posible.

41 / 53

Métodos de extracción

  • Factores principales iterados:

Este método es una variante del anterior. Estima las comunalidades (la cantidad de varianza de cada variable explicada por los factores) iterativamente. Reemplaza los valores iniciales de las comunalidades en la matriz de correlaciones con las comunalidades estimadas a partir de los factor loadings (cargas factoriales) y repite el proceso hasta que se alcance una solución estable. Este método mejora la precisión de la estimación de los factores.

42 / 53

Métodos de extracción

  • Maximum likelihood:

Este método busca encontrar los parámetros del modelo que maximicen la probabilidad de que los datos observados sean replicados por el modelo factorial. Es útil cuando se quiere hacer inferencia estadística sobre los factores, ya que permite realizar pruebas de hipótesis y obtener intervalos de confianza para los factores y sus cargas. Es más robusto, pero requiere que los datos cumplan ciertos supuestos como normalidad multivariada.

43 / 53

Instrumentos y criterios de selección del número de factores

  • Criterio de Kaiser: eigenvalues (cantidad de varianza explicada por cada factor) mayores a 1

  • Scree plot (gráfico de sedimentación)

  • Análisis paralelo: comparación de eigenvalues de la muestra con eigenvalues de datos aleatorios. Nº apropiado de factores: numero de eigenvalues de los datos reales que son mayores que sus correspondientes eigenvalues de datos aleatorios

44 / 53

Screeplot y análisis paralelo

45 / 53

Tipos de rotación

  • Ortogonal: asume que los factores no se encuentran correlacionados

  • Oblicua: permite correlación entre factores

46 / 53

Puntajes factoriales

Los puntajes factoriales son “estimaciones” (predicciones) de puntajes en los factores para cada observación en los datos.

  • Estos puntajes pueden utilizarse en análisis posteriores

  • Se pueden calcular puntajes para cada observación en cada factor utilizando un método de regresión

  • Estas nuevas variables se estandarizan con media 0 y desviación estándar 1

47 / 53
## Factor Analysis using method = ml
## Call: fa(r = fa, nfactors = 2, scores = "regression", fm = "ml")
## Standardized loadings (pattern matrix) based upon correlation matrix
## ML1 ML2 h2 u2 com
## son_refinadas 0.01 0.62 0.38 0.62 1
## ser_protegidas -0.01 0.58 0.34 0.66 1
## consiguen_privilegios 0.67 0.03 0.47 0.53 1
## quejan_discriminacion 0.68 -0.03 0.44 0.56 1
##
## ML1 ML2
## SS loadings 0.90 0.72
## Proportion Var 0.23 0.18
## Cumulative Var 0.23 0.41
## Proportion Explained 0.56 0.44
## Cumulative Proportion 0.56 1.00
##
## With factor correlations of
## ML1 ML2
## ML1 1.00 0.47
## ML2 0.47 1.00
##
## Mean item complexity = 1
## Test of the hypothesis that 2 factors are sufficient.
##
## df null model = 6 with the objective function = 0.45 with Chi Square = 1522.89
## df of the model are -1 and the objective function was 0
##
## The root mean square of the residuals (RMSR) is 0
## The df corrected root mean square of the residuals is NA
##
## The harmonic n.obs is 3354 with the empirical chi square 0 with prob < NA
## The total n.obs was 3417 with Likelihood Chi Square = 0 with prob < NA
##
## Tucker Lewis Index of factoring reliability = 1.004
## Fit based upon off diagonal values = 1
## Measures of factor score adequacy
## ML1 ML2
## Correlation of (regression) scores with factors 0.80 0.75
## Multiple R square of scores with factors 0.64 0.56
## Minimum correlation of possible factor scores 0.28 0.13
48 / 53
## benevolente_prom hostil_prom ML1 ML2
## 1 4.5 4.0 0.62586434 0.65986183
## 2 4.5 3.5 0.25445615 0.67328242
## 3 4.5 4.0 0.62498033 0.69225511
## 4 3.5 3.5 -0.05380749 -0.36360884
## 5 4.0 4.0 0.53314791 0.22298473
## 6 4.0 4.0 0.53314791 0.22298473
## 7 4.0 3.0 -0.33161523 0.05429558
## 8 4.0 3.0 -0.33161523 0.05429558
## 9 4.0 4.0 0.53314791 0.22298473
## 10 4.0 3.0 -0.39347262 -0.01107631
49 / 53

Factor 1

## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## -2.80036 -0.45533 0.19260 0.00396 0.53315 1.64432 120

Factor 2

## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## -3.19764 -0.36361 0.13979 0.00049 0.45705 1.36319 120
50 / 53

Resumen

  • dimensiones subyacentes = factores

  • análisis factorial

    • relación entre indicadores y dimensiones
    • estimación de número de dimensiones probables subyacentes a batería
    • rotación
    • obtención de puntajes factoriales (índices ponderados)
51 / 53

Práctica análisis factorial exploratorio

https://estadisticaiv.netlify.app/practicos/07-content

52 / 53

Estadística IV

Kevin Carrasco & Daniela Olivares

María Fernanda Nuñez

Sociología - UAH

2do Sem 2024

estadisticaiv.netlify.com


Sesión 7: Análisis factorial exploratorio

53 / 53

Resumen hasta ahora

2 / 53
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow