

Para medir hechos observables simples usualmente se utiliza una pregunta (ej: edad)
Fenómenos complejos se miden en general con más de una pregunta, con el objetivo de dar mejor cuenta del atributo (i.e. minimizar error de medición)

(likert plot, sjPlot)
| Grado de acuerdo: Mujeres son mas refinadas |
Grado de acuerdo: Mujeres deberian ser protegidas |
Grado de acuerdo: Mujeres consiguen privilegios en nombre de igualdad |
Grado de acuerdo: Mujeres derrotadas se quejan de discriminacion |
|
|---|---|---|---|---|
| Grado de acuerdo: Mujeres son mas refinadas |
||||
| Grado de acuerdo: Mujeres deberian ser protegidas |
0.364*** | |||
| Grado de acuerdo: Mujeres consiguen privilegios en nombre de igualdad |
0.224*** | 0.199*** | ||
| Grado de acuerdo: Mujeres derrotadas se quejan de discriminacion |
0.183*** | 0.163*** | 0.453*** | |
| Computed correlation used pearson-method with listwise-deletion. | ||||
Se podría asumir un concepto o dimensión subyacente a la batería de items
Para facilitar el avance en el análisis (por ejemplo, relacionar ese concepto subyacente con otras variables), muchas veces se reduce la batería a algún tipo de índice (sumativo/promedio)
¿Podemos asegurar que los items están realmente midiendo lo mismo?
Entonces:
| Grado de acuerdo: Mujeres son mas refinadas |
Grado de acuerdo: Mujeres deberian ser protegidas |
Grado de acuerdo: Mujeres consiguen privilegios en nombre de igualdad |
Grado de acuerdo: Mujeres derrotadas se quejan de discriminacion |
|
|---|---|---|---|---|
| Grado de acuerdo: Mujeres son mas refinadas |
||||
| Grado de acuerdo: Mujeres deberian ser protegidas |
0.364*** | |||
| Grado de acuerdo: Mujeres consiguen privilegios en nombre de igualdad |
0.224*** | 0.199*** | ||
| Grado de acuerdo: Mujeres derrotadas se quejan de discriminacion |
0.183*** | 0.163*** | 0.453*** | |
| Computed correlation used pearson-method with listwise-deletion. | ||||
índice de consistencia interna de una batería
usualmente se reporta previo a a construcción de un índice
varía entre 0 y 1; valores más cercanos a 1 indican mayor consistencia
en general valores sobre 0.6 se consideran aceptables
más información aquí
funcion alpha de la librería psych
se genera un objeto (lo llamaremos alpha). Contiene bastante información, por ahora nos enfocaremos solo en el valor de alpha (raw_alpha)
alpha <-psych::alpha(data)alpha$total$raw_alpha
## [1] 0.5859888construcción de índices basados en la información de la matriz de correlaciones
análisis factorial
data <- cbind(data, "benevolente_prom"=rowMeans(data %>% dplyr::select(son_refinadas,ser_protegidas), na.rm=TRUE))data <- cbind(data, "hostil_prom"=rowMeans(data %>% dplyr::select(consiguen_privilegios,quejan_discriminacion), na.rm=TRUE))alpha <- psych::alpha(dplyr::select(data, son_refinadas, ser_protegidas))alpha$total$raw_alpha
## [1] 0.5204052alpha <- psych::alpha(dplyr::select(data, consiguen_privilegios, quejan_discriminacion))alpha$total$raw_alpha
## [1] 0.6206947baterías y dimensiones subyacentes (latentes)
evaluación de consistencia interna (previo a construcción de índices)
índices y factores
La mayor parte de las variables en el mundo social no son directamente observables. Esto las hace constructos hipotéticos latentes
La medición de variables latentes se realiza a partir de indicadores observables, tales como los ítems de una batería/ cuestionario
Lo latente puede ser entendido como la varianza compartida por diferentes indicadores observados
La medición de variables latentes se encuentra asociada al modelo de factor común (Thurstone) y al análisis factorial
Cada indicador en un set de medidas observadas es una función lineal de uno o más factores comunes y un factor único
Como referencia podemos usar la teoría clásica de test (CTT), que divide el puntaje de los indicadores entre puntaje verdadero y error
Cada indicador en un set de medidas observadas es una función lineal de uno o más factores comunes y un factor único
Como referencia podemos usar la teoría clásica de test (CTT), que divide el puntaje de los indicadores entre puntaje verdadero y error
X=T+E
Donde
La existencia de un solo ítem por constructo no permite aislar puntaje verdadero del error
Si existen más ítems, podemos estimar un análisis factorial y distinguir entre varianza común (compartida con otros indicadores) y varianza única (o error)

Es un método que permite:
identificar la varianza común a una serie de indicadores
establecer la contribución de cada indicador a la varianza común
estimar posteriormente un índice (puntaje factorial) para cada factor, con mayor precisión que un promedio bruto
Un factor es una variable no observada o latente que da cuenta de las correlaciones entre indicadores
los indicadores están correlacionados porque comparten una causa común - concepto de independencia condicional
El o los factores darían cuenta (i.e. causarían) de la covariación entre una serie de medidas observadas (indicadores)
Teórico: relacionar datos con dimensiones latentes basadas en conceptos (validez de constructo)
Pragmático: hacer sentido de un conjunto de datos, reducción de dimensiones y obtención de puntajes
Metodológico: aislar el error (varianza única) de la varianza común
exploratorio (EFA): Permite explorar las dimensiones que subyacen a una escala
confirmatorio (CFA): Permite confirmar las dimensiones que subyacen a una escala, aislando el error de medición en la estimación
Preguntas a responder:
¿Cuántos factores subyacen a un conjunto de indicadores?
¿Cómo se relacionan los indicadores con los factores?
¿Cómo es la calidad del modelo estimado?

Basado en la matriz de correlaciones
Modelo estandarizado (varianza factores=1)
Diferentes métodos de extracción de factores
Determinación del número y "calidad" de las dimensiones (continuas) subyacentes a una escala
## Parallel analysis suggests that the number of factors = 2 and the number of components = NA| Factor 1 | Factor 2 | Communality | |
|---|---|---|---|
| Grado de acuerdo: Mujeres son mas refinadas |
0.14 | 0.60 | 0.38 |
| Grado de acuerdo: Mujeres deberian ser protegidas |
0.12 | 0.57 | 0.34 |
| Grado de acuerdo: Mujeres consiguen privilegios en nombre de igualdad |
0.65 | 0.21 | 0.47 |
| Grado de acuerdo: Mujeres derrotadas se quejan de discriminacion |
0.65 | 0.15 | 0.44 |
| Total Communalities | 1.63 | ||
| Cronbach's α | 0.62 | 0.52 | |
Factores: variables latentes que están a la base de las correlaciones entre los indicadores
Cargas factoriales: medida estandarizada de asociación (correlación) entre el indicador y la variable latente
Comunalidad: proporción del indicador que se asocia a factor(es) comun(es)
Varianza única (uniqueness): 1-comunalidad
Eigenvalues: medida de proporción de la varianza total correspondiente a cada uno de los factor (SS loadings)
Proporción de varianza explicada por el factor = eigenvalue / número de indicadores
Estimación de matriz de correlaciones
Extraccion de factores
Decisión sobre número de factores
Rotación
Interpretación y reporte
Obtención de puntajes factoriales
Estimación de matriz de correlaciones
Extraccion de factores
Decisión sobre número de factores
Rotación
Interpretación y reporte
Obtención de puntajes factoriales
Nivel de medición de variables, normalidad (eventualmente test de normalidad multivariado, ej: Shapiro Wilk multivariado)
Test de adecuación muestal (KMO)
varía entre 0 y 1, contrasta si las correlaciones parciales entre las variables son pequeñas.
valores pequeños (menores a 0.5) indican que los datos no serían adecuados para EFA, ya que las correlaciones entre pares de variables no pueden ser explicadas por otras variables
Nivel de correlaciones de la matriz: test de esfericidad de Bartlett
se utiliza para evaluar la hipótesis que la matriz de correlaciones es una matriz identidad (en la diagonal=1 y bajo la diagonal=0)
se busca significación (p < 0.05), ya que se espera que las variables estén correlacionadas
| Grado de acuerdo: Mujeres son mas refinadas |
Grado de acuerdo: Mujeres deberian ser protegidas |
Grado de acuerdo: Mujeres consiguen privilegios en nombre de igualdad |
Grado de acuerdo: Mujeres derrotadas se quejan de discriminacion |
benevolente_prom | hostil_prom | |
|---|---|---|---|---|---|---|
| Grado de acuerdo: Mujeres son mas refinadas |
0.364*** | 0.224*** | 0.183*** | 0.863*** | 0.238*** | |
| Grado de acuerdo: Mujeres deberian ser protegidas |
0.364*** | 0.199*** | 0.163*** | 0.784*** | 0.212*** | |
| Grado de acuerdo: Mujeres consiguen privilegios en nombre de igualdad |
0.224*** | 0.199*** | 0.453*** | 0.257*** | 0.842*** | |
| Grado de acuerdo: Mujeres derrotadas se quejan de discriminacion |
0.183*** | 0.163*** | 0.453*** | 0.210*** | 0.863*** | |
| benevolente_prom | 0.863*** | 0.784*** | 0.257*** | 0.210*** | 0.273*** | |
| hostil_prom | 0.238*** | 0.212*** | 0.842*** | 0.863*** | 0.273*** | |
| Computed correlation used pearson-method with listwise-deletion. | ||||||
En el análisis factorial exploratorio (AFE), los métodos de extracción se refieren a las técnicas que se utilizan para determinar los factores/ variables latentes a las variables observadas. Los tres métodos principales son:
Factores principales
Factores principales iterados
Maximum likelihood
Este es uno de los métodos más comunes para la extracción de factores. Se basa en la descomposición de la matriz de correlaciones para identificar los factores que explican la mayor cantidad de varianza compartida por las variables. Es útil cuando el objetivo es reducir la dimensionalidad manteniendo el máximo de información posible.
Este método es una variante del anterior. Estima las comunalidades (la cantidad de varianza de cada variable explicada por los factores) iterativamente. Reemplaza los valores iniciales de las comunalidades en la matriz de correlaciones con las comunalidades estimadas a partir de los factor loadings (cargas factoriales) y repite el proceso hasta que se alcance una solución estable. Este método mejora la precisión de la estimación de los factores.
Este método busca encontrar los parámetros del modelo que maximicen la probabilidad de que los datos observados sean replicados por el modelo factorial. Es útil cuando se quiere hacer inferencia estadística sobre los factores, ya que permite realizar pruebas de hipótesis y obtener intervalos de confianza para los factores y sus cargas. Es más robusto, pero requiere que los datos cumplan ciertos supuestos como normalidad multivariada.
Criterio de Kaiser: eigenvalues (cantidad de varianza explicada por cada factor) mayores a 1
Scree plot (gráfico de sedimentación)
Análisis paralelo: comparación de eigenvalues de la muestra con eigenvalues de datos aleatorios. Nº apropiado de factores: numero de eigenvalues de los datos reales que son mayores que sus correspondientes eigenvalues de datos aleatorios
Ortogonal: asume que los factores no se encuentran correlacionados
Oblicua: permite correlación entre factores
Los puntajes factoriales son “estimaciones” (predicciones) de puntajes en los factores para cada observación en los datos.
Estos puntajes pueden utilizarse en análisis posteriores
Se pueden calcular puntajes para cada observación en cada factor utilizando un método de regresión
Estas nuevas variables se estandarizan con media 0 y desviación estándar 1
## Factor Analysis using method = ml## Call: fa(r = fa, nfactors = 2, scores = "regression", fm = "ml")## Standardized loadings (pattern matrix) based upon correlation matrix## ML1 ML2 h2 u2 com## son_refinadas 0.01 0.62 0.38 0.62 1## ser_protegidas -0.01 0.58 0.34 0.66 1## consiguen_privilegios 0.67 0.03 0.47 0.53 1## quejan_discriminacion 0.68 -0.03 0.44 0.56 1## ## ML1 ML2## SS loadings 0.90 0.72## Proportion Var 0.23 0.18## Cumulative Var 0.23 0.41## Proportion Explained 0.56 0.44## Cumulative Proportion 0.56 1.00## ## With factor correlations of ## ML1 ML2## ML1 1.00 0.47## ML2 0.47 1.00## ## Mean item complexity = 1## Test of the hypothesis that 2 factors are sufficient.## ## df null model = 6 with the objective function = 0.45 with Chi Square = 1522.89## df of the model are -1 and the objective function was 0 ## ## The root mean square of the residuals (RMSR) is 0 ## The df corrected root mean square of the residuals is NA ## ## The harmonic n.obs is 3354 with the empirical chi square 0 with prob < NA ## The total n.obs was 3417 with Likelihood Chi Square = 0 with prob < NA ## ## Tucker Lewis Index of factoring reliability = 1.004## Fit based upon off diagonal values = 1## Measures of factor score adequacy ## ML1 ML2## Correlation of (regression) scores with factors 0.80 0.75## Multiple R square of scores with factors 0.64 0.56## Minimum correlation of possible factor scores 0.28 0.13## benevolente_prom hostil_prom ML1 ML2## 1 4.5 4.0 0.62586434 0.65986183## 2 4.5 3.5 0.25445615 0.67328242## 3 4.5 4.0 0.62498033 0.69225511## 4 3.5 3.5 -0.05380749 -0.36360884## 5 4.0 4.0 0.53314791 0.22298473## 6 4.0 4.0 0.53314791 0.22298473## 7 4.0 3.0 -0.33161523 0.05429558## 8 4.0 3.0 -0.33161523 0.05429558## 9 4.0 4.0 0.53314791 0.22298473## 10 4.0 3.0 -0.39347262 -0.01107631## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's ## -2.80036 -0.45533 0.19260 0.00396 0.53315 1.64432 120## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's ## -3.19764 -0.36361 0.13979 0.00049 0.45705 1.36319 120dimensiones subyacentes = factores
análisis factorial
https://estadisticaiv.netlify.app/practicos/07-content

Keyboard shortcuts
| ↑, ←, Pg Up, k | Go to previous slide |
| ↓, →, Pg Dn, Space, j | Go to next slide |
| Home | Go to first slide |
| End | Go to last slide |
| Number + Return | Go to specific slide |
| b / m / f | Toggle blackout / mirrored / fullscreen mode |
| c | Clone slideshow |
| p | Toggle presenter mode |
| t | Restart the presentation timer |
| ?, h | Toggle this help |
| Esc | Back to slideshow |