

Para medir hechos observables simples usualmente se utiliza una pregunta (ej: edad)
Fenómenos complejos se miden en general con más de una pregunta, con el objetivo de dar mejor cuenta del atributo (i.e. minimizar error de medición)
en general las encuestas suelen incluir varias preguntas respecto de un mismo tema -> baterías de indicadores múltiples
cubren distintos aspectos de un mismo fenómeno complejo que no se agota en solo un indicador -> minimiza error de medición
en general las encuestas suelen incluir varias preguntas respecto de un mismo tema -> baterías de indicadores múltiples
cubren distintos aspectos de un mismo fenómeno complejo que no se agota en solo un indicador -> minimiza error de medición
problema: ¿cómo se analizan indicadores que están relacionados?¿cómo se muestran los resultados?
(likert plot, sjPlot)
| Razones pobreza falta de habilidad | Razones pobreza mala suerte | Razones pobreza falta de esfuerzo | Razones pobreza sistema económico | Razones pobreza sistema educativo | |
|---|---|---|---|---|---|
| Razones pobreza falta de habilidad | |||||
| Razones pobreza mala suerte | 0.318*** | ||||
| Razones pobreza falta de esfuerzo | 0.362*** | 0.169*** | |||
| Razones pobreza sistema económico | -0.028 | 0.028 | -0.066* | ||
| Razones pobreza sistema educativo | -0.006 | 0.014 | -0.020 | 0.594*** | |
| Computed correlation used pearson-method with listwise-deletion. | |||||
Se podría asumir un concepto o dimensión subyacente a la batería de items
Para facilitar el avance en el análisis (por ejemplo, relacionar ese concepto subyacente con otras variables), muchas veces se reduce la batería a algún tipo de índice (sumativo/promedio)
¿Podemos asegurar que los items están realmente midiendo lo mismo?


antes de agrupar indicadores en un índice hay que evaluar si los indicadores se encuentran relacionados
Entonces:
| Razones pobreza falta de habilidad | Razones pobreza mala suerte | Razones pobreza falta de esfuerzo | Razones pobreza sistema económico | Razones pobreza sistema educativo | |
|---|---|---|---|---|---|
| Razones pobreza falta de habilidad | |||||
| Razones pobreza mala suerte | 0.318*** | ||||
| Razones pobreza falta de esfuerzo | 0.362*** | 0.169*** | |||
| Razones pobreza sistema económico | -0.028 | 0.028 | -0.066* | ||
| Razones pobreza sistema educativo | -0.006 | 0.014 | -0.020 | 0.594*** | |
| Computed correlation used pearson-method with listwise-deletion. | |||||
Es una medida estadística que permite agregar una o más variables de distinta naturaleza para sintetizar la parte esencial de la información contenida en un fenómeno.
Se utiliza para simplificar y resumir datos complejos en una forma más manejable y comprensible


índice de consistencia interna de una batería
usualmente se reporta previo a a construcción de un índice
varía entre 0 y 1; valores más cercanos a 1 indican mayor consistencia
en general valores sobre 0.6 se consideran aceptables
más información aquí
funcion alpha de la librería psych
se genera un objeto (lo llamaremos alpha). Contiene bastante información, por ahora nos enfocaremos solo en el valor de alpha (raw_alpha)
alpha <-psych::alpha(data)
## Some items ( falthab malasue faltesf ) were negatively correlated with the first principal component and ## probably should be reversed. ## To do this, run the function again with the 'check.keys=TRUE' optionalpha$total$raw_alpha
## [1] 0.4363206puntaje 0.43, por lo tanto bajo los valores aceptables de consistencia interna
esto ya se podía anticipar desde la matriz de correlaciones, que aparentemente mostraba dos dimensiones subyacentes a la batería
además, se genera un mensaje de advertencia sobre posibles items codificados a la inversa (dada la correlación entre items de dimensiones distintas)
construcción de índices basados en la información de la matriz de correlaciones
análisis factorial
vamos a generar 2 índices a partir de esta batería: uno para atribución interna (falthab,faltesf,malasue) y otro para externa (sisecon,siseduc)
tema valores perdidos:
data <- cbind(data, "interna_prom"=rowMeans(data %>% dplyr::select(falthab,faltesf,malasue), na.rm=TRUE))data <- cbind(data, "externa_prom"=rowMeans(data %>% dplyr::select(sisecon,siseduc), na.rm=TRUE))data %>% slice(11:15)
## falthab malasue faltesf sisecon siseduc interna_prom externa_prom## 1 3 3 4 4 4 3.333333 4.0## 2 2 1 4 4 4 2.333333 4.0## 3 3 4 3 5 4 3.333333 4.5## 4 4 3 2 NA 3 3.000000 3.0## 5 1 1 3 3 2 1.666667 2.5alpha <- psych::alpha(dplyr::select(data, falthab, faltesf, malasue))alpha$total$raw_alpha
## [1] 0.5384986alpha <- psych::alpha(dplyr::select(data, sisecon, siseduc))alpha$total$raw_alpha
## [1] 0.7434989baterías y dimensiones subyacentes (latentes)
evaluación de consistencia interna (previo a construcción de índices)
índices y factores
La mayor parte de las variables en el mundo social no son directamente observables. Esto las hace constructos hipotéticos latentes
La medición de variables latentes se realiza a partir de indicadores observables, tales como los ítems de una batería/ cuestionario
Lo latente puede ser entendido como la varianza compartida por diferentes indicadores observados
La medición de variables latentes se encuentra asociada al modelo de factor común (Thurstone) y al análisis factorial
Cada indicador en un set de medidas observadas es una función lineal de uno o más factores comunes y un factor único
Como referencia podemos usar la teoría clásica de test (CTT), que divide el puntaje de los indicadores entre puntaje verdadero y error
Cada indicador en un set de medidas observadas es una función lineal de uno o más factores comunes y un factor único
Como referencia podemos usar la teoría clásica de test (CTT), que divide el puntaje de los indicadores entre puntaje verdadero y error
X=T+E
Donde
La existencia de un solo ítem por constructo no permite aislar puntaje verdadero del error
Si existen más ítems, podemos estimar un análisis factorial y distinguir entre varianza común (compartida con otros indicadores) y varianza única (o error)

Es un método que permite:
identificar la varianza común a una serie de indicadores
establecer la contribución de cada indicador a la varianza común
estimar posteriormente un índice (puntaje factorial) para cada factor, con mayor precisión que un promedio bruto
Un factor es una variable no observada o latente que da cuenta de las correlaciones entre indicadores
los indicadores están correlacionados porque comparten una causa común - concepto de independencia condicional
El o los factores darían cuenta (i.e. causarían) de la covariación entre una serie de medidas observadas (indicadores)
Teórico: relacionar datos con dimensiones latentes basadas en conceptos (validez de constructo)
Pragmático: hacer sentido de un conjunto de datos, reducción de dimensiones y obtención de puntajes
Metodológico: aislar el error (varianza única) de la varianza común
exploratorio (EFA): Permite explorar las dimensiones que subyacen a una escala
confirmatorio (CFA): Permite confirmar las dimensiones que subyacen a una escala, aislando el error de medición en la estimación
Preguntas a responder:
¿Cuántos factores subyacen a un conjunto de indicadores?
¿Cómo se relacionan los indicadores con los factores?
¿Cómo es la calidad del modelo estimado?

Basado en la matriz de correlaciones
Modelo estandarizado (varianza factores=1)
Diferentes métodos de extracción de factores
Determinación del número y "calidad" de las dimensiones (continuas) subyacentes a una escala


## Parallel analysis suggests that the number of factors = 2 and the number of components = NA| Factor 1 | Factor 2 | Communality | |
|---|---|---|---|
| Razones pobreza falta de habilidad | -0.01 | 0.83 | 0.69 |
| Razones pobreza falta de esfuerzo | -0.06 | 0.43 | 0.19 |
| Razones pobreza mala suerte | 0.03 | 0.38 | 0.15 |
| Razones pobreza sistema económico | 1.00 | -0.02 | 0.99 |
| Razones pobreza sistema educativo | 0.60 | 0.01 | 0.36 |
| Total Communalities | 2.37 | ||
| Cronbach's α | 0.75 | 0.54 | |
Factores: variables latentes que están a la base de las correlaciones entre los indicadores
Cargas factoriales: medida estandarizada de asociación (correlación) entre el indicador y la variable latente
Comunalidad: proporción del indicador que se asocia a factor(es) comun(es)
Varianza única (uniqueness): 1-comunalidad
Eigenvalues: medida de proporción de la varianza total correspondiente a cada uno de los factor (SS loadings)
Proporción de varianza explicada por el factor = eigenvalue / número de indicadores
Estimación de matriz de correlaciones
Extraccion de factores
Decisión sobre número de factores
Rotación
Interpretación y reporte
Obtención de puntajes factoriales

Nivel de medición de variables, normalidad (eventualmente test de normalidad multivariado, ej: Shapiro Wilk multivariado)
Test de adecuación muestal (KMO)
varía entre 0 y 1, contrasta si las correlaciones parciales entre las variables son pequeñas.
valores pequeños (menores a 0.5) indican que los datos no serían adecuados para EFA, ya que las correlaciones entre pares de variables no pueden ser explicadas por otras variables
Nivel de correlaciones de la matriz: test de esfericidad de Bartlett
se utiliza para evaluar la hipótesis que la matriz de correlaciones es una matriz identidad (en la diagonal=1 y bajo la diagonal=0)
se busca significación (p < 0.05), ya que se espera que las variables estén correlacionadas
En el análisis factorial exploratorio (AFE), los métodos de extracción se refieren a las técnicas que se utilizan para determinar los factores/ variables latentes a las variables observadas. Los tres métodos principales son:
Factores principales
Factores principales iterados
Maximum likelihood
Este es uno de los métodos más comunes para la extracción de factores. Se basa en la descomposición de la matriz de correlaciones para identificar los factores que explican la mayor cantidad de varianza compartida por las variables. Es útil cuando el objetivo es reducir la dimensionalidad manteniendo el máximo de información posible.
Este método es una variante del anterior. Estima las comunalidades (la cantidad de varianza de cada variable explicada por los factores) iterativamente. Reemplaza los valores iniciales de las comunalidades en la matriz de correlaciones con las comunalidades estimadas a partir de los factor loadings (cargas factoriales) y repite el proceso hasta que se alcance una solución estable. Este método mejora la precisión de la estimación de los factores.
Este método busca encontrar los parámetros del modelo que maximicen la probabilidad de que los datos observados sean replicados por el modelo factorial. Es útil cuando se quiere hacer inferencia estadística sobre los factores, ya que permite realizar pruebas de hipótesis y obtener intervalos de confianza para los factores y sus cargas. Es más robusto, pero requiere que los datos cumplan ciertos supuestos como normalidad multivariada.
Criterio de Kaiser: eigenvalues (cantidad de varianza explicada por cada factor) mayores a 1
Scree plot (gráfico de sedimentación)
Análisis paralelo: comparación de eigenvalues de la muestra con eigenvalues de datos aleatorios. Nº apropiado de factores: numero de eigenvalues de los datos reales que son mayores que sus correspondientes eigenvalues de datos aleatorios
Ortogonal: asume que los factores no se encuentran correlacionados
Oblicua: permite correlación entre factores
dimensiones subyacentes = factores
análisis factorial
https://estadisticaiv.netlify.app/practicos/06-content

Keyboard shortcuts
| ↑, ←, Pg Up, k | Go to previous slide |
| ↓, →, Pg Dn, Space, j | Go to next slide |
| Home | Go to first slide |
| End | Go to last slide |
| Number + Return | Go to specific slide |
| b / m / f | Toggle blackout / mirrored / fullscreen mode |
| c | Clone slideshow |
| p | Toggle presenter mode |
| t | Restart the presentation timer |
| ?, h | Toggle this help |
| Esc | Back to slideshow |