class: front <!--- Para correr en ATOM - open terminal, abrir R (simplemente, R y enter) - rmarkdown::render('static/docpres/07_interacciones/7interacciones.Rmd', 'xaringan::moon_reader') About macros.js: permite escalar las imágenes como [scale 50%](path to image), hay si que grabar ese archivo js en el directorio. ---> .pull-left[ # Estadística Multivariada ## Juan Carlos Castillo ## Sociología FACSO - UChile ## 1er Sem 2022 ## [multivariada.netlify.com](https://multivariada.netlify.com) ] .pull-right[ .right[ ![:scale 70%](https://multivariada.netlify.com/img/hex_multiva.png) <br> <br> <br> ## Pendientes y complementos ] ] --- layout: true class: animated, fadeIn --- class: inverse ## Temas varios pendientes & complementos *1. Variables: Índices* *2. Presentación modelos* *3. Correlaciones categóricas* --- class: inverse ## Temas varios pendientes & complementos __*1. Variables: Índices*__ *2. Presentación modelos* *3. Correlaciones categóricas* --- .pull-left-narrow[ # Índices Algunos conceptos o atributos pueden estar medidos por indicadores múltiples ] -- .pull-right-wide[ ![](bateria.png) ] --- # Índices - la presencia de indicadores múltiples para medir un mismo atributo/constructo se relaciona con la noción de **variable latente** - latente: subyace a los indicadores múltiples - para poder dar una métrica/puntaje a lo latente existen métodos como análisis factorial o construcción de índices --- # Índices - la forma más usual de construir un índice es mediante una suma o un promedio de los indicadores que (aparentemente) están midiendo lo mismo - Ejemplo: base de datos con indicadores c1 a c5, 4 casos: ``` ## c1 c2 c3 c4 c5 ## 1 1 NA NA 2 1 ## 2 2 2 4 3 7 ## 3 NA NA NA 7 5 ## 4 4 5 NA 8 3 ``` --- # Índice promedio ```r sjmisc::row_means(dat, n=5) ``` ``` ## c1 c2 c3 c4 c5 rowmeans ## 1 1 NA NA 2 1 NA ## 2 2 2 4 3 7 3.6 ## 3 NA NA NA 7 5 NA ## 4 4 5 NA 8 3 NA ``` La opción `n=x` indica la cantidad de información completa requerida para poder calcular el índice; en este caso, solo casos que tengan toda la información (5 indicadores) --- # Índices ```r sjmisc::row_means(dat, n=1) ``` ``` ## c1 c2 c3 c4 c5 rowmeans ## 1 1 NA NA 2 1 1.333333 ## 2 2 2 4 3 7 3.600000 ## 3 NA NA NA 7 5 6.000000 ## 4 4 5 NA 8 3 5.000000 ``` .medium[ - En este caso, basta con que tenga información en **un solo indicador** (`n=1`) para poder calcular el promedio. - Recomendación general: al menos la mitad de los indicadores] --- # Consistencia interna del índice ## ¿Qué tan bien representa el índice el atributo latente? - el supuesto detrás de la construcción del índice es que los indicadores estarían (co)relacionados entre sí. - una forma de dar cuenta del grado de asociación entre indicadores múltiples es el **Alfa de Cronbach** - El Alfa de Cronbach es a grandes rasgos un indicador de la magnitud promedio del tamaño de las correlaciones entre los indicadores. --- # Consistencia interna del índice .medium[ ```r alpha <-psych::alpha(dat) ``` ``` ## Some items ( c5 ) were negatively correlated with the total scale and ## probably should be reversed. ## To do this, run the function again with the 'check.keys=TRUE' option ``` ```r alpha$total ``` ``` ## raw_alpha std.alpha G6(smc) average_r S/N ase mean sd ## 0.6538953 0.7221169 0.5415877 0.3938141 2.598635 0.3087548 3.166667 1.623439 ## median_r ## 0.5474255 ``` ] --- # Consistencia interna del índice El alpha que corresponde reportar es el `raw_alpha`=0.65 En general un alpha igual o mayor a **0.7** es considerado aceptable para poder utilizar el índice --- class: inverse ## Temas varios pendientes & complementos *1. Variables* - Valores perdidos - Estandarización - Índices **2. Presentación modelos** *3. Correlaciones categóricas* --- # Lógica de presentación de modelos - En general la presentación de los modelos de regresión debe permitir un buen análisis y discusión de los resultados. - Recomendaciones: modelos que vayan incorporando los predictores en orden de relevancia en la argumentación --- # Lógica de presentación de modelos - Esquema de tabla de tres modelos: - Modelo 1: predictor asociado a hipótesis principal - Modelo 2: + otros predictores relevantes asociados a hipótesis - Modelo 3: + controles --- # Fijar N modelos para comparación - recordar que los distintos modelos de una misma tabla de regresión deben tener el **mismo N** - el N puede variar ya que predictores adicionales pueden agregar casos perdidos - por lo tanto, se debe **fijar el N** al del modelo final (=con todas las variables) --- # Fijar N modelos para comparación - genear nueva base de datos solamente las variables que van a aparecer en el modelo de regresión con `select` (dplyr) - luego de esta base con variables seleccionadas eliminar los casos perdidos: `base_seleccionada <-na.omit(base_seleccionada)` - detalle aparece en [Nota sobre casos perdidos (NAs)](https://multivariada.netlify.app/assignment/02-code/#nota-sobre-casos-perdidos-nas-na-omit-data), práctica 2. --- # Considerar en el análisis de la tabla de modelos - coeficientes - significación estadística - control estadístico - ajuste general (R2, deviance) - comparación de modelos --- # Otras consideraciones: transformaciones - recordar posibilidades de transformación de variables por supuestos de linealidad, como polinomios y logaritmos ([Sesión 11 - Supuestos](https://multivariada.netlify.app/class/11-class/)) - otras transformaciones para facilitar la interpretación - ejemplo: dividir variables con un amplio rango de valores, como ingreso, por ejemplo por 100.000. Esto permite reflejar mejor el cambio en la dependiente (cambio cada 100.000 en lugar de cambio por cada peso) --- class: inverse ## Temas varios pendientes & complementos *1. Variables* - Valores perdidos - Estandarización - Índices *2. Presentación modelos* **3. Correlaciones categóricas** --- # Sobre correlaciones con variables categóricas .medium[ - el método de correlación de **Pearson** (que se utiliza muchas veces como sinónimo de correlación) esta diseñado en principio para variables continuas - sin embargo, sus coeficientes pueden ser también interpretados para el caso de una variable dicotómica con una continua (correlación punto biserial) o entre dos dicotómicas (coeficiente phi) - para correlación entre variables ordinales es más apropiado otras estimaciones como **Spearman**, que no hace supuestos distribucionales y ordena las observaciones en base a un ranking.] --- # Sobre correlaciones con variables categóricas Recumendación general: - si el contraste de hipótesis no se basa en las correlaciones sino en regresión, una matriz con base Pearson es aceptable. - también se puede utilizar una matriz de correlaciones **policóricas**, que permite ajustar el cálculo de correlaciones a variables categóricas (avanzado). - implementación en R vía librería [`psych`](https://personality-project.org/r/psych/help/tetrachor.html) --- class: inverse ## Resumen varios pendientes y complementos *1. Variables* - Valores perdidos - Estandarización - Índices *2. Presentación modelos* *3. Correlaciones categóricas* --- class: front .pull-left[ # Estadística Multivariada ## Juan Carlos Castillo ## Sociología FACSO - UChile ## 1er Sem 2022 ## [multivariada.netlify.com](https://multivariada.netlify.com) ] .pull-right[ .right[ <br> ![:scale 80%](https://multivariada.netlify.com/img/hex_multiva.png) ] ]