]
Contrastar empíricamente teorías sociológicas

Limitaciones de herramientas bivariadas (tablas de contingencia, coeficiente de correlación)
Necesidad de contar con herramientas más eficientes que incluyan múltiples determinantes
-> MODELO DE REGRESIÓN



el modelo de regresión busca representar matemáticamente la relación entre una variable dependiente (Y) y una o más independientes (X)
esta relación se expresa en un parámetro β o "beta de regresión"


ˆY=β0+β1X1
ˆY=β0+β1X1
Donde
ˆY es el valor estimado de Y
β0 es el intercepto de la recta (el valor de Y cuando X es 0)
β1 es el coeficiente de regresión, que nos dice cuánto aumenta Y por cada punto que aumenta X
b1=Cov(XY)VarX
b1=∑ni=1(xi−¯x)(yi−¯y)n−1∑ni=1(xi−¯x)(xi−¯x)n−1
Y simplificando
b1=∑ni=1(xi−¯x)(yi−¯y)∑ni=1(xi−¯x)(xi−¯x)
Luego despejando el valor de b0
b0=¯Y−b1¯X
Ejemplo: ¿Cuántos pasos da un hijo (Y) por cada paso que da su mamá (x)?

## pasos_mama_x pasos_hijo_y## 1 3 2## 2 5 3## 3 7 2## 4 9 4## [1] "pasos_mama_x" "pasos_hijo_y"
b1=∑ni=1(xi−¯x)(yi−¯y)∑ni=1(xi−¯x)(xi−¯x);b0=¯Y−b1¯X

ˆY=β0+β1X1 Reemplazando:
ˆY=1.25+0.25X Entonces:
por cada paso que da la mamá (X), un hij_ (Y) avanza en promedio 0.25 pasos
si una mamá da (por ej) 4 pasos, entonces la cantidad de pasos estimada para su hijo sería 1.25+0.25*4=2.25
ˆY=1.25+0.25X

la ecuación del modelo de regresión se puede expresar en una recta de regresión
esta recta representa la predicción de los valores de Y a partir de X
RLa función para estimar regresión en R es lm (linear model):
objeto <- lm(dependiente ~ independiente, data=datos)
RLa función para estimar regresión en R es lm (linear model):
objeto <- lm(dependiente ~ independiente, data=datos)
Donde
lm(pasos_hijo_y ~ pasos_mama_x, data = datos1)
## ## Call:## lm(formula = pasos_hijo_y ~ pasos_mama_x, data = datos1)## ## Coefficients:## (Intercept) pasos_mama_x ## 1.25 0.25
Si tenemos
Y = ingreso al egresar de la universidad
X = puntaje PSU
Ingreso=200.000+400(puntajePSU)
Si tenemos
Y = ingreso al egresar de la universidad
X = puntaje PSU
Ingreso=200.000+400(puntajePSU)
1 - ¿Cuál es el valor estimado de Ingreso para un puntaje PSU de 500?
Si tenemos
Y = ingreso al egresar de la universidad
X = puntaje PSU
Ingreso=200.000+400(puntajePSU)
1 - ¿Cuál es el valor estimado de Ingreso para un puntaje PSU de 500?
Si tenemos
Y = ingreso al egresar de la universidad
X = puntaje PSU
Ingreso=200.000+400(puntajePSU)
1 - ¿Cuál es el valor estimado de Ingreso para un puntaje PSU de 500?
2 - ¿Cuál es el valor estimado de Ingreso para un puntaje (hipotético) de PSU=0?
Si tenemos
Y = ingreso al egresar de la universidad
X = puntaje PSU
Ingreso=200.000+400(puntajePSU)
1 - ¿Cuál es el valor estimado de Ingreso para un puntaje PSU de 500?
2 - ¿Cuál es el valor estimado de Ingreso para un puntaje (hipotético) de PSU=0?
1- Modelo de regresión como una representación simplificada de la relación compleja entre variables
1- Modelo de regresión como una representación simplificada de la relación compleja entre variables
2- El β de regresión nos dice cuanto aumenta Y (variable dependiente) en promedio por cada punto que aumenta X (variable independiente).
1- Modelo de regresión como una representación simplificada de la relación compleja entre variables
2- El β de regresión nos dice cuanto aumenta Y (variable dependiente) en promedio por cada punto que aumenta X (variable independiente).
3- El modelo nos permite estimar el puntaje de Y para cada valor de X

Podemos tener un mismo modelo de regresión para relaciones distintas entre datos
El cálculo del β busca minimizar los residuos (de ahí "mínimos cuadrados ordinarios")
Una vez minimizados los residuos, se puede evaluar el ajuste
qué tan bien representa nuestro modelo la realidad
cuánto error (de predicción) estamos cometiendo con nuestro modelo
Tuve un ataque de artemanía es intenté replicar una recta de regresión. pic.twitter.com/b7OXZrK26J
— Jorge Pacheco Jara (@jorge_pacheco) November 13, 2020

observado: Y
estimado: ˆY
residuo: Y−ˆY
¿Qué parte de la varianza de ingreso (Y) se asocia a educación?

¿Cuánto de los ingresos puedo predecir con educación (regresión) y cuánto me estoy equivocando (residuos)?
el R2
¿Cuánto de los ingresos puedo predecir con educación (regresión) y cuánto me estoy equivocando (residuos)?
el R2
Entonces, podemos descomponer la varianza de Y en 2: aquella asociada a X (regresión) y la que no se asocia a X (residuos)
Y = Valor observado de Y
ˆY = estimación de Y a partir de X
¯Y = promedio de Y
Conceptualmente:
SStot=SSreg+SSerror

Y=¯Y+(ˆY−¯Y)+(Y−ˆY)
Σ(yi−¯y)2=Σ(^yi−¯y)2+Σ(yi−^yi)2
Por lo tanto:
SStot=SSreg+SSerror
Por lo tanto:
SStot=SSreg+SSerror
SStotSStot=SSregSStot+SSerrorSStot
Por lo tanto:
SStot=SSreg+SSerror
SStotSStot=SSregSStot+SSerrorSStot
1=SSregSStot+SSerrorSStot
SSregSStot=1−SSerrorSStot=R2
reg1 <-lm(pasos_hijo_y ~ pasos_mama_x, data = datos1)
| Modelo 1 | ||
|---|---|---|
| Predictores | β | p |
| (Intercept) | 1.250 | 0.420 |
| pasos_mama_x | 0.250 | 0.326 |
| Observations | 4 | |
| R2 / R2 adjusted | 0.455 / 0.182 | |
Un 45.5% de la varianza de Y se relaciona con X
cor(datos1$pasos_mama_x,datos1$pasos_hijo_y)
## [1] 0.6741999Correlación entre juegos y puntos al cuadrado
(cor(datos1$pasos_mama_x,datos1$pasos_hijo_y))^2
## [1] 0.4545455cor(datos1$pasos_mama_x,datos1$pasos_hijo_y)
## [1] 0.6741999cor(datos1$pasos_hijo_y,datos1$pasos_mama_x)
## [1] 0.6741999lm(datos1$pasos_hijo_y ~ datos1$pasos_mama_x)$coefficients
## (Intercept) datos1$pasos_mama_x ## 1.25 0.25lm(datos1$pasos_mama_x ~ datos1$pasos_hijo_y)$coefficients
## (Intercept) datos1$pasos_hijo_y ## 1.000000 1.818182Lectura: Moore: Residuos (144-154)

Keyboard shortcuts
| ↑, ←, Pg Up, k | Go to previous slide |
| ↓, →, Pg Dn, Space, j | Go to next slide |
| Home | Go to first slide |
| End | Go to last slide |
| Number + Return | Go to specific slide |
| b / m / f | Toggle blackout / mirrored / fullscreen mode |
| c | Clone slideshow |
| p | Toggle presenter mode |
| t | Restart the presentation timer |
| ?, h | Toggle this help |
| o | Tile View: Overview of Slides |
| s | Toggle scribble toolbox |
| Esc | Back to slideshow |
]
Contrastar empíricamente teorías sociológicas

Limitaciones de herramientas bivariadas (tablas de contingencia, coeficiente de correlación)
Necesidad de contar con herramientas más eficientes que incluyan múltiples determinantes
-> MODELO DE REGRESIÓN



el modelo de regresión busca representar matemáticamente la relación entre una variable dependiente (Y) y una o más independientes (X)
esta relación se expresa en un parámetro β o "beta de regresión"


ˆY=β0+β1X1
ˆY=β0+β1X1
Donde
ˆY es el valor estimado de Y
β0 es el intercepto de la recta (el valor de Y cuando X es 0)
β1 es el coeficiente de regresión, que nos dice cuánto aumenta Y por cada punto que aumenta X
b1=Cov(XY)VarX
b1=∑ni=1(xi−¯x)(yi−¯y)n−1∑ni=1(xi−¯x)(xi−¯x)n−1
Y simplificando
b1=∑ni=1(xi−¯x)(yi−¯y)∑ni=1(xi−¯x)(xi−¯x)
Luego despejando el valor de b0
b0=¯Y−b1¯X
Ejemplo: ¿Cuántos pasos da un hijo (Y) por cada paso que da su mamá (x)?

## pasos_mama_x pasos_hijo_y## 1 3 2## 2 5 3## 3 7 2## 4 9 4## [1] "pasos_mama_x" "pasos_hijo_y"
b1=∑ni=1(xi−¯x)(yi−¯y)∑ni=1(xi−¯x)(xi−¯x);b0=¯Y−b1¯X

ˆY=β0+β1X1 Reemplazando:
ˆY=1.25+0.25X Entonces:
por cada paso que da la mamá (X), un hij_ (Y) avanza en promedio 0.25 pasos
si una mamá da (por ej) 4 pasos, entonces la cantidad de pasos estimada para su hijo sería 1.25+0.25*4=2.25
ˆY=1.25+0.25X

la ecuación del modelo de regresión se puede expresar en una recta de regresión
esta recta representa la predicción de los valores de Y a partir de X
RLa función para estimar regresión en R es lm (linear model):
objeto <- lm(dependiente ~ independiente, data=datos)
RLa función para estimar regresión en R es lm (linear model):
objeto <- lm(dependiente ~ independiente, data=datos)
Donde
lm(pasos_hijo_y ~ pasos_mama_x, data = datos1)
## ## Call:## lm(formula = pasos_hijo_y ~ pasos_mama_x, data = datos1)## ## Coefficients:## (Intercept) pasos_mama_x ## 1.25 0.25
Si tenemos
Y = ingreso al egresar de la universidad
X = puntaje PSU
Ingreso=200.000+400(puntajePSU)
Si tenemos
Y = ingreso al egresar de la universidad
X = puntaje PSU
Ingreso=200.000+400(puntajePSU)
1 - ¿Cuál es el valor estimado de Ingreso para un puntaje PSU de 500?
Si tenemos
Y = ingreso al egresar de la universidad
X = puntaje PSU
Ingreso=200.000+400(puntajePSU)
1 - ¿Cuál es el valor estimado de Ingreso para un puntaje PSU de 500?
Si tenemos
Y = ingreso al egresar de la universidad
X = puntaje PSU
Ingreso=200.000+400(puntajePSU)
1 - ¿Cuál es el valor estimado de Ingreso para un puntaje PSU de 500?
2 - ¿Cuál es el valor estimado de Ingreso para un puntaje (hipotético) de PSU=0?
Si tenemos
Y = ingreso al egresar de la universidad
X = puntaje PSU
Ingreso=200.000+400(puntajePSU)
1 - ¿Cuál es el valor estimado de Ingreso para un puntaje PSU de 500?
2 - ¿Cuál es el valor estimado de Ingreso para un puntaje (hipotético) de PSU=0?
1- Modelo de regresión como una representación simplificada de la relación compleja entre variables
1- Modelo de regresión como una representación simplificada de la relación compleja entre variables
2- El β de regresión nos dice cuanto aumenta Y (variable dependiente) en promedio por cada punto que aumenta X (variable independiente).
1- Modelo de regresión como una representación simplificada de la relación compleja entre variables
2- El β de regresión nos dice cuanto aumenta Y (variable dependiente) en promedio por cada punto que aumenta X (variable independiente).
3- El modelo nos permite estimar el puntaje de Y para cada valor de X

Podemos tener un mismo modelo de regresión para relaciones distintas entre datos
El cálculo del β busca minimizar los residuos (de ahí "mínimos cuadrados ordinarios")
Una vez minimizados los residuos, se puede evaluar el ajuste
qué tan bien representa nuestro modelo la realidad
cuánto error (de predicción) estamos cometiendo con nuestro modelo
Tuve un ataque de artemanía es intenté replicar una recta de regresión. pic.twitter.com/b7OXZrK26J
— Jorge Pacheco Jara (@jorge_pacheco) November 13, 2020

observado: Y
estimado: ˆY
residuo: Y−ˆY
¿Qué parte de la varianza de ingreso (Y) se asocia a educación?

¿Cuánto de los ingresos puedo predecir con educación (regresión) y cuánto me estoy equivocando (residuos)?
el R2
¿Cuánto de los ingresos puedo predecir con educación (regresión) y cuánto me estoy equivocando (residuos)?
el R2
Entonces, podemos descomponer la varianza de Y en 2: aquella asociada a X (regresión) y la que no se asocia a X (residuos)
Y = Valor observado de Y
ˆY = estimación de Y a partir de X
¯Y = promedio de Y
Conceptualmente:
SStot=SSreg+SSerror

Y=¯Y+(ˆY−¯Y)+(Y−ˆY)
Σ(yi−¯y)2=Σ(^yi−¯y)2+Σ(yi−^yi)2
Por lo tanto:
SStot=SSreg+SSerror
Por lo tanto:
SStot=SSreg+SSerror
SStotSStot=SSregSStot+SSerrorSStot
Por lo tanto:
SStot=SSreg+SSerror
SStotSStot=SSregSStot+SSerrorSStot
1=SSregSStot+SSerrorSStot
SSregSStot=1−SSerrorSStot=R2
reg1 <-lm(pasos_hijo_y ~ pasos_mama_x, data = datos1)
| Modelo 1 | ||
|---|---|---|
| Predictores | β | p |
| (Intercept) | 1.250 | 0.420 |
| pasos_mama_x | 0.250 | 0.326 |
| Observations | 4 | |
| R2 / R2 adjusted | 0.455 / 0.182 | |
Un 45.5% de la varianza de Y se relaciona con X
cor(datos1$pasos_mama_x,datos1$pasos_hijo_y)
## [1] 0.6741999Correlación entre juegos y puntos al cuadrado
(cor(datos1$pasos_mama_x,datos1$pasos_hijo_y))^2
## [1] 0.4545455cor(datos1$pasos_mama_x,datos1$pasos_hijo_y)
## [1] 0.6741999cor(datos1$pasos_hijo_y,datos1$pasos_mama_x)
## [1] 0.6741999lm(datos1$pasos_hijo_y ~ datos1$pasos_mama_x)$coefficients
## (Intercept) datos1$pasos_mama_x ## 1.25 0.25lm(datos1$pasos_mama_x ~ datos1$pasos_hijo_y)$coefficients
## (Intercept) datos1$pasos_hijo_y ## 1.000000 1.818182Lectura: Moore: Residuos (144-154)
