+ - 0:00:00
Notes for current slide
Notes for next slide

Estadística Multivariada

Juan Carlos Castillo

Sociología FACSO - UChile

1er Sem 2022

multivariada.netlify.com



Sesión 4: Regresión simple 2

]

1 / 41

Contenidos

1. Siguiendo con regresión simple

2. Ajuste y residuos

3. Notas sobre regresión y correlación

2 / 41

1. Regresión simple

3 / 41

¿Qué buscamos?

4 / 41

¿Qué buscamos?

Contrastar empíricamente teorías sociológicas

(con datos cuantitativos)
4 / 41

Hechos sociales son multideterminados

  • Limitaciones de herramientas bivariadas (tablas de contingencia, coeficiente de correlación)

  • Necesidad de contar con herramientas más eficientes que incluyan múltiples determinantes

  • -> MODELO DE REGRESIÓN

5 / 41
  • por qué "modelo"
  • por qué "regresión"
  • partir por un determinante y luego se expande a múltiples determinantes

¿MODELO?= representación simplificada


.scale 110%

6 / 41

¿Regresión?

  • el modelo de regresión busca representar matemáticamente la relación entre una variable dependiente (Y) y una o más independientes (X)

7 / 41

¿Regresión?

  • el modelo de regresión busca representar matemáticamente la relación entre una variable dependiente (Y) y una o más independientes (X)

  • esta relación se expresa en un parámetro β o "beta de regresión"

8 / 41

Regresión simple

  • esta primera parte del curso veremos modelos con solo 1 variable independiente (X) o regresión simple

ˆY=β0+β1X1

  • con este modelo podemos saber el valor de Y si conocemos el valor de X usando el valor de los parámetros β0 y β1
9 / 41

Componentes de la ecuación de la recta de regresión

ˆY=β0+β1X1

Donde

  • ˆY es el valor estimado de Y

  • β0 es el intercepto de la recta (el valor de Y cuando X es 0)

  • β1 es el coeficiente de regresión, que nos dice cuánto aumenta Y por cada punto que aumenta X

10 / 41

Estimación de los coeficientes de la ecuación:

b1=Cov(XY)VarX

b1=ni=1(xi¯x)(yi¯y)n1ni=1(xi¯x)(xi¯x)n1

Y simplificando

b1=ni=1(xi¯x)(yi¯y)ni=1(xi¯x)(xi¯x)

11 / 41

Estimación de los coeficientes de la ecuación:

Luego despejando el valor de b0

b0=¯Yb1¯X

12 / 41

Ejemplo: ¿Cuántos pasos da un hijo (Y) por cada paso que da su mamá (x)?

## pasos_mama_x pasos_hijo_y
## 1 3 2
## 2 5 3
## 3 7 2
## 4 9 4
## [1] "pasos_mama_x" "pasos_hijo_y"

13 / 41

b1=ni=1(xi¯x)(yi¯y)ni=1(xi¯x)(xi¯x);b0=¯Yb1¯X

14 / 41

ˆY=β0+β1X1 Reemplazando:

ˆY=1.25+0.25X Entonces:

  • por cada paso que da la mamá (X), un hij_ (Y) avanza en promedio 0.25 pasos

  • si una mamá da (por ej) 4 pasos, entonces la cantidad de pasos estimada para su hijo sería 1.25+0.25*4=2.25

15 / 41

ˆY=1.25+0.25X


  • la ecuación del modelo de regresión se puede expresar en una recta de regresión

  • esta recta representa la predicción de los valores de Y a partir de X

16 / 41

Estimación del modelo de regresión simple en R

La función para estimar regresión en R es lm (linear model):

objeto <- lm(dependiente ~ independiente, data=datos)

17 / 41

Estimación del modelo de regresión simple en R

La función para estimar regresión en R es lm (linear model):

objeto <- lm(dependiente ~ independiente, data=datos)

Donde

  • objeto: el nombre (cualquiera) que le damos al objeto donde se guardan los resultados de la estimación
  • dependiente / independiente: los nombres de las variables en los datos
  • datos = el nombre del objeto de nuestros datos en R
17 / 41
lm(pasos_hijo_y ~ pasos_mama_x, data = datos1)
##
## Call:
## lm(formula = pasos_hijo_y ~ pasos_mama_x, data = datos1)
##
## Coefficients:
## (Intercept) pasos_mama_x
## 1.25 0.25
18 / 41

INTERPRETACIÓN

por cada unidad que aumenta X, Y aumenta en Beta

19 / 41

Ejemplo


Si tenemos

  • Y = ingreso al egresar de la universidad

  • X = puntaje PSU


Ingreso=200.000+400(puntajePSU)

20 / 41

Ejemplo


Si tenemos

  • Y = ingreso al egresar de la universidad

  • X = puntaje PSU


Ingreso=200.000+400(puntajePSU)

1 - ¿Cuál es el valor estimado de Ingreso para un puntaje PSU de 500?

20 / 41

Ejemplo


Si tenemos

  • Y = ingreso al egresar de la universidad

  • X = puntaje PSU


Ingreso=200.000+400(puntajePSU)

1 - ¿Cuál es el valor estimado de Ingreso para un puntaje PSU de 500?

  • 400.000
20 / 41

Ejemplo


Si tenemos

  • Y = ingreso al egresar de la universidad

  • X = puntaje PSU


Ingreso=200.000+400(puntajePSU)

1 - ¿Cuál es el valor estimado de Ingreso para un puntaje PSU de 500?

  • 400.000

2 - ¿Cuál es el valor estimado de Ingreso para un puntaje (hipotético) de PSU=0?

20 / 41

Ejemplo


Si tenemos

  • Y = ingreso al egresar de la universidad

  • X = puntaje PSU


Ingreso=200.000+400(puntajePSU)

1 - ¿Cuál es el valor estimado de Ingreso para un puntaje PSU de 500?

  • 400.000

2 - ¿Cuál es el valor estimado de Ingreso para un puntaje (hipotético) de PSU=0?

  • 200.000
20 / 41

Hasta ahora deberíamos saber:

21 / 41

Hasta ahora deberíamos saber:

1- Modelo de regresión como una representación simplificada de la relación compleja entre variables

21 / 41

Hasta ahora deberíamos saber:

1- Modelo de regresión como una representación simplificada de la relación compleja entre variables

2- El β de regresión nos dice cuanto aumenta Y (variable dependiente) en promedio por cada punto que aumenta X (variable independiente).

21 / 41

Hasta ahora deberíamos saber:

1- Modelo de regresión como una representación simplificada de la relación compleja entre variables

2- El β de regresión nos dice cuanto aumenta Y (variable dependiente) en promedio por cada punto que aumenta X (variable independiente).

3- El modelo nos permite estimar el puntaje de Y para cada valor de X

21 / 41

2. Ajuste y residuos

22 / 41


El cuarteto de Anscombe (1973)

Podemos tener un mismo modelo de regresión para relaciones distintas entre datos

23 / 41

¿Qué tan bueno es nuestro modelo?

  • El cálculo del β busca minimizar los residuos (de ahí "mínimos cuadrados ordinarios")

  • Una vez minimizados los residuos, se puede evaluar el ajuste

    • qué tan bien representa nuestro modelo la realidad

    • cuánto error (de predicción) estamos cometiendo con nuestro modelo

24 / 41
25 / 41

Un modelo es mejor mientras mejor refleje lo que sucede con los datos

26 / 41

Un modelo es mejor mientras mejor refleje lo que sucede con los datos

En otras palabras, cuando se parece o ajusta mejor a los datos

26 / 41

Un modelo es mejor mientras mejor refleje lo que sucede con los datos

En otras palabras, cuando se parece o ajusta mejor a los datos

... y en otras: cuando los residuos son menores

26 / 41

Observado, estimado & residuo

  • observado: Y

  • estimado: ˆY

  • residuo: YˆY

27 / 41

Varianza explicada de Y

¿Qué parte de la varianza de ingreso (Y) se asocia a educación?

28 / 41

Varianza explicada de Y: R2

  • ¿Cuánto de los ingresos puedo predecir con educación (regresión) y cuánto me estoy equivocando (residuos)?
29 / 41

Varianza explicada de Y: R2

  • ¿Cuánto de los ingresos puedo predecir con educación (regresión) y cuánto me estoy equivocando (residuos)?

  • el R2

    • es la proporción de la varianza de Y que se asocia a X
    • varía entre 0 y 1, y se puede expresar en porcentaje
29 / 41

Varianza explicada de Y: R2

  • ¿Cuánto de los ingresos puedo predecir con educación (regresión) y cuánto me estoy equivocando (residuos)?

  • el R2

    • es la proporción de la varianza de Y que se asocia a X
    • varía entre 0 y 1, y se puede expresar en porcentaje
  • Entonces, podemos descomponer la varianza de Y en 2: aquella asociada a X (regresión) y la que no se asocia a X (residuos)

29 / 41

¿Cómo se calcula el R2?

  • para saber qué porcentaje de Y se asocia a X vamos a considerar los siguientes valores de Y:

Y = Valor observado de Y

ˆY = estimación de Y a partir de X

¯Y = promedio de Y

30 / 41

Descomponiendo Y

Conceptualmente:

SStot=SSreg+SSerror

31 / 41

Descomponiendo Y

Y=¯Y+(ˆY¯Y)+(YˆY)

Σ(yi¯y)2=Σ(^yi¯y)2+Σ(yi^yi)2

32 / 41

Varianza explicada

Por lo tanto:

SStot=SSreg+SSerror

33 / 41

Varianza explicada

Por lo tanto:

SStot=SSreg+SSerror

SStotSStot=SSregSStot+SSerrorSStot

33 / 41

Varianza explicada

Por lo tanto:

SStot=SSreg+SSerror

SStotSStot=SSregSStot+SSerrorSStot

1=SSregSStot+SSerrorSStot

SSregSStot=1SSerrorSStot=R2


¿Qué quiere decir esto?

33 / 41

Directamente en R

reg1 <-lm(pasos_hijo_y ~
pasos_mama_x,
data = datos1)
  Modelo 1
Predictores β p
(Intercept) 1.250 0.420
pasos_mama_x 0.250 0.326
Observations 4
R2 / R2 adjusted 0.455 / 0.182

Un 45.5% de la varianza de Y se relaciona con X

34 / 41

3. Correlación y regresión

35 / 41

Equivalencias en regresión y correlación

cor(datos1$pasos_mama_x,datos1$pasos_hijo_y)
## [1] 0.6741999

Correlación entre juegos y puntos al cuadrado

(cor(datos1$pasos_mama_x,datos1$pasos_hijo_y))^2
## [1] 0.4545455
  • Es decir: correlación de Pearson al cuadrado ( r2 ) es R2
36 / 41

Diferencias en regresión y correlación

  • La correlación entre X e Y es la misma que entre Y e X
cor(datos1$pasos_mama_x,datos1$pasos_hijo_y)
## [1] 0.6741999
cor(datos1$pasos_hijo_y,datos1$pasos_mama_x)
## [1] 0.6741999
37 / 41

Diferencias en regresión y correlación

  • La regresión entre X e Y no es la misma que entre Y y X
lm(datos1$pasos_hijo_y ~ datos1$pasos_mama_x)$coefficients
## (Intercept) datos1$pasos_mama_x
## 1.25 0.25
lm(datos1$pasos_mama_x ~ datos1$pasos_hijo_y)$coefficients
## (Intercept) datos1$pasos_hijo_y
## 1.000000 1.818182
38 / 41

RESUMEN

- Ajuste del modelo de regresión (R2): porcentaje de la varianza de la variable dependiente (Y) que se asocia a la independiente (X)

- Correlación y regresión: primos cercanos, principalmente en regresión simple.

39 / 41

Próximas semanas:

Práctica 3: Regresión simple

Práctica 4: Ajuste y residuos

Preparar Evaluación 1

Lectura: Moore: Residuos (144-154)

40 / 41

Estadística Multivariada

multivariada.netlify.com

Sociología FACSO

UChile

1er Sem 2022

41 / 41

Contenidos

1. Siguiendo con regresión simple

2. Ajuste y residuos

3. Notas sobre regresión y correlación

2 / 41
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
oTile View: Overview of Slides
sToggle scribble toolbox
Esc Back to slideshow