아이스크림이 잘 팔리면 익사자가 증가한다?!

업데이트:

상관관계 짧게 정리하기

들어가기 전에

  • 기초 통계가 잘 숙지되지 않았다면, 데이터 분석을 공부하는데에 큰 벽을 느끼게 된다.
    • 특히 대표값, 상관관계, 회귀분석 등에 대한 지식이 없다면 더더욱.
  • 지금까지 통계는 꾸준히 공부했지만, 대학 서적으로 기초적인 부분을 다시 점검하고 다잡고자 개념을 정리하여 포스팅한다.
  • 공부하는 서적은 류근관 교수님의 통계학이다.
    • 통계학과 분께 여쭤보니 학부에서 유명한 책이라고 하던디.
    • 이미지
    • (당근마켓에서 5천원에 구매했다)

상관관계

  • 두 변수의 관계가 얼마나 강한지 측정
  • 이를 수치화하기 위해 상관계수를 구한다.

상관계수

  • 상관계수 수식:
    • $r=\frac{\sum_{i=1}^{n}(x_i-\bar{x_i})(y_i-\bar{y_i})}{\sqrt{\sum{(x-\bar{x})^2}}*\sqrt{\sum{(y-\bar{y})^2}}}$
    • $=\frac{\sum_{i=1}^{n}(x_i-\bar{x_i})(y_i-\bar{y_i})/(n-1)}{\sqrt{\sum{(x-\bar{x})^2/(n-1)}}*\sqrt{\sum{(y-\bar{y})^2/(n-1)}}}$
    • $=\frac{Cov(X, Y)}{SD_x*SD_y}$ ($Cov$: 공분산)
  • 공분산은 양의 관계가 우세한지, 음의 관계가 우세한지 알려준다.
  • 이것을 상관계수로 변환하는 이유는, 아래와 같은 이유 때문.
    1. 측정단위와 무관하게 정의됨.
    2. $-1≤r≤1$ 범위로 한정됨
  • 상관계수의 특징
    1. 단위를 갖지 않는다.
      • 변수에 상수를 더하거나 빼거나 곱, 나눔을 해도 상관계수는 변하지 않음
    2. 방향성을 갖지 않는다.
      • x와 y의 상관계수는 y와 x의 상관계수와 동일

상관계수 관련 유의사항

  • 상관계수가 0.8이라는 것은,
    • 모든 점의 80%가 하나의 선 주위에 몰려있다는 것을 의미하지 않는다.
    • 상관계수가 0.4일 때보다 선형관계의 강도가 두 배로 강해진다는 의미도 아니다.

상관계수가 유용하지 않은 경우

  • 타원형이 아닌 산포도일 경우
    • 주로 이탈값이 많거나,
    • 비선형인 경우가 존재할 때.
  • 상관계수가 실제의 관계를 과장하는 경우
    • 비율, 평균의 자료를 갖고 구한 경우.
    • 예를들어,
      • 국가별 자료를 이용하여 행복은 소득과 무관하다는 결과가 나왔다면,
      • 행복을 느끼는 것은 국가가 아니라 개인이기 때문에 개인 데이터로 진행해야한다.
      • (물론 위 경우는 국가간 소득 차이도 통제해야함)

상관관계는 인과관계가 아니다.

  • 단지 선형관계에 있다는 것이지,
    • x가 y의 혹은 y가 x의 증가, 감소의 원인이 된다는 것은 아니다.
    • 이럴 때 자주 등장하는 혼동요인!
      • ex. 아이스크림이 잘 팔리면 익사자가 증가한다.

댓글남기기