[노코드데이터분석]블랙 프라이데이는 아마존에 유의미한 영향을 미칠까요?🎁

뉴스레터 콘텐츠로 바로 가기! 📚



오늘도 어김없이 돌아온 <노코드 데이터 분석 따라 하기> 6️⃣번째 시간! 어려운 프로그래밍 대신 평소에 자주 사용하는 엑셀로 회귀분석을 해볼 텐데요. 여러분, ‘블랙 프라이데이’와 직구 사이트인 ‘아마존’에 대한 사람들의 관심도는 매우 강한 양의 상관관계를 가진다는 사실, 기억하시나요? (기억이 안 난다면, 여기 클릭!) 그렇다면 ‘블랙 프라이데이’에 대한 사람들의 관심도는 직구 사이트인 ‘아마존’에 대한 사람들의 관심도에 유의미한 영향을 미칠까요? 이러한 궁금증은 바로 엑셀을 활용한 ‘회귀 분석’으로 해결할 수 있는데요! 회귀 분석으로 데이터의 인과관계를 파악하는 방법, 궁금하지 않으신가요?


이 뉴스레터를 보면 좋은 사람은?

👶🏻 : 통계의 ‘통’자도 모르는 통계 왕왕왕초보!

👲🏻 : 실무에서 사용하는 엑셀로 회귀분석을 하고 싶으신 분!

👸🏻 : ‘나도 회귀분석 해봤어~’ 라고 자랑하고 싶으신 분!

- 에이블런 리사 드림 💌





독립변수와 종속변수 복습하기! 😋


여러분과 오늘 다룰 <노코드 데이터분석 따라 하기>는 ‘블랙 프라이데이’에 대한 사람들의 관심도가 직구 사이트인 ‘아마존’에 대한 사람들의 관심도에 유의미한 영향을 미치는지를 파악하는 회귀분석인데요. 이러한 회귀분석에 대해 자세히 알아보기 전, 회귀분석에서 사용되는 데이터를 살펴보아야 합니다.

회귀분석에서는 독립변수와 종속변수를 사용하는데요. 분석 모델에서 원인이 되어 다른 변수에 영향을 주는 변수를 독립변수라고 부르죠. 반면, 다른 변수로부터 영향을 받아 결과가 되는 변수를 종속변수라고 합니다. (독립변수와 종속변수를 더 자세히 알고 싶다면, 여기 클릭!) 우리는 ‘블랙 프라이데이’에 대한 관심도가 직구 사이트인 ‘아마존’의 관심도에 미치는 영향을 회귀분석할 예정인데요. 이때, ‘아마존’의 관심도에 영향을 주는 독립변수는 ‘블랙 프라이데이’에 대한 관심도이며, ‘블랙 프라이데이’에 대한 관심도에 영향을 받아 결과가 되는 종속변수는 ‘아마존’의 관심도죠. 




회귀분석이 뭔가요? 🔎


앞선 내용을 통해 회귀분석에서 사용되는 독립변수와 종속변수의 개념을 알아보았습니다. 이제 본격적으로 회귀 분석이 무엇인지 살펴볼게요. 통계학에서 회귀 분석은 독립변수가 종속변수에 어느 정도의 영향을 미치는지를 확인하는 분석방법입니다.

그렇다면, 이러한 회귀분석은 비즈니스에서 어떻게 적용될까요? 퍼포먼스 마케팅 사례로 함께 알아보아요! 퍼포먼스 마케터는 상품의 매출을 늘리기 위해서 특정 광고 매체를 구매하는데요. 만약 여러분의 회사에서 현재까지 광고 채널로 카카오와 구글을 사용했다고 가정해 보겠습니다. 이때, 회귀분석을 활용한다면 카카오에 사용한 광고비용과 구글에 사용한 광고비용(독립변수)이 상품의 매출(종속변수)에 어느 정도의 영향을 미치는지를 파악할 수 있어요. 즉, 회귀 분석을 통해 더욱 성과가 좋은 광고 채널을 파악하고 그에 알맞은 예산을 분배할 수도 있죠! 

회귀 분석은 독립변수의 수에 따라 2가지 종류로 분류되는데요. 앞서 살펴본 퍼포먼스 마케팅 사례로 이해해 보도록 해요. 회귀 모형의 형태에 따라 하나의 종속변수에 대해 독립변수가 하나인 경우를 단순 회귀 분석이라고 합니다. 즉, 여러 광고 채널 중 단 하나의 채널인 ‘카카오’의 광고 비용이 상품의 매출에 어느 정도의 영향을 미치는지를 파악하는 것이죠. (‘구글’의 광고 비용이 상품의 매출에 어느 정도의 영향을 미치는지 파악하는 경우도 해당돼요!😗) 반면, 하나의 종속변수에 대해 독립변수가 둘 이상인 경우를 다중 회귀 분석이라고 하죠. 즉, 상품의 매출에 영향을 주는 두 개 이상의 독립변수인 ‘카카오’에 사용한 광고비용과 ‘구글’에 사용한 광고 비용을 활용하여 상품의 매출에 미치는 영향의 정도를 파악하는 경우죠. 이번 <노코드 데이터 분석 따라하기>에서는 단순 회귀 분석에 대해 자세히 알아보도록 해요.  


단순 회귀 분석은 독립변수 X가 종속변수 Y에 미치는 영향을 분석하는 방법인데요. 단순 회귀 분석을 통하여 X와 Y의 식이 탄생하고, 이러한 식을 활용하여 X라는 원인으로 인해 결과 Y가 얼마나 영향을 받는지에 대한 인과관계를 설명할 수 있죠. 단순 회귀 분석의 공식은 위 사진과 같이 Y= β0(베타 제로)+β1(베타원)X+ε(입실론)입니다. 식이 조금 복잡해 보일 수도 있지만😣, *|FNAME|*님께서 기억하셔야 할 부분은 바로 β1(베타원)인데요. β1 값은 X라는 원인으로 인해 결과 Y가 얼마나 영향을 받을지를 설명해 주기 때문입니다. 



β1의 값을 찾는 방법은? 🤓


그렇다면, β1을 찾는 방법은 무엇일까요?🤷🏻‍♀️🤷🏻‍♂️ 바로 최소제곱법을 이용하는 것입니다.  최소제곱법은 말 그대로 데이터의 최솟값들을 제곱하여 더한 것을 의미하는데요. 그렇다면 여기서 ‘최소’는 어떤 의미일까요? 바로 실제 관측 값과 단순회귀식 위에 위치한 예측한 값의 차이가 ‘최소’가 되는 것을 의미하죠. 이러한 차이를 잔차라고 불러요!

잔차를 더 자세히 알아보도록 할게요.🤔 먼저 아래 그림의 회색 점들은 실제 관측값들을 의미해요. 우리는 이러한 실제 관측값들을 가장 잘 반영할 수 있는 빨간색 직선인 단순회귀식을 찾고자 하죠. 이때, 실제 관측값과 단순회귀식 위에 존재하는 예측값에는 차이가 발생할 수 있는데 이러한 차이를 잔차라고 부릅니다. 즉, 그림에서 표시한 초록색 수직거리가 각 데이터의 잔차가 되는 것이죠. 이때, 단순회귀식보다 실제 관측값이 위에 있으면 잔차는 양수(+)로, 아래에 있으면 잔차는 음수(-)로 계산되는데요. 우리가 찾은 단순회귀식은 잔차가 가장 작다는 가정으로 만들어졌기 때문에 잔차를 그냥 더하면, 양수의 잔차와 음수의 잔차에 상쇄가 일어나 항상 0의 값이 나오죠. 따라서 잔차를 제곱하여 0보다 큰 수로 만든 후, 이 값을 누적한 합으로 사용해 줍니다. 


그렇다면 여러분, 잔차는 클수록 좋을까요? 아니면 작을수록 좋을까요?🤷🏻‍♀️🤷🏻‍♂️  잔차는 예측한 데이터와 실제 데이터의 차이이기 때문에 작을수록 좋죠. 동일한 원리로 잔차의 값을 제곱하여 모두 더한 값 역시 작을수록 좋습니다. 이때 그냥 작기만 한 것이 아닌 ‘최소’가 되는 값이 최고의 조건이라고 말할 수 있는데요. 즉, 최소제곱법은 이러한 잔차의 값들을 모두 ‘제곱’하여 더했을 때 가장 작은 ‘최소’ 값이 되는 β1을 계산하는 방법입니다.



β1, 넌 유의하니? 유의하지 않니? 🙄


지금까지의 과정을 잠시 정리해 보도록 할게요. 먼저, 회귀분석에서 사용하는 데이터인 독립변수와 종속변수를 알아본 후, 단순회귀분석의 공식을 접했습니다. 뒤이어, 단순회귀분석의 β1(베타원)을 계산하기 위하여 최소제곱법을 활용했어요. 그렇다면 우리가 계산한 β1이 유의한 값인지를 판단하기 위한 유의성 검증을 할 차례인데요. β1의 유의성은 어떻게 판단할까요?🤷🏻‍♀️🤷🏻‍♂️ 바로 β1의 P-값을 이용하면 되는데요. P-값은 귀무가설이 옳다고 가정했을 때, 통계치가 관측될 확률입니다. (P-값과 귀무가설이 궁금하시다면, 여기 클릭!

앞선 블랙 프라이데이와 직구 사이트인 아마존 사례를 통해 β1의 유의성을 판단해 보도록 해요. 해당 경우, 귀무가설은 ‘블랙 프라이데이의 관심도와 아마존의 관심도는 관계가 없다’는 것이며, 대립가설은 ‘블랙 프라이데이의 관심도가 아마존의 관심도에 유의미한 영향을 미친다’는 것입니다. 만약, ‘블랙 프라이데이의 관심도와 아마존의 관심도는 관계가 없다’는 확률이 0.05보다 작다고 가정해 볼게요. 그렇다면, 블랙 프라이데이의 관심도와 아마존의 관심도가 관계가 없을 확률이 0.05로 매우 낮기 때문에 관계가 없을 가능성이 거의 없고, ‘블랙 프라이데이의 관심도가 아마존의 관심도에 유의미한 영향을 미친다’고 해석할 수 있습니다. 즉, P-값이 0.05보다 작다면, 블랙 프라이데이의 관심도가 아마존의 관심도에 유의미한 영향을 미친다고 해석하며, 0.05보다 크거나 같다면 블랙 프라이데이의 관심도와 아마존의 관심도는 관계가 없다고 해석합니다!




블랙 프라이데이와 직구 사이트의 인과관계는?🛫

그렇다면 실제 데이터를 활용하여 엑셀 데이터 분석을 하는 시간을 가져보죠! 그전, 우리의 관심 목표를 다시 한번 정리해 볼게요. 지난 11월 25일은 ‘블랙 프라이데이’로 미국 최대 규모의 쇼핑이 이뤄지는 날이었는데요. 블랙 프라이데이 시즌에는 미국의 많은 온라인 쇼핑몰이나 할인점에서 재고를 처분하기 위해 파격적인 할인을 합니다. 반면, 국내의 경우 미국에 비해 세일의 정도가 약하기 때문에, 많은 우리나라 소비자들은 미국의 인터넷 쇼핑몰을 통해 직접 구매하는 ‘직구’를 하는데요. 이때, 유명한 직구 사이트로 ‘아마존’(amazon)‘월마트’(walmart), ‘이베이’(ebay)가 있다고 해요. 그렇다면 사람들의 ‘블랙 프라이데이’에 대한 관심도는 직구 사이트인 ‘아마존’에 대한 관심도에 유의미한 영향을 미칠까요?

이번 회귀분석의 데이터는 지난 상관분석에서 활용한 ‘사람들의 관심도’ 데이터를 이어서 사용할 것입니다. (데이터가 없으신 분들은 여기 클릭!) <노코드 데이터분석 따라하기> 의 상관분석 편을 통해 ‘블랙 프라이데이’와 ‘아마존’ 데이터를 수집하셨나요? 그럼 하단의 동영상을 천천히 따라 하시면서 44초만에 엑셀로 회귀분석을 하는 방법을 알아보도록 해요! 

 


엑셀을 활용하여 회귀분석을 하는 방법, 이제 확실하게 아셨나요? 사람들의 ‘블랙 프라이데이’에 대한 관심도와 직구 사이트인 ‘아마존’에 대한 관심도의 회귀 분석 결과를 살펴볼게요. 먼저, 통계량 표를 통해 결정계수가 0.85정도로 나타나는 것을 확인할 수 있습니다. 이러한 결정계수는 회귀 모델에서 독립변수가 종속변수를 얼마만큼 설명하는지를 가리키는 지표인데요. 설명력이라고 부르기도 하며, 결정계수가 높을수록 독립변수가 종속변수를 많이 설명한다는 것을 뜻합니다. 즉, 사람들의 ‘아마존’에 대한 관심도가 ‘블랙 프라이데이’에 대한 관심도를 설명할 수 있는 부분이 85% 정도인 것을 알 수 있습니다. 또한, P-값은 0에 가까운 값으로 0.05보다 작은 것을 확인할 수 있는데요. 즉, 블랙 프라이데이의 관심도가 아마존 관심도에 유의미한 영향을 미친다고 해석할 수 있죠! 이러한 과정을 또 다른 직구 사이트인 ‘월마트’(walmart)와 ‘이베이’(ebay)에 적용한 결과는 다음과 같은데요. 블랙 프라이데이(blackfriday)의 관심도가 ‘월마트’(walmart)와 ‘이베이’(ebay)에도 유의미한 영향을 끼치는 것을 확인할 수 있습니다!


마지막으로, 지금까지 살펴본 회귀분석을 활용하여 미래의 데이터를 예측할 수도 있는데요. 아직 일어나지도 않은 미래인데, 그게 어떻게 가능하냐고요?🤯 그 원리는 바로 ‘과거’의 데이터를 이용해서 도출한 회귀분석 공식을 활용하는 것입니다. (데이터의 흐름이 갑자기 변하지 않는 한 비슷한 흐름대로 갈 것이라고 생각하는 것이죠.) 따라서 앞서 살펴본 단순회귀공식인 Y= β0(베타 제로)+β1(베타원)X+ε(입실론)을 떠올려볼게요.









우리는 엑셀을 활용하여 왼쪽의 표를 계산할 수 있었는데요. 여기서 Y절편의 계수는 β0(베타 제로)가 되며, 설명변수인 블랙프라이데이의 계수는  β1(베타원)이 됩니다. 즉, 아마존과 블랙 프라이데이의 회귀분석에서 Y절편의 계수는 32.15, 블랙 프라이데이의 계수는 1.12인데요. 따라서 최종적으로 도출된 단순회귀분석의 공식은 오른쪽 사진과 같이 Y= 32.15+1.12X+ε이 되죠! (여기서 보이는 ε(입실론)은 오차인데요. 통계 모형이 설명하지 못하는 불확실한 정보이므로 무시해도 괜찮아요.😏) 이제 미래를 예측해 볼 차례입니다. 만약 *|FNAME|*님께서 사람들의 블랙프라이데이에 관심의 정도가 50일 때의 아마존에 대한 관심도가 궁금하시다면, X 데이터에 50을 대입하면 되는데요. 즉, 32.15+1.12*50을 계산한 88.15가 사람들의 아마존에 대한 관심도로 예측될 수 있죠! 오늘도 회귀분석 마스터 완료! 😎


평균만 믿다가 배신? 😱

히히😁히스토그램을 엑셀로 그려요?

여러분이 그리신 분포의 형태는?👩🏻‍🎨

명탐정 여러분과 엑셀로 데이터 탐색! 🧐

블랙 프라이데이와 아마존의 상관관계는? 🎁



지금 이 콘텐츠 공유하기👇