뉴스레터 콘텐츠로 바로 가기! 📚
오늘도 어김없이 돌아온 <노코드 데이터 분석 따라하기> 5️⃣번째 시간! 어려운 프로그래밍 대신 평소에 자주 사용하는 엑셀로 상관분석을 해볼 텐데요. 여러분, 지난 25일이 어떤 날인지 알고 계시나요? 바로 미국에서 연중 가장 큰 규모의 쇼핑이 이뤄지는 블랙 프라이데이였는데요! 우리나라에서도 블랙 프라이데이 기간에 직구 사이트를 통해 해외 상품을 직접 구매하는 것이 유행이죠.🛫🎁 그렇다면 ‘블랙 프라이데이’와 직구 사이트인 ‘아마존’에 대한 사람들의 관심도에는 어떠한 선형 관계가 존재할까요? 이러한 궁금증은 바로 엑셀을 활용한 ‘상관분석’으로 해결할 수 있는데요! 상관분석으로 데이터의 선형적인 관계를 파악하는 방법, 궁금하지 않으신가요?
이 뉴스레터를 보면 좋은 사람은? 👶🏻 : 통계의 ‘통’자도 모르는 통계 왕왕왕초보! 👲🏻 : 실무에서 사용하는 엑셀로 상관분석을 하고 싶으신 분! 👸🏻 : ‘나도 상관분석해봤어~’ 라고 자랑하고 싶으신 분! - 리사 드림💌
|
상관분석과 상관계수가 뭔가요? 🔎
여러분과 오늘 다룰 <노코드 데이터분석 따라하기>는 ‘블랙 프라이데이’와 직구 사이트인 ‘아마존’의 상관분석인데요. 그런데, 상관분석이 뭐죠? 🙋🏻♀️🙋🏻♂️ 상관 분석이란 2개의 ‘연속형 데이터’ 간의 ‘선형적 관계’를 분석하는 기법입니다. 여기서 연속형 데이터란 데이터와 데이터 사이에 끊어짐이 없이 연속적으로 이어진 경우로 몸무게와 사람의 키, 길이, 매출 등이 그 예시에 속합니다. (연속형 데이터가 더 궁금하다면, 여기 클릭!) 선형적 관계란 비례식이 성립되는 관계로, 데이터 X가 증가함에 따라 데이터 Y도 증가하거나 감소하는 관계를 말하죠! 즉, 우리는 2가지 연속형 데이터인 ‘사람들의 블랙 프라이데이에 대한 관심도’와 ‘사람들의 직구 사이트(아마존)에 대한 관심도’간의 선형적인 관계를 파악할 예정입니다.
그런데, 선형적 관계는 주관적이기 때문에 데이터를 관찰하는 사람마다 해석이 다를 수 있어요.😧 따라서 상관계수라는 개념이 도입되는데요! 상관계수는 두 데이터 사이의 선형 관계를 반영하는 수치로, 값의 범위는 -1부터 +1 사이입니다. 일반적으로 상관계수는 ‘피어슨 상관계수’를 의미하는데요. 여러분께 한 가지 퀴즈를 내보도록 하죠! ‘피어슨’ 상관계수라는 이름은 어떻게 붙여진 것일까요?🧐 파스칼의 삼각형이나 드모르간의 법칙과 같이 저명한 수학자의 대부분은 자신이 발견한 수학 공식에 자신의 이름을 붙여왔습니다. 피어슨의 상관계수도 이와 같은 원리인데요. 수학자인 피어슨은 두 데이터 사이의 선형적인 관계를 나타내는 상관계수를 개발했고, 피어슨의 이름을 딴 ‘피어슨 상관계수’가 사람들에게 널리 알려진 것이죠.
상관계수, 조금 더 자세히! 😏
지금까지 상관분석과 상관계수에 대해 살펴보았는데요. 이러한 상관관계는 두 데이터가 같은 방향으로 변하거나 서로 반대 방향으로 변하는 성질을 반영해 줍니다. 만약 데이터가 같은 방향으로 변하면 이들의 상관관계를 ‘직접 상관관계’ 또는 ‘양의 상관관계’라고 불러요. 반면, 두 데이터가 서로 반대 방향으로 변하면 이들의 상관관계는 ‘간접 상관관계’ 또는 ‘음의 상관관계’라고 말하죠.
그렇다면 상관관계는 어떻게 해석할 수 있을까요? 바로 앞서 도입한 상관계수의 개념을 활용하면 되죠! 아래의 표를 통해 상관계수의 크기에 따른 일반적인 해석 방법을 알아보도록 해요.
위 표에서 알 수 있듯이 상관계수의 절댓값이 0.8에서 1 사이라면 매우 강한 상관관계를 가지고 있다고 말하며, 0.6에서 0.8 사이라면 강한 상관관계, 0.4에서 0.6 사이라면 중간 정도의 상관 관계를 지녔다고 말하는 것을 확인할 수 있어요. 또한 0.2에서 0.4 사이라면 약한 상관관계, 0.2에서 0 사이라면 매우 약한 상관관계를 가진 것으로 해석할 수 있죠. 그렇다면 이러한 상관계수와 관련된 내용을 그래프로 알아볼까요?
왼쪽 그래프는 우상향하는 모습인데요. X 데이터와 Y 데이터의 선형적인 관계가 명확히 드러나며, 매우 강한 양의 상관관계가 있다고 해석 가능합니다. 반면, 오른쪽 그래프는 앞선 그래프보다는 미약하지만, 우상향하는 모습을 확인할 수 있는데요. 따라서 X 데이터와 Y 데이터 사이에는 약한 양의 상관관계가 있다고 해석 가능하죠.
다음 그래프는 우하향하는 모습을 하고 있는데요 왼쪽의 그래프는 X 데이터와 Y 데이터의 선형적인 관계가 명확히 드러나며, 매우 강한 음의 상관관계가 있다고 해석 가능합니다. 반면, 오른쪽 그래프는 앞선 그래프보다는 미약한 우하향 모습이며, 따라서 약한 음의 상관관계가 있다고 해석 가능하죠! 즉, 양의 선형 관계뿐만 아니라 음의 선형 관계도 함께 고려해야 한다는 것을 잊으면 안 돼요. 🤗
그렇다면, 이러한 상관계수에 따라 그래프의 모양이 어떻게 달라지는지 한눈에 확인해 보도록 해요. 👀 해당 그래프는 앞에서 살펴본 표의 결과와 동일한데요. 첫 번째와 다섯 번째의 그래프는 상관계수의 절댓값이 1이며, 따라서 매우 강한 선형 관계를 가지고 있어요. 두 번째와 네 번째 그래프와 같이 상관계수의 절댓값이 1에서부터 멀어져 0으로 가까워지면 강한 선형 관계가 점차 약해지기 시작하죠. 마지막으로 세 번째 그래프를 통해 상관계수가 0일 경우, 선형 관계를 찾기 어려운 것을 알 수 있습니다.
상관관계 ≠ 인과관계 🤓
상관 분석을 통해서는 어떤 정보를 알 수 있을까요? 데이터 분석을 하기 전, 실제 사례를 활용한 그래프를 통해 상관 분석을 해석하는 방법을 알아보도록 해요. X 데이터를 식사량으로, Y 데이터를 몸무게라고 가정해 볼게요! 그래프에서 알 수 있듯이 ‘식사량’이 증가했고 ‘몸무게’ 역시 증가했습니다. 따라서 두 데이터인 식사량과 몸무게는 양의 상관관계를 가졌다고 말할 수 있는데요.
그런데, 여러분 식사량이 늘어나면 몸무게가 증가한다고 말할 수 있을까요? 정답은 아닙니다.🙅🏻♀️🙅🏻♂️ 몸무게가 증가하는 요인으로는 스트레스나 지병 등 다양한 원인이 존재하기 때문에 식사량이 증가했기 때문에 몸무게가 증가했다고 단정 지을 수 없을 것입니다. 즉, 상관관계가 있다고 반드시 인과관계가 있는 것은 아닌데요. 인과관계란, X 데이터가 원인이 되어 Y 데이터의 결과에 직접적으로 영향을 주는 것을 말해요. 하지만, X 데이터와 Y 데이터가 상관관계에 있다고 해서 X 데이터가 Y 데이터의 원인임이 반드시 입증되지는 않죠. 마치 앞선 식사량과 몸무게 예시에서 원인이 되는 변수가 ‘식사량’ 뿐만 아니라 ‘스트레스/지병’ 등의 수많은 데이터가 존재한 것처럼요. 결론적으로 상관관계는 반드시 인과관계로 이어지지 않기 때문에 상관관계를 원인과 결과로 해석하면 안 돼요!
블랙 프라이데이와 직구 사이트의 상관관계는?🛫
그렇다면 실제 데이터를 활용하여 엑셀 데이터 분석을 하는 시간을 가져보죠! 그전, 우리의 관심 목표를 다시 한번 정리해 볼게요. 지난 11월 25일은 ‘블랙 프라이데이’로 미국 최대 규모의 쇼핑이 이뤄지는 날이었는데요. 블랙 프라이데이 시즌에는 미국의 많은 온라인 쇼핑몰이나 할인점에서 재고를 처분하기 위해 파격적인 할인을 합니다. 반면, 국내의 경우 미국에 비해 세일의 정도가 약하기 때문에, 많은 우리나라 소비자들은 미국의 인터넷 쇼핑몰을 통해 직접 구매하는 ‘직구’를 하는데요. 이때, 유명한 직구 사이트로 ‘아마존’(amazon), ‘월마트’(walmart), ‘이베이’(ebay)가 있다고 해요. 그렇다면 ‘블랙 프라이데이’와 직구 사이트인 ‘아마존’에 대한 우리나라 사람들의 관심도에는 어떠한 상관관계가 존재할까요?
사람들의 관심도에 대한 데이터를 수집하기 위해서는 소셜 빅데이터 분석 플랫폼인 ‘네이버 데이터랩’(DataLab)을 활용하면 좋은데요! 네이버 데이터랩은 분야별 인기 검색어, 실시간 급 상승 검색어, 검색어 트렌드, 지역별/분야별 인기 등의 다양한 시사점을 찾아볼 수 있는 검색어 빅데이터 서비스 플랫폼입니다. 네이버 데이터랩은 기간/범위/성별/연령 등의 자세한 인사이트를 도출할 수 있어 세분화된 검색 자료가 필요할 때 주로 사용되죠. 이번 <노코드 데이터분석 따라하기>에서는 네이버 데이터랩을 활용하여 ‘블랙 프라이데이’와 직구 사이트인 ‘아마존’에 대한 사람들의 관심도를 조사해 볼 것입니다! (이때, 블랙 프라이데이가 포함된 11월의 전체 데이터를 활용하기 위하여 기간을 2021년 11월로 설정하고, 더 정확한 검색어를 위해 검색 키워드에 영어와 한글을 함께 입력할게요.) 그렇다면, 동영상을 천천히 따라 하시면서 네이버 데이터랩을 통한 데이터 수집 방법과 엑셀로 상관분석을 계산하는 방법을 알아보도록 해요! (그전, 네이버 데이터랩에 접속해주세요)
엑셀을 활용하여 상관분석을 하는 방법, 이제 확실하게 아셨나요? 해당 영상에서 알 수 있듯이 ‘블랙 프라이데이’(blackfriday)와 직구 사이트인 ‘아마존’(amazon)에 대한 관심도의 상관계수는 0.92로 매우 강한 양의 상관관계가 있는 것을 알 수 있죠! 이러한 과정을 또 다른 직구 사이트인 ‘월마트’(walmart)와 ‘이베이’(ebay)에 적용한 결과는 아래 그림을 통해 확인 가능한데요. 먼저, 월마트 예시를 해석해 보도록 해요. ‘블랙 프라이데이’(blackfriday)와 직구 사이트인 ‘월마트’(walmart)에 대한 관심도의 상관계수는 0.671로 강한 양의 상관관계가 있습니다. 😏 마지막으로는 이베이 예시를 살펴볼게요. ‘블랙 프라이데이’(blackfriday)와 직구 사이트인 ‘이베이’(ebay)에 대한 관심도의 상관계수는 0.479로 중간 정도의 양의 상관관계가 있죠! 즉 직구 사이트의 경우, 아마존(amazon), 월마트(walmart), 이베이(ebay) 순으로 블랙 프라이데이(blackfriday)에 대한 관심도의 상관관계가 높은 것을 알 수 있어요!
지금 이 콘텐츠 공유하기👇
뉴스레터 콘텐츠로 바로 가기! 📚
오늘도 어김없이 돌아온 <노코드 데이터 분석 따라하기> 5️⃣번째 시간! 어려운 프로그래밍 대신 평소에 자주 사용하는 엑셀로 상관분석을 해볼 텐데요. 여러분, 지난 25일이 어떤 날인지 알고 계시나요? 바로 미국에서 연중 가장 큰 규모의 쇼핑이 이뤄지는 블랙 프라이데이였는데요! 우리나라에서도 블랙 프라이데이 기간에 직구 사이트를 통해 해외 상품을 직접 구매하는 것이 유행이죠.🛫🎁 그렇다면 ‘블랙 프라이데이’와 직구 사이트인 ‘아마존’에 대한 사람들의 관심도에는 어떠한 선형 관계가 존재할까요? 이러한 궁금증은 바로 엑셀을 활용한 ‘상관분석’으로 해결할 수 있는데요! 상관분석으로 데이터의 선형적인 관계를 파악하는 방법, 궁금하지 않으신가요?
이 뉴스레터를 보면 좋은 사람은?
👶🏻 : 통계의 ‘통’자도 모르는 통계 왕왕왕초보!
👲🏻 : 실무에서 사용하는 엑셀로 상관분석을 하고 싶으신 분!
👸🏻 : ‘나도 상관분석해봤어~’ 라고 자랑하고 싶으신 분!
상관분석과 상관계수가 뭔가요? 🔎
여러분과 오늘 다룰 <노코드 데이터분석 따라하기>는 ‘블랙 프라이데이’와 직구 사이트인 ‘아마존’의 상관분석인데요. 그런데, 상관분석이 뭐죠? 🙋🏻♀️🙋🏻♂️ 상관 분석이란 2개의 ‘연속형 데이터’ 간의 ‘선형적 관계’를 분석하는 기법입니다. 여기서 연속형 데이터란 데이터와 데이터 사이에 끊어짐이 없이 연속적으로 이어진 경우로 몸무게와 사람의 키, 길이, 매출 등이 그 예시에 속합니다. (연속형 데이터가 더 궁금하다면, 여기 클릭!) 선형적 관계란 비례식이 성립되는 관계로, 데이터 X가 증가함에 따라 데이터 Y도 증가하거나 감소하는 관계를 말하죠! 즉, 우리는 2가지 연속형 데이터인 ‘사람들의 블랙 프라이데이에 대한 관심도’와 ‘사람들의 직구 사이트(아마존)에 대한 관심도’간의 선형적인 관계를 파악할 예정입니다.
그런데, 선형적 관계는 주관적이기 때문에 데이터를 관찰하는 사람마다 해석이 다를 수 있어요.😧 따라서 상관계수라는 개념이 도입되는데요! 상관계수는 두 데이터 사이의 선형 관계를 반영하는 수치로, 값의 범위는 -1부터 +1 사이입니다. 일반적으로 상관계수는 ‘피어슨 상관계수’를 의미하는데요. 여러분께 한 가지 퀴즈를 내보도록 하죠! ‘피어슨’ 상관계수라는 이름은 어떻게 붙여진 것일까요?🧐 파스칼의 삼각형이나 드모르간의 법칙과 같이 저명한 수학자의 대부분은 자신이 발견한 수학 공식에 자신의 이름을 붙여왔습니다. 피어슨의 상관계수도 이와 같은 원리인데요. 수학자인 피어슨은 두 데이터 사이의 선형적인 관계를 나타내는 상관계수를 개발했고, 피어슨의 이름을 딴 ‘피어슨 상관계수’가 사람들에게 널리 알려진 것이죠.
상관계수, 조금 더 자세히! 😏
지금까지 상관분석과 상관계수에 대해 살펴보았는데요. 이러한 상관관계는 두 데이터가 같은 방향으로 변하거나 서로 반대 방향으로 변하는 성질을 반영해 줍니다. 만약 데이터가 같은 방향으로 변하면 이들의 상관관계를 ‘직접 상관관계’ 또는 ‘양의 상관관계’라고 불러요. 반면, 두 데이터가 서로 반대 방향으로 변하면 이들의 상관관계는 ‘간접 상관관계’ 또는 ‘음의 상관관계’라고 말하죠.
그렇다면 상관관계는 어떻게 해석할 수 있을까요? 바로 앞서 도입한 상관계수의 개념을 활용하면 되죠! 아래의 표를 통해 상관계수의 크기에 따른 일반적인 해석 방법을 알아보도록 해요.
위 표에서 알 수 있듯이 상관계수의 절댓값이 0.8에서 1 사이라면 매우 강한 상관관계를 가지고 있다고 말하며, 0.6에서 0.8 사이라면 강한 상관관계, 0.4에서 0.6 사이라면 중간 정도의 상관 관계를 지녔다고 말하는 것을 확인할 수 있어요. 또한 0.2에서 0.4 사이라면 약한 상관관계, 0.2에서 0 사이라면 매우 약한 상관관계를 가진 것으로 해석할 수 있죠. 그렇다면 이러한 상관계수와 관련된 내용을 그래프로 알아볼까요?
왼쪽 그래프는 우상향하는 모습인데요. X 데이터와 Y 데이터의 선형적인 관계가 명확히 드러나며, 매우 강한 양의 상관관계가 있다고 해석 가능합니다. 반면, 오른쪽 그래프는 앞선 그래프보다는 미약하지만, 우상향하는 모습을 확인할 수 있는데요. 따라서 X 데이터와 Y 데이터 사이에는 약한 양의 상관관계가 있다고 해석 가능하죠.
다음 그래프는 우하향하는 모습을 하고 있는데요 왼쪽의 그래프는 X 데이터와 Y 데이터의 선형적인 관계가 명확히 드러나며, 매우 강한 음의 상관관계가 있다고 해석 가능합니다. 반면, 오른쪽 그래프는 앞선 그래프보다는 미약한 우하향 모습이며, 따라서 약한 음의 상관관계가 있다고 해석 가능하죠! 즉, 양의 선형 관계뿐만 아니라 음의 선형 관계도 함께 고려해야 한다는 것을 잊으면 안 돼요. 🤗
그렇다면, 이러한 상관계수에 따라 그래프의 모양이 어떻게 달라지는지 한눈에 확인해 보도록 해요. 👀 해당 그래프는 앞에서 살펴본 표의 결과와 동일한데요. 첫 번째와 다섯 번째의 그래프는 상관계수의 절댓값이 1이며, 따라서 매우 강한 선형 관계를 가지고 있어요. 두 번째와 네 번째 그래프와 같이 상관계수의 절댓값이 1에서부터 멀어져 0으로 가까워지면 강한 선형 관계가 점차 약해지기 시작하죠. 마지막으로 세 번째 그래프를 통해 상관계수가 0일 경우, 선형 관계를 찾기 어려운 것을 알 수 있습니다.
상관관계 ≠ 인과관계 🤓
상관 분석을 통해서는 어떤 정보를 알 수 있을까요? 데이터 분석을 하기 전, 실제 사례를 활용한 그래프를 통해 상관 분석을 해석하는 방법을 알아보도록 해요. X 데이터를 식사량으로, Y 데이터를 몸무게라고 가정해 볼게요! 그래프에서 알 수 있듯이 ‘식사량’이 증가했고 ‘몸무게’ 역시 증가했습니다. 따라서 두 데이터인 식사량과 몸무게는 양의 상관관계를 가졌다고 말할 수 있는데요.
그런데, 여러분 식사량이 늘어나면 몸무게가 증가한다고 말할 수 있을까요? 정답은 아닙니다.🙅🏻♀️🙅🏻♂️ 몸무게가 증가하는 요인으로는 스트레스나 지병 등 다양한 원인이 존재하기 때문에 식사량이 증가했기 때문에 몸무게가 증가했다고 단정 지을 수 없을 것입니다. 즉, 상관관계가 있다고 반드시 인과관계가 있는 것은 아닌데요. 인과관계란, X 데이터가 원인이 되어 Y 데이터의 결과에 직접적으로 영향을 주는 것을 말해요. 하지만, X 데이터와 Y 데이터가 상관관계에 있다고 해서 X 데이터가 Y 데이터의 원인임이 반드시 입증되지는 않죠. 마치 앞선 식사량과 몸무게 예시에서 원인이 되는 변수가 ‘식사량’ 뿐만 아니라 ‘스트레스/지병’ 등의 수많은 데이터가 존재한 것처럼요. 결론적으로 상관관계는 반드시 인과관계로 이어지지 않기 때문에 상관관계를 원인과 결과로 해석하면 안 돼요!
블랙 프라이데이와 직구 사이트의 상관관계는?🛫
그렇다면 실제 데이터를 활용하여 엑셀 데이터 분석을 하는 시간을 가져보죠! 그전, 우리의 관심 목표를 다시 한번 정리해 볼게요. 지난 11월 25일은 ‘블랙 프라이데이’로 미국 최대 규모의 쇼핑이 이뤄지는 날이었는데요. 블랙 프라이데이 시즌에는 미국의 많은 온라인 쇼핑몰이나 할인점에서 재고를 처분하기 위해 파격적인 할인을 합니다. 반면, 국내의 경우 미국에 비해 세일의 정도가 약하기 때문에, 많은 우리나라 소비자들은 미국의 인터넷 쇼핑몰을 통해 직접 구매하는 ‘직구’를 하는데요. 이때, 유명한 직구 사이트로 ‘아마존’(amazon), ‘월마트’(walmart), ‘이베이’(ebay)가 있다고 해요. 그렇다면 ‘블랙 프라이데이’와 직구 사이트인 ‘아마존’에 대한 우리나라 사람들의 관심도에는 어떠한 상관관계가 존재할까요?
사람들의 관심도에 대한 데이터를 수집하기 위해서는 소셜 빅데이터 분석 플랫폼인 ‘네이버 데이터랩’(DataLab)을 활용하면 좋은데요! 네이버 데이터랩은 분야별 인기 검색어, 실시간 급 상승 검색어, 검색어 트렌드, 지역별/분야별 인기 등의 다양한 시사점을 찾아볼 수 있는 검색어 빅데이터 서비스 플랫폼입니다. 네이버 데이터랩은 기간/범위/성별/연령 등의 자세한 인사이트를 도출할 수 있어 세분화된 검색 자료가 필요할 때 주로 사용되죠. 이번 <노코드 데이터분석 따라하기>에서는 네이버 데이터랩을 활용하여 ‘블랙 프라이데이’와 직구 사이트인 ‘아마존’에 대한 사람들의 관심도를 조사해 볼 것입니다! (이때, 블랙 프라이데이가 포함된 11월의 전체 데이터를 활용하기 위하여 기간을 2021년 11월로 설정하고, 더 정확한 검색어를 위해 검색 키워드에 영어와 한글을 함께 입력할게요.) 그렇다면, 동영상을 천천히 따라 하시면서 네이버 데이터랩을 통한 데이터 수집 방법과 엑셀로 상관분석을 계산하는 방법을 알아보도록 해요! (그전, 네이버 데이터랩에 접속해주세요)
엑셀을 활용하여 상관분석을 하는 방법, 이제 확실하게 아셨나요? 해당 영상에서 알 수 있듯이 ‘블랙 프라이데이’(blackfriday)와 직구 사이트인 ‘아마존’(amazon)에 대한 관심도의 상관계수는 0.92로 매우 강한 양의 상관관계가 있는 것을 알 수 있죠! 이러한 과정을 또 다른 직구 사이트인 ‘월마트’(walmart)와 ‘이베이’(ebay)에 적용한 결과는 아래 그림을 통해 확인 가능한데요. 먼저, 월마트 예시를 해석해 보도록 해요. ‘블랙 프라이데이’(blackfriday)와 직구 사이트인 ‘월마트’(walmart)에 대한 관심도의 상관계수는 0.671로 강한 양의 상관관계가 있습니다. 😏 마지막으로는 이베이 예시를 살펴볼게요. ‘블랙 프라이데이’(blackfriday)와 직구 사이트인 ‘이베이’(ebay)에 대한 관심도의 상관계수는 0.479로 중간 정도의 양의 상관관계가 있죠! 즉 직구 사이트의 경우, 아마존(amazon), 월마트(walmart), 이베이(ebay) 순으로 블랙 프라이데이(blackfriday)에 대한 관심도의 상관관계가 높은 것을 알 수 있어요!
지금 이 콘텐츠 공유하기👇