
뉴스레터 콘텐츠로 바로 가기! 📚
오늘도 어김없이 돌아온 <노코드 데이터 분석 따라하기> 4️⃣번째 시간! 어려운 프로그래밍 대신 평소에 자주 사용하는 엑셀로 데이터를 탐색하는 방법을 알아보도록 할 텐데요. 데이터의 관계를 한눈에 파악할 수 있는 방법은 무엇일까요?🤷🏻♀️ 만약 데이터들의 단위나 특성이 다르다면, 어떠한 방법으로 데이터를 변환해 주어야 할까요?🤷🏻♂️ 이러한 궁금증은 바로 엑셀을 활용한 ‘산점도’와 ‘정규화/표준화’로 해결할 수 있는데요! 산점도와 정규·표준화로 데이터를 탐색하는 방법, 궁금하지 않으신가요?
이 뉴스레터를 보면 좋은 사람은? 👶🏻 : 통계의 ‘통’자도 모르는 통계 왕왕왕초보! 👲🏻 : 실무에서 사용하는 엑셀로 산점도를 그려보고 싶으신 분! 👸🏻 : ‘나도 정규화랑 표준화해봤어~’ 라고 자랑하고 싶으신 분!
-에이블런 리사 드림💌
|
💬 데이터 탐색이 뭔가요? 🔎
여러분, 한 가지 질문을 해보도록 하겠습니다.🙋🏻♀️🙋🏻♂️ 본격적인 데이터 분석을 위해 선행되어야 하는 작업이 무엇이라고 생각하시나요? 바로 데이터가 어떠한 특징을 가지고 있는지를 파악하는 것이며, 이러한 과정을 탐색적 데이터 분석이라고 부릅니다.
탐색적 데이터 분석(Exploratory Data Analysis, EDA)이란, 벨 연구소의 수학자 존 튜키 (John Tukey)가 개발한 데이터 분석 방법론으로 다양한 각도에서 데이터를 이해하고 관찰하는 모든 과정을 포함해요. 즉 요약 통계량을 바탕으로 데이터의 특성을 이해하며, 데이터 시각화를 통해 데이터들 간의 관계를 파악하고, 데이터 간의 단위나 특성이 다를 경우 이러한 영향을 줄여주는 것이 탐색적 데이터 분석에 해당되는 것이죠. 이러한 탐색적 데이터 분석을 활용하면 데이터의 패턴과 현상을 더 잘 이해할 수 있고, 데이터 분석을 위해 필요한 통계 방법을 결정하는데 도움을 얻을 수 있어요! 그렇다면, 이번 <노코드 데이터 분석 따라하기> 네 번째 시간에서는 산점도를 활용하여 데이터의 관계를 파악하고, 정규화와 표준화를 통해 데이터 간의 단위나 특성이 다르더라도 데이터의 범위를 비슷하게 만들어주는 방법을 알아보도록 하겠습니다. (요약 통계량을 구하는 방법이 궁금하다면 여기 클릭!)
💬 산점도로 데이터의 관계를 알아보아요!
먼저, 탐색적 데이터 분석의 방법 중 하나인 산점도에 대해 알아보아요. 산점도는 2개의 변수 간의 관계를 파악하기 위해 하나의 변수를 X축, 다른 변수를 Y축에 배치하고 이들의 좌표를 점으로 나타낸 그림입니다. 이러한 산점도를 활용하면 변수들 간의 3가지 중요한 정보인 ‘선형/비선형 관계, 관련성 정도, 비례/반비례 관계’를 파악할 수 있습니다. 그뿐만 아니라, 산점도를 통해 관측된 데이터의 패턴에서 많이 벗어나는 이상값도 확인 가능한데요. 이러한 이상값이 발생한 원인을 밝혀내어, 추후 분석에 해당 값을 포함하거나 제외할 수도 있어요.

먼저 산점도를 통해 알 수 있는 중요한 정보 중 첫 번째인 ‘선형/비선형 관계’를 알아보도록 하겠습니다. 만약 산점도를 통해 나온 점들이 직선 형태에 가깝다면 선형 관계로 해석하며, 직선 형태가 아닌 곡선 형태로 나타난다면 비선형 관계라고 볼 수 있어요.

다음으로 산점도를 통해 알 수 있는 중요한 정보 중 두 번째인 ‘관련성 정도’인데요. 산점도의 점들이 오밀조밀하게 뭉쳐 있는 형태라면 두 변수의 높은 관련성이 있다고 보며, 점들이 흩어져 있는 형태를 가진다면 낮은 관련성을 가진다고 해석합니다.

마지막으로 ‘비례/반비례’ 관계를 알아보도록 해요. 한 변수가 증가할 때, 다른 변수가 증가하는 형태라면 두 변수는 비례 관계로 양의 연관성을 갖는다고 해석합니다. 반대로 한 변수가 증가할 때, 다른 변수가 감소하는 형태라면 두 변수는 반비례 관계로 음의 연관성을 갖는다고 말할 수 있죠!
이러한 산점도를 해석할 때에는 유의해야 할 점이 있는데요! 바로 ‘인과 관계’와 혼동해서는 안된다는 것입니다. 산점도를 통해서는 단순한 변수 간의 ‘연관성’ 정도만 파악할 수 있는데요. 따라서 하나의 변수가 원인이 되어 다른 변수의 결과가 나타난다는 해석은 잘못된 것이죠!
💬 단 6️⃣초만에 엑셀로 산점도 그리기
지난 <노코드 데이터분석 따라하기>의 첫 번째 시간, 여러분은 원자재를 구매하는 의사 결정권자👷🏻👷🏻♂로서 좋은 원자재를 구입할 미션을 성공적으로 수행했었는데요. 이때, 적절한 원자재를 찾기 위하여 미국($/톤)과 일본(엔/톤)에서 수입하는 철스크랩의 가격을 비교했었습니다. 그렇다면, 미국($/톤) 철스크랩의 가격과 일본(엔/톤) 철스크랩의 가격에는 어떠한 연관성이 있을까요? 엑셀을 활용해 산점도를 그리고, 두 가격 변수의 연관성을 파악해보도록 해요!

6초 안에 산점도를 그릴 수 있다니! 신기하신가요?👏🏻👏🏻👏🏻 아래 사진은 동영상에서 보았던 미국($/톤) 철스크랩 가격과 일본 철스크랩(엔/톤) 가격의 산점도입니다. (X축이 미국 철스크랩, Y축이 일본 철스크랩입니다.) 두 가격 변수는 비례 관계로 미국($/톤) 철스크랩 가격과 일본 철스크랩(엔/톤) 가격은 양의 연관성을 가지고 있다고 해석할 수 있죠!

💬 정규화와 표준화로 데이터 범위를 비슷하게 맞춰요!
이번에는 탐색적 데이터 분석의 또 다른 방법인 정규화와 표준화에 대해 알아보아요. 여러분, 데이터의 수치를 그대로 받아들이면 배신 당할 수 있다는 사실을 알고 계셨나요? 앗, 그게 무슨 말인지 당황스러우시다고요?😱
데이터는 특성에 따라서 단위가 다를 수 있는데요. 키가 175cm인 사람과 몸무게가 80kg인 사람 중 누가 더 건장한 사람인지 비교하는 것은 어렵습니다. 또한, 하루 주문 건수가 10000건인 A 쇼핑몰과 시장 점유율이 10%인 B 쇼핑몰 중 어느 쇼핑몰이 더욱 인기 있는지 비교하는 것도 쉽지 않죠. 그뿐만 아니라 단위가 같다고 하더라도 값의 범위가 크게 차이 난다면, 제대로 된 데이터 간 비교는 힘들게 됩니다. 전국 대부분의 학생들이 응시하는 수능에서 10등을 하는 것과 학교 단원 평가에서 10등을 하는 것이 다른 것처럼요.
따라서 데이터의 수치를 그대로 비교하는 것이 아닌, 단위나 특성을 무시해 데이터의 범위를 비슷하게 맞춰주는 과정이 필요한데요. 이때 사용하는 방법이 정규화와 표준화입니다!

먼저 정규화를 알아보도록 해요. 정규화는 기존 데이터들을 0~1 사이의 값으로 변환해주는 과정입니다. 위의 사진처럼 최소값, 최대값을 사용하여 새로운 정규화 값을 도출하며 데이터들이 0과 1 사이라는 평등한 위치에 놓이기 때문에 특정 데이터가 해당 그룹에서 어떤 위치에 있는지 볼 때 유용하게 작용하죠!

이번에는 표준화를 살펴볼게요. 표준화는 기존 데이터들의 범위를 평균과 표준편차를 사용하여 정규분포로 변환해 주는 과정입니다. (정규분포가 궁금하다면, 여기 클릭!) 데이터들이 정규분포를 따른다고 가정한다면, 데이터들의 평균은 0이며 표준편차는 1이 되는데요. 모든 데이터들의 평균을 0으로 설정하여 비교를 더욱 잘할 수 있고, 표준편차를 1로 만들어 데이터 간의 간극이 줄어들기 때문에 전체적인 데이터의 분포를 파악하기에 편리합니다!
💬 엑셀로 정규화와 표준화 계산하기!
그렇다면, 엑셀로 정규화와 표준화를 계산하기 위해 앞선 철스크랩 가격 데이터를 다시 떠올려 볼까요? 📊 우리가 관심을 가지는 데이터는 미국($/톤)과 일본(엔/톤)에서 수입하는 철스크랩의 가격이었는데요. 잠깐! 🙋🏻♀️🙋🏻♂️ 두 데이터의 단위가 다른 것을 확인할 수 있습니다. (현재 1$는 한화로 1404원이며, 1엔은 한화로 9원 정도이죠.) 따라서 데이터 분석을 하기 전, 데이터의 범위를 비슷하게 만들어주는 정규화와 표준화 과정이 필수로 필요합니다.
엑셀을 활용해 정규화와 표준화를 계산하는 방법은 위 사진에서 살펴본 공식을 사용하는 것인데요. 이때, 모든 데이터 값에서 최소값과 최대값, 평균과 표준편차는 동일하기 때문에 절대참조($)를 사용하여 셀을 고정시켜주어야 합니다. (절대참조 단축키는 F4를 1번만 누르기죠.) 그렇다면, 동영상을 천천히 따라하시면서 정규화와 표준화를 계산해보도록 해요!

엑셀을 활용하여 정규화와 표준화를 하는 방법, 이제 확실하게 아셨나요? 영상에서는 일본(엔/톤)의 철스크랩 가격을 정규화와 표준화를 시켜준 후, 그래프로 비교해보았는데요. 이러한 과정을 미국($/톤) 철스크랩 가격에도 동일하게 적용시켜주면 된답니다. (아래에 미국($/톤) 철스크랩 가격의 정규·표준화 결과도 추가했어요.) 영상을 통해 알 수 있듯이 정규화와 표준화를 통해 데이터의 범위를 비슷하게 맞춰, 단위의 영향을 줄여주는 것을 알 수 있죠! (왼쪽의 축 범위를 보면, 범위가 비슷해진 것을 확인할 수 있습니다.)

이번주 에이블레터 어떠셨나요?
좋았어요😁 아쉬웠어요😕
지난 <노코드 데이터분석 따라하기> 다시 보기
평균만 믿다가 배신? 😱
히히😁히스토그램을 엑셀로 그려요?
여러분이 그리신 분포의 형태는?👩🏻🎨

지금 이 콘텐츠 공유하기👇
뉴스레터 콘텐츠로 바로 가기! 📚
오늘도 어김없이 돌아온 <노코드 데이터 분석 따라하기> 4️⃣번째 시간! 어려운 프로그래밍 대신 평소에 자주 사용하는 엑셀로 데이터를 탐색하는 방법을 알아보도록 할 텐데요. 데이터의 관계를 한눈에 파악할 수 있는 방법은 무엇일까요?🤷🏻♀️ 만약 데이터들의 단위나 특성이 다르다면, 어떠한 방법으로 데이터를 변환해 주어야 할까요?🤷🏻♂️ 이러한 궁금증은 바로 엑셀을 활용한 ‘산점도’와 ‘정규화/표준화’로 해결할 수 있는데요! 산점도와 정규·표준화로 데이터를 탐색하는 방법, 궁금하지 않으신가요?
이 뉴스레터를 보면 좋은 사람은?
👶🏻 : 통계의 ‘통’자도 모르는 통계 왕왕왕초보!
👲🏻 : 실무에서 사용하는 엑셀로 산점도를 그려보고 싶으신 분!
👸🏻 : ‘나도 정규화랑 표준화해봤어~’ 라고 자랑하고 싶으신 분!
💬 데이터 탐색이 뭔가요? 🔎
여러분, 한 가지 질문을 해보도록 하겠습니다.🙋🏻♀️🙋🏻♂️ 본격적인 데이터 분석을 위해 선행되어야 하는 작업이 무엇이라고 생각하시나요? 바로 데이터가 어떠한 특징을 가지고 있는지를 파악하는 것이며, 이러한 과정을 탐색적 데이터 분석이라고 부릅니다.
탐색적 데이터 분석(Exploratory Data Analysis, EDA)이란, 벨 연구소의 수학자 존 튜키 (John Tukey)가 개발한 데이터 분석 방법론으로 다양한 각도에서 데이터를 이해하고 관찰하는 모든 과정을 포함해요. 즉 요약 통계량을 바탕으로 데이터의 특성을 이해하며, 데이터 시각화를 통해 데이터들 간의 관계를 파악하고, 데이터 간의 단위나 특성이 다를 경우 이러한 영향을 줄여주는 것이 탐색적 데이터 분석에 해당되는 것이죠. 이러한 탐색적 데이터 분석을 활용하면 데이터의 패턴과 현상을 더 잘 이해할 수 있고, 데이터 분석을 위해 필요한 통계 방법을 결정하는데 도움을 얻을 수 있어요! 그렇다면, 이번 <노코드 데이터 분석 따라하기> 네 번째 시간에서는 산점도를 활용하여 데이터의 관계를 파악하고, 정규화와 표준화를 통해 데이터 간의 단위나 특성이 다르더라도 데이터의 범위를 비슷하게 만들어주는 방법을 알아보도록 하겠습니다. (요약 통계량을 구하는 방법이 궁금하다면 여기 클릭!)
💬 산점도로 데이터의 관계를 알아보아요!
먼저, 탐색적 데이터 분석의 방법 중 하나인 산점도에 대해 알아보아요. 산점도는 2개의 변수 간의 관계를 파악하기 위해 하나의 변수를 X축, 다른 변수를 Y축에 배치하고 이들의 좌표를 점으로 나타낸 그림입니다. 이러한 산점도를 활용하면 변수들 간의 3가지 중요한 정보인 ‘선형/비선형 관계, 관련성 정도, 비례/반비례 관계’를 파악할 수 있습니다. 그뿐만 아니라, 산점도를 통해 관측된 데이터의 패턴에서 많이 벗어나는 이상값도 확인 가능한데요. 이러한 이상값이 발생한 원인을 밝혀내어, 추후 분석에 해당 값을 포함하거나 제외할 수도 있어요.
먼저 산점도를 통해 알 수 있는 중요한 정보 중 첫 번째인 ‘선형/비선형 관계’를 알아보도록 하겠습니다. 만약 산점도를 통해 나온 점들이 직선 형태에 가깝다면 선형 관계로 해석하며, 직선 형태가 아닌 곡선 형태로 나타난다면 비선형 관계라고 볼 수 있어요.
다음으로 산점도를 통해 알 수 있는 중요한 정보 중 두 번째인 ‘관련성 정도’인데요. 산점도의 점들이 오밀조밀하게 뭉쳐 있는 형태라면 두 변수의 높은 관련성이 있다고 보며, 점들이 흩어져 있는 형태를 가진다면 낮은 관련성을 가진다고 해석합니다.
마지막으로 ‘비례/반비례’ 관계를 알아보도록 해요. 한 변수가 증가할 때, 다른 변수가 증가하는 형태라면 두 변수는 비례 관계로 양의 연관성을 갖는다고 해석합니다. 반대로 한 변수가 증가할 때, 다른 변수가 감소하는 형태라면 두 변수는 반비례 관계로 음의 연관성을 갖는다고 말할 수 있죠!
이러한 산점도를 해석할 때에는 유의해야 할 점이 있는데요! 바로 ‘인과 관계’와 혼동해서는 안된다는 것입니다. 산점도를 통해서는 단순한 변수 간의 ‘연관성’ 정도만 파악할 수 있는데요. 따라서 하나의 변수가 원인이 되어 다른 변수의 결과가 나타난다는 해석은 잘못된 것이죠!
💬 단 6️⃣초만에 엑셀로 산점도 그리기
지난 <노코드 데이터분석 따라하기>의 첫 번째 시간, 여러분은 원자재를 구매하는 의사 결정권자👷🏻👷🏻♂로서 좋은 원자재를 구입할 미션을 성공적으로 수행했었는데요. 이때, 적절한 원자재를 찾기 위하여 미국($/톤)과 일본(엔/톤)에서 수입하는 철스크랩의 가격을 비교했었습니다. 그렇다면, 미국($/톤) 철스크랩의 가격과 일본(엔/톤) 철스크랩의 가격에는 어떠한 연관성이 있을까요? 엑셀을 활용해 산점도를 그리고, 두 가격 변수의 연관성을 파악해보도록 해요!
6초 안에 산점도를 그릴 수 있다니! 신기하신가요?👏🏻👏🏻👏🏻 아래 사진은 동영상에서 보았던 미국($/톤) 철스크랩 가격과 일본 철스크랩(엔/톤) 가격의 산점도입니다. (X축이 미국 철스크랩, Y축이 일본 철스크랩입니다.) 두 가격 변수는 비례 관계로 미국($/톤) 철스크랩 가격과 일본 철스크랩(엔/톤) 가격은 양의 연관성을 가지고 있다고 해석할 수 있죠!
💬 정규화와 표준화로 데이터 범위를 비슷하게 맞춰요!
이번에는 탐색적 데이터 분석의 또 다른 방법인 정규화와 표준화에 대해 알아보아요. 여러분, 데이터의 수치를 그대로 받아들이면 배신 당할 수 있다는 사실을 알고 계셨나요? 앗, 그게 무슨 말인지 당황스러우시다고요?😱
데이터는 특성에 따라서 단위가 다를 수 있는데요. 키가 175cm인 사람과 몸무게가 80kg인 사람 중 누가 더 건장한 사람인지 비교하는 것은 어렵습니다. 또한, 하루 주문 건수가 10000건인 A 쇼핑몰과 시장 점유율이 10%인 B 쇼핑몰 중 어느 쇼핑몰이 더욱 인기 있는지 비교하는 것도 쉽지 않죠. 그뿐만 아니라 단위가 같다고 하더라도 값의 범위가 크게 차이 난다면, 제대로 된 데이터 간 비교는 힘들게 됩니다. 전국 대부분의 학생들이 응시하는 수능에서 10등을 하는 것과 학교 단원 평가에서 10등을 하는 것이 다른 것처럼요.
따라서 데이터의 수치를 그대로 비교하는 것이 아닌, 단위나 특성을 무시해 데이터의 범위를 비슷하게 맞춰주는 과정이 필요한데요. 이때 사용하는 방법이 정규화와 표준화입니다!
먼저 정규화를 알아보도록 해요. 정규화는 기존 데이터들을 0~1 사이의 값으로 변환해주는 과정입니다. 위의 사진처럼 최소값, 최대값을 사용하여 새로운 정규화 값을 도출하며 데이터들이 0과 1 사이라는 평등한 위치에 놓이기 때문에 특정 데이터가 해당 그룹에서 어떤 위치에 있는지 볼 때 유용하게 작용하죠!
이번에는 표준화를 살펴볼게요. 표준화는 기존 데이터들의 범위를 평균과 표준편차를 사용하여 정규분포로 변환해 주는 과정입니다. (정규분포가 궁금하다면, 여기 클릭!) 데이터들이 정규분포를 따른다고 가정한다면, 데이터들의 평균은 0이며 표준편차는 1이 되는데요. 모든 데이터들의 평균을 0으로 설정하여 비교를 더욱 잘할 수 있고, 표준편차를 1로 만들어 데이터 간의 간극이 줄어들기 때문에 전체적인 데이터의 분포를 파악하기에 편리합니다!
💬 엑셀로 정규화와 표준화 계산하기!
그렇다면, 엑셀로 정규화와 표준화를 계산하기 위해 앞선 철스크랩 가격 데이터를 다시 떠올려 볼까요? 📊 우리가 관심을 가지는 데이터는 미국($/톤)과 일본(엔/톤)에서 수입하는 철스크랩의 가격이었는데요. 잠깐! 🙋🏻♀️🙋🏻♂️ 두 데이터의 단위가 다른 것을 확인할 수 있습니다. (현재 1$는 한화로 1404원이며, 1엔은 한화로 9원 정도이죠.) 따라서 데이터 분석을 하기 전, 데이터의 범위를 비슷하게 만들어주는 정규화와 표준화 과정이 필수로 필요합니다.
엑셀을 활용해 정규화와 표준화를 계산하는 방법은 위 사진에서 살펴본 공식을 사용하는 것인데요. 이때, 모든 데이터 값에서 최소값과 최대값, 평균과 표준편차는 동일하기 때문에 절대참조($)를 사용하여 셀을 고정시켜주어야 합니다. (절대참조 단축키는 F4를 1번만 누르기죠.) 그렇다면, 동영상을 천천히 따라하시면서 정규화와 표준화를 계산해보도록 해요!
엑셀을 활용하여 정규화와 표준화를 하는 방법, 이제 확실하게 아셨나요? 영상에서는 일본(엔/톤)의 철스크랩 가격을 정규화와 표준화를 시켜준 후, 그래프로 비교해보았는데요. 이러한 과정을 미국($/톤) 철스크랩 가격에도 동일하게 적용시켜주면 된답니다. (아래에 미국($/톤) 철스크랩 가격의 정규·표준화 결과도 추가했어요.) 영상을 통해 알 수 있듯이 정규화와 표준화를 통해 데이터의 범위를 비슷하게 맞춰, 단위의 영향을 줄여주는 것을 알 수 있죠! (왼쪽의 축 범위를 보면, 범위가 비슷해진 것을 확인할 수 있습니다.)
이번주 에이블레터 어떠셨나요?
좋았어요😁 아쉬웠어요😕
지난 <노코드 데이터분석 따라하기> 다시 보기
평균만 믿다가 배신? 😱
히히😁히스토그램을 엑셀로 그려요?
여러분이 그리신 분포의 형태는?👩🏻🎨