[통린이의 역습]데이터라고 다 같지 않다고요?🤨

<통린이의 역습>이 궁금하다면, 여기 클릭!🐥



오늘도 어김없이 돌아온 <통린이의 역습> 2️⃣번째 시간! 통린이(통계 왕초보🐥) 여러분은 성별 데이터와 몸무게 데이터에 어떤 차이점이 있는지 알고 계시나요? 바로 두 데이터의 종류가 다르다는 것인데요. 통계 전문가👩🏻‍🎓가 되기 위해서는 데이터가 어떠한 종류로 구성되어있는지를 필수적으로 알아야 합니다. 데이터의 종류에 따라 분석하는 방법이 달라지기 때문이죠! 그럼 데이터의 종류를 알아보기 위해서 함께 통계로 역습해볼까요?🔥
 

-에이블런 리사 드림💌




💬  데이터가 여러 종류로 나눠진다고?

#범주형은_명목형과_순서형으로 #수치형은_이산형과_연속형으로

난이도 : 달걀  하나 🥚 (1/5)
 

여러가지 데이터로 통계 분석을 하는 임무를 부여받은 통린이🐥의 머릿속은 복잡합니다.🤯 총 4가지 데이터인 성별, 학점, 뉴스레터 발행건수, 몸무게를 전달받았지만, 각각의 데이터를 파악하지 못했기 때문인데요. 하지만 여기서 포기할 통린이가 아니죠! 천천히 데이터의 종류를 살펴본 결과, 데이터는 크게 범주형과 수치형으로 나눠진다는 사실을 알게 되었습니다.



먼저, 범주형 데이터란 숫자로 측정하고 표시하는 것이 불가능한 자료를 의미합니다. 즉, 질적자료라고도 부를 수 있어요! 이러한 범주형 데이터는 데이터 간의 순위를 매길 수 있는지의 여부에 따라 2가지 속성으로 나눠지는데요. 데이터 간의 순위를 매길 수 없는 경우를 명목형 데이터라고 부릅니다. ‘성별’은 남자와 여자가 있으며, 이 둘의 순위를 매길 수 없기 때문에 명목형 데이터에 포함되죠. 성별 데이터 이외에도 사람들의 혈액형(A/B/AB/O)과 MBTI(16가지), 지역(서울/제주/부산 등)도 명목형 데이터가 될 수 있습니다. 반대로, 데이터 간의 순위를 순서대로 매길 수 있는 경우를 순서형 데이터라고 부르는데요. ‘학점’은 A등급부터 F등급 형태로 숫자가 아니기 때문에 측정이 불가능하지만, 가장 높은 A등급과 가장 낮은 F등급으로 순서를 매길 수 있기 때문에 순서형 데이터에 포함되죠. 학점 데이터 이외에도 만족도(상/중/하)와 선호 등급(선호/보통/혐오)이 순서형 데이터가 될 수 있어요!


그렇다면 이번에는 수치형 데이터를 알아볼까요? 수치형 데이터는 숫자로 측정하고 표시하는 것이 가능한 자료를 의미합니다. 즉, 양적자료라고도 부를 수 있어요! 이러한 수치형 데이터는 데이터와 데이터 사이에 끊어짐이 있는지의 여부에 따라 2가지 속성으로 나눠지는데요. 데이터와 데이터 사이에 끊어짐이 있는 경우, 즉 소수점 형태로 표현되지 못하는 것을 이산형 데이터라고 부릅니다. 에이블레터에서는 오늘 발행한 <통린이의 역습>까지 총 6건의 데이터 뉴스레터를 발행했는데요. 이러한 ‘뉴스레터 발행건수’는 6.5건과 같이 소수점 형태로 표현할 수 없기 때문에 이산형 데이터에 포함됩니다! 뉴스레터 발행건수 이외에도 여러분이 지금까지 마신 커피 캔의 수, 사고 발생 건수 등이 이산형 데이터가 될 수 있어요. 마지막으로 데이터와 데이터 사이에 끊어짐이 없이 연속적으로 이어진 경우, 즉 소수점 형태로 표현할 수 있는 것을 연속형 데이터라고 부릅니다. ‘몸무게’는 같은 50kg대여도 50.0부터 50.9 사이에 소수점 형태로 엄청나게 많은 숫자들을 표현할 수 있기 때문에 연속형 데이터에 포함되는데요. 몸무게 데이터 이외에도 사람들의 키나 길이, 매출 등이 연속형 데이터가 될 수 있어요!



지금까지 통린이는 성별, 학점, 뉴스레터 발행건수, 몸무게를 각각의 데이터 종류에 맞게 분류하는 시간을 가졌습니다. 이제 각 데이터에 알맞은 분석을 할 수 있겠네요! 오늘도 미션 클리어😎


 

[20초 요약]

명목형 데이터 : 숫자로 측정 X, 순위 매기기 X (ex : 성별, 혈액형, MBTI, 지역)

순서형 데이터 : 숫자로 측정 X, 순위 매기기 O (ex : 학점, 만족도, 선호 등급)

이산형 데이터 : 숫자로 측정 O, 데이터 사이에 끊어짐 O (ex : 뉴스레터 발행 건수, 섭취한 음료 수, 사고 발생 건수)

연속형 데이터 : 숫자로 측정 O, 데이터 사이에 끊어짐 X (ex : 몸무게, 키, 길이, 매출) 




💬  그래서 어떻게 활용하는데?

#범주형자료는_원도표 #수치형자료는_상자그림


통린이🐥는 지금까지 살펴본 데이터인 성별과 몸무게를 그래프로 정리하려고 합니다. 그런데, 각 데이터의 종류에 따른 적절한 그래프 방법이 정해져있다고요? 한국인의 인체치수를 조사하는 사이즈코리아의 8차 인체지수조사(2020~21) 데이터인 ‘성별’과 ‘몸무게’로 직접 그래프를 그려보도록 하겠습니다!


먼저 범주형 데이터는 도수분포표나 막대 그래프, 원 그래프로 나타낼 수 있는데요. 이번에는 범주형 데이터인 ‘성별’을 원 그래프🟢로 나타내는 방법을 알아보도록 하겠습니다. 

TABLEAU / 8차 인체지수조사(2020~21) 남녀 구성원수 


통린이🐥는 8차 인체지수조사(2020~21)에 참여한 사람들 중 남자와 여자가 몇 명인지에 대해 궁금증을 가지고 있는데요. 원 그래프를 활용하면 이를 간편하게 파악할 수 있답니다. 원 그래프를 자세히 살펴보니 여자는 2773명, 남자는 2319명이 해당 조사에 참여했네요!

 

또한 수치형 데이터는 히스토그램이나 산점도, 상자 그림으로 나타낼 수 있는데요. 이번에는 수치형 데이터인 ‘몸무게’를 상자그림으로 나타내는 방법을 알아보도록 하겠습니다.

TABLEAU / 8차 인체지수조사(2020~21) 몸무게 분포


상자 그림은 수치 자료들을 한눈에 알아보기 쉽게 정리한 그래프로, 우리가 알고 싶은 몸무게 데이터를 가장 작은 값부터 큰 값 순으로 나열한 형태인데요. 이때, 아주 극단적인 몸무게 값들을 제외한 최솟값, ¼ 지점의 값, 중앙값, ¾ 지점의 값, 최댓값을 확인할 수 있습니다. 상자 그림을 자세히 살펴보니 몸무게의 최솟값은 35.5, ¼ 지점의 값은 55.4, 중앙값은 64,  ¾ 지점의 값은 74, 최댓값은 101.7인 것을 확인할 수 있네요!


이번주 에이블레터 어떠셨나요?
좋았어요😁    아쉬웠어요😕

지난 <통린이의 역습> 다시 보기
모집단과 표본이 궁금해!

 

이 뉴스레터 공유해주기💌




교육서비스 경험을 혁신하는 에이블런입니다. 📣

● 비전공자를 위한 데이터 활용교육 > ABLEARN

● 1인 교육담당자를 위한 온라인 교육지원서비스 > &SPACE