[노코드데이터분석]히히😁히스토그램을 엑셀로 그려요?

조회수 5415

<노코드 데이터분석>이 궁금하다면, 여기 클릭📊 



오늘도 어김없이 돌아온 <노코드 데이터 분석> 2️⃣번째 시간! 어려운 프로그래밍 대신 평소에 자주 사용하는 엑셀로 ‘히스토그램’을 그려보도록 할텐데요. 히스토그램(histogram)이란 ‘똑바로 선 것’이라는 의미인 histos와 ‘그림’을 의미하는 gram을 합친 ‘똑바로 선 막대 그림’이라고 해요. 23초만에 엑셀로 똑바로 선 막대 그림인 히스토그램을 그리는 방법, 궁금하지 않으신가요?
 

이 뉴스레터를 보면 좋은 사람은?

👶🏻 : 통계의 ‘통’자도 모르는 통계 왕왕왕초보!

👲🏻 : 실무에서 사용하는 엑셀로 히스토그램을 그려보고 싶으신 분!

👸🏻 : ‘나도 어디서 히스토그램 그려봤어~’ 라고 자랑하고 싶으신 분!

-에이블런 리사 드림💌




💬 히스토그램이 뭐야?


지난 <노코드 데이터분석>의 첫 번째 시간에 살펴본 ‘엑셀로 변동계수 구하는 방법’, 기억하시나요? (기억이 안난다면 여기 클릭!) 우리는 데이터의 전반적인 특성을 살펴보기 위하여 대푯값에 관심을 가졌는데요. 특히, 평균의 함정에 빠지지 않기 위하여 평균 이외의 다른 대푯값인 ‘변동계수’를 함께 살펴보았었죠. 그런데, 대푯값 말고도 시각적으로 데이터의 전반적인 특성을 살펴 볼 수 있는 방법이 있다고요?🤷🏻‍♀️🤷🏻‍♂️

 

우리는 데이터를 더 잘 이해하기 위한 시각적🎨인 방법 중 하나인 히스토그램에 집중해보도록 할텐데요! 그런데 히스토그램이 뭔데요? 히스토그램이란 우리가 관심을 가지는 데이터 전체를 적절한 구간으로 나눈 다음, 각 구간별로 등장하는 데이터의 빈도수인 ‘도수’를 나타낸 그래프입니다. 히스토그램은 많은 양의 데이터를 읽기 쉬운 그래프로 요약해주어 정보를 보다 효율적으로 전달할 수 있다는 장점이 있죠! 히스토그램을 통해 데이터의 분포를 확인할 수도 있어요.😉


앗 조금 어려우시다고요? 그렇다면 에이블런의 데이터 활용역량 진단평가를 예시로 히스토그램을 쉽게 알아보도록 해요 (테스트의 만점은 100점이라고 가정😊) 30명의 수강생분들이 열심히 데이터 강의를 수강하고 데이터 활용역량 진단평가를 받은 결과, 70.5점부터 99.9점까지 여러가지의 점수들이 나왔는데요. 그런데, 점수들이 너무 많아서 한 눈에 보기가 어려워요😥 그래서 수강생분들의 점수 데이터를 적절하게 3개의 구간으로 나눠봤어요! (하단의 왼쪽 표를 참고해주세요) 바로 70이상~80미만, 80이상~90미만, 90이상~100이하로요! 70.5점을 맞은 사람은 70이상~80미만에 속하게 되는 거죠. 그렇다면 70이상 80미만의 점수를 맞은 수강생의 빈도수인 ‘빈도’는 5가 되는 것입니다. 이렇게 우리가 관심을 가지는 데이터 전체를 적절한 구간으로 나눈 다음, 각 구간별로 등장하는 데이터의 도수를 나타낸 표를 도수분포표라고 불러요. 각 구간별로 등장하는 수강생의 도수는 도수분포표를 참고해 주세요! 

그런데 우리의 최종 목표는 히스토그램이었죠! 히스토그램은 도수분포표의 점수인 적절한 구간을 가로축에, 수강생 수인 도수를 세로축에 표시해서 직사각형으로 나타낸 그래프랍니다. 상단 오른쪽의 히스토그램을 같이 살펴볼까요? 도수분포표에서 90이상 100이하의 점수를 받은 수강생은 15명이기 때문에 해당 구간의 도수는 15가 되는데요. 히스토그램에서도 알 수 있듯이 90이상 100이하 구간의 도수는 15인 것을 확인할 수 있죠! 




💬  막대그래프랑은 뭐가 달라?

 

아래 사진은 막대그래프와 히스토그램을 그려놓은 사진이에요. 두 그래프 모두 막대기 모양으로 비슷해 보이는데요. 그렇다면 여기서 퀴즈!🤩 과연 어떤 것이 막대그래프이고, 어떤 것이 히스토그램일까요? 


정답은 왼쪽이 막대그래프, 오른쪽이 히스토그램이라는 것입니다. 맞추신 분들은 손🙋🏻‍♀️🙋🏻‍♂️  그렇다면 두 그래프에는 어떤 차이점이 있을까요? 바로 막대그래프는 범주형 데이터를 시각화하기에  적절하고, 히스토그램은 수치형 데이터를 시각화하기에 적절한 것인데요! (앗! 범주형 데이터와 수치형 데이터를 잘 모르시겠다고요?😂 그럼 여기 클릭)
 

먼저 막대그래프를 살펴보도록 할게요! 위 막대그래프는 2021년 대한적십자사의 ‘혈액 정보통계’ 데이터를 정리한 결과인데요. 이때, 혈액형은 O형, A형, B형, AB형으로 구성되어 있기 때문에 숫자로 측정하고 표시하는 것이 불가능한 범주형 데이터입니다. 이러한 막대그래프를 살펴보면, RH(+)에는 A+형이 가장 많은 것을 확인할 수 있어요. 즉, 막대그래프는 혈액형과 같은 범주형 데이터를 표현하는데 사용하는데요. 막대로 표현하는 범주의 순서는 작성자의 의도에 따라 AB형, B형, A형, O형으로도 변경될 수 있으며, 막대 사이에는 공백이 존재한다는 것이 특징이죠! 


이번에는 히스토그램을 살펴보도록 할게요! 위 히스토그램은 한국인의 인체치수를 조사하는 사이즈코리아의 8차 인체 지수 조사(2020~21)의 ‘몸무게 데이터’를 정리한 결과인데요. 몸무게는 42.6kg, 80.9kg와 같이 숫자로 측정하고 표시하는 것이 가능한 수치형 데이터입니다. 이러한 히스토그램을 살펴보면, 50에서 60사이의 몸무게를 가진 사람이 가장 많은 것을 확인할 수 있어요. 즉, 히스토그램은 몸무게와 같은 수치형 데이터를 표현하는데 사용하는데요. 이때, 수치형 데이터를 30에서 40, 40에서 50과 같이 계급으로 나누어 계급별 빈도수를 표현해요. 막대의 순서를 작성자의 의도에 따라 변경할 수 없으며, 첫 번째 구간인 30-40과 40-50은 서로 연결되기 때문에 막대 사이에는 공백이 존재하지 않는다는 것이 특징이죠. 이때, 히스토그램의 가로축에는 반드시 수량이 표시되어야 해요!




💬  어떻게 그리는데?

 

그렇다면, 히스토그램은 어떻게 그릴까요? 히스토그램을 그리는 방법은 간단한데요! 총 4가지 단계만 거치면 끝!

① 데이터에서 가장 큰 값과 가장 작은 값을 찾아요

② 최댓값과 최솟값 사이를 적절하고 동일한 구간으로 나눠요 (일반적으로 구간 수는 5~20)

③ 각 구간을 대표하는 대푯값을 정해줘요

④ 각 구간에 해당하는 값의 빈도수인 ‘도수’를 구해요




💬  단 2️⃣3️⃣초만에 엑셀로 히스토그램 그리기


우리는 바로 앞에서 히스토그램을 그리는 방법을 단계별로 하나씩 살펴보았는데요. 그런데, 4단계 과정을 손으로 하나씩 계산해야 하는 건가요? NO NO 🙅🏻‍♀️🙅🏻‍♂️ 우리에게는 EXCEL이라는 편리한 데이터 분석 도구가 있습니다! 그렇다면 엑셀을 활용하여 히스토그램을 그리는 법, 함께 알아볼까요? 그런데, 아직 [데이터 분석] 기능이 없으시다고요? 사진 한 장으로 [데이터 분석] 기능 추가하기 (⬅ 여기 클릭!)


지난 <노코드 데이터분석>의 첫 번째 시간, 여러분은 원자재를 구매하는 의사 결정권자👷🏻👷🏻‍♂로서 좋은 원자재를 구입할 미션을 성공적으로 수행했었는데요. 그때 가격의 변동성이 작아 원활한 재료 수급에 효과적인 일본의 철스크랩을 수입하기로 결정한 선택, 기억하시나요? 이번 시간에는 여러분이 선택하셨던 일본의 철스크랩(엔/톤)의 가격과 관련된 분포를 살펴보려고 합니다. 바로 히스토그램을 이용해서요!



23초안에 히스토그램을 그릴 수 있다니! 신기하신가요?👏🏻👏🏻👏🏻 아래 사진은 동영상에서 보았던 일본 철스크랩(엔/톤)의 가격 도수분포표와 히스토그램입니다.  

엑셀에서는 자동으로 적절한 구간을 2464.3 단위로 설정해준 것을 확인할 수 있어요. 적절한 구간을 어떻게 알았냐고요? 도수분포표의 계급 간격을 계산해보세요! 히스토그램을 살펴본 결과, 일본 철스크랩(엔/톤)의 가격은 29963.1부터 32327.4 사이의 값들이 가장 많은 것을 확인할 수 있네요!


이번주 에이블레터 어떠셨나요?
좋았어요😁    아쉬웠어요😕

지난 <노코드 데이터 분석> 다시 보기
엑셀로 변동계수 구하기!



이 뉴스레터 공유해주기💌




교육서비스 경험을 혁신하는 에이블런입니다. 📣

● 비전공자를 위한 데이터 활용교육 > ABLEARN

● 1인 교육담당자를 위한 온라인 교육지원서비스 > &SPACE