[노코드데이터분석]여러분이 그리신 분포의 형태는?👩🏻‍🎨

<노코드 데이터분석>이 궁금하다면, 여기 클릭📊



오늘도 어김없이 돌아온 <노코드 데이터 분석> 3️⃣번째 시간! 어려운 프로그래밍 대신 평소에 자주 사용하는 엑셀로 분포의 형태를 알아보도록 할 텐데요! 여기저기 흩어진 값들을 그림으로 나타낸 분포의 형태는 왼쪽이나 오른쪽으로 치우치거나 뾰족, 뭉툭할 수 있어요! 그렇다면 이러한 분포의 형태는 어떤 기준으로 결정이 되는 것일까요? 바로 ‘왜도와 첨도’인데요! 17초만에 왜도와 첨도분포의 형태를 파악하는 방법, 궁금하지 않으신가요?
 


이 뉴스레터를 보면 좋은 사람은?

👶🏻 : 통계의 ‘통’자도 모르는 통계 왕왕왕초보!

👲🏻 : 실무에서 사용하는 엑셀로 왜도를 구하고 싶으신 분!

👸🏻 : ‘나도 어디서 첨도 계산해봤어~’ 라고 자랑하고 싶으신 분!

 

-에이블런 리사 드림💌





💬 비대칭 정도를 나타내는 왜도!

 

여러분은 데칼코마니를 해본 경험이 있으신가요? 데칼코마니란, 화면을 밀착시켜 물감의 흐름으로 생기는 우연한 얼룩의 효과를 이용한 미술 기법인데요. 나비 모양🦋으로 예시로 든다면, 그림 물감을 활용하여 종이 위에 나비의 한쪽 날개 부분을 그리고, 반으로 접어 대칭적인 무늬로 나비🦋를 만드는 것이죠! 이러한 데칼코마니와 같이 좌우가 동일한 분포가 있는데요. 바로 정규분포랍니다! (정규분포에 대한 자세한 설명은 아래에 나와요.) 하지만, 정규분포와 같이 모든 분포의 좌우가 동일한 것은 아닌데요. 바로 분포의 최고점이 왼쪽이나 오른쪽으로 치우치는 비대칭 형태가 나타날 수도 있어요.
 

여기서 바로 왜도의 개념이 등장합니다. 왜도란 분포가 얼마나 비대칭인지를 알 수 있는 값인데요. 이때의 기준은 바로 정규분포이며, 그 왜도는 0이죠. (엑셀 기준이며, 아래 그림에서 기준인 정규분포를 회색⬜으로 나타냈어요.) 왜도의 ‘왜’는 사실과는 다르게 해석한다는 ‘왜곡’의 의미로, 사실인 정규분포와는 다른 비대칭 정라고 이해하면 더욱 쉽답니다. 왜도는 2가지 종류로 양의 왜도음의 왜도로 구분되는데요.


먼저 왼쪽의 사진인 양의 왜도부터 알아보도록 해요. 왜도의 값이 0보다 크다면, 분포의 최고점이 정규분포(회색)보다 왼쪽으로 치우친 형태로 나타나요. 이때 분포의 꼬리는 오른쪽으로 길게 표현이 된답니다. 이러한 데이터의 분포를 나타내는 대표적인 사례는 ‘스마트폰의 사용 기간’📱인데요. 최신 스마트폰이 꾸준히 출시됨에 따라 많은 사람들이 적은 기간 동안 스마트폰을 사용하고 교체하며, 점점 적은 사람들만 스마트폰을 오래 사용하는 경향이 나타나죠. 반대로 오른쪽 사진인 음의 왜도를 알아보도록 해요. 왜도의 값이 0보다 작다면, 분포의 최고점이 정규분포(회색)보다 오른쪽으로 치우친 형태로 나타나요. 이때 분포의 꼬리는 왼쪽으로 길게 표현이 된답니다. 이러한 데이터의 분포를 나타내는 대표적인 사례는 ‘가구의 수명’🛌인데요. 가구를 구입한 초반에는 적은 수의 가구가 망가지고, 대다수의 가구들은 오랫동안 사용이 가능하죠. 



 

💬 뾰족한 정도를 나타내는 첨도!


이번에는 새로운 개념을 살펴보도록 할 텐데요. 그전, 한 가지 퀴즈를 내보도록 하겠습니다. 프랑스의 샤르트르 대성당, 스페인의 사그라다 파밀리아 성당, 영국의 솔즈베리 대성당에 있는 공통적인 건축 구조물⛪은 무엇일까요? 조금, 어려우시다고요? 정답은 바로 성당의 꼭대기에 있는 원뿔 모양 또는 피라미드형의 첨탑이 유명하다는 것인데요! 😋이러한 첨탑은 성당에 따라 뾰족한 정도가 다르게 나타난답니다.
 

여기서 바로 첨도의 개념이 등장합니다. 첨도의 ‘첨’는 뾰족하다는 의미로, 첨도란 분포의 최고점이 얼마나 뾰족한지를 알 수 있는 값입니다. 이때의 기준은 바로 정규분포이며, 그 첨도는 0이죠. (엑셀 기준이며, 아래 그림에서 기준인 정규분포를 회색⬜으로 나타냈어요.) 첨도는 2가지 종류로 양의 첨도음의 첨도로 구분됩니다.



먼저 왼쪽의 사진인 양의 첨도부터 알아보도록 해요. 첨도의 값이 0보다 크다면, 분포의 최고점이 정규분포(회색)보다 뾰족한 형태로 나타나며, 이를 고첨이라고 불러요. 첨도를 살펴볼 때에는 분포의 꼬리도 함께 보아야 하는데요. 그 전, 분포의 넓이를 모두 합하면 1이 됩니다. (확률의 합이 1이 되기 때문이죠.) 그렇다면 넓이가 1로 고정된 정규분포(회색)에서 분포의 최고점이 더욱 뾰족해진다면, 꼬리는 어떻게 변화할까요? 바로 왼쪽 그림과 같이 꼬리는 두꺼워지는 것을 확인할 수 있습니다. 이러한 꼬리는 값이 많이 등장하는 분포의 최고점과는 반대로 많이 등장하지 않는 특이값을 의미하는데요. 즉, 첨도의 값이 0보다 크다면, 분포의 특이값인 이상점이 많다는 것을 의미해요. 반대로 오른쪽 사진인 음의 첨도를 알아보도록 해요. 첨도의 값이 0보다 작다면, 분포의 최고점이 정규분포(회색)보다 평평한 형태로 나타나며, 이를 저첨이라고 불러요. 음의 첨도를 가진 분포의 꼬리도 함께 살펴볼까요? 넓이가 1로 고정된 정규분포(회색)에서 분포의 최고점이 평평해진다면, 오른쪽 그림과 같이 꼬리는 얇아지는 것을 확인할 수 있습니다. 즉, 첨도의 값이 0보다 작다면, 분포의 특이값인 이상점은 많이 존재하지 않는다는 것을 알 수 있죠. 




💬 왜도와 첨도의 기준이 되는 정규분포!



이제 앞서 살펴보았던 기준이 되는 회색 그래프에 대해서 자세히 알아보도록 할 텐데요! 그 이름은 바로 정규분포랍니다. 정규분포란 실생활에서 일반적(Normal)으로 발견되는 종 모양의 분포를 의미하는데요! 이러한 정규분포는 비대칭 정도인 왜도와 뾰족한 정도인 첨도를 구분하는 기준이 되었죠. 그렇다면, 왜 정규분포는 왜도와 첨도의 기준이 된 것일까요?🤷🏻‍♀️🤷🏻‍♂️ 바로 앞으로 공부할 다양한 통계 기법들이 정규 분포를 가정하고 만들어졌기 때문에 우리가 관심을 가지는 데이터가 정규 분포를 따르는지 확인해야 해요. 정규분포가 아니라면, 앞으로 공부할 다양한 통계 기법 중 적용하지 못하는 것도 있죠! 정량적 연구에 관심을 가진 Stephen G. West 교수의 <비정규 변수가 있는 구조 방정식 모델>(1995)에 따르면 왜도는 절댓값 2, 첨도는 절댓값 7보다 작은 경우에는 정규분포를 크게 벗어나지 않기 때문에 정규분포라고 가정해도 되는데요. 즉, 왜도와 첨도에 극단적인 값이 있는지를 확인하고, 해당 수치들보다 낮은 경우 ‘정규분포라고 가정’하고 사용하기 위해서랍니다! 😉




💬 단 1️⃣7️⃣초만에 엑셀로 왜도와 첨도 계산하기

 

그렇다면 엑셀을 활용하여 왜도와 첨도 값을 구하는 방법, 함께 알아볼까요? 그런데, 아직 [데이터 분석] 기능이 없으시다고요? 사진 한 장으로 [데이터 분석] 기능 추가하기 (⬅ 여기 클릭!)

지난 <노코드 데이터분석>의 첫 번째 시간, 여러분은 원자재를 구매하는 의사 결정권자👷🏻👷🏻‍♂로서 좋은 원자재를 구입할 미션을 성공적으로 수행했었는데요. 그때 가격의 변동성이 작아 원활한 재료 수급에 효과적인 일본의 철스크랩을 수입하기로 결정한 선택, 기억하시나요? 이번 시간에는 여러분이 선택하셨던 일본의 철스크랩(엔/톤)의 가격과 관련된 왜도와 첨도를 살펴보려고 합니다! 



17초안에 왜도와 첨도를 계산할 수 있다니! 신기하신가요?👏🏻👏🏻👏🏻 아래 사진은 동영상에서 보았던 일본 철스크랩(엔/톤)의 왜도와 첨도 값입니다. 


일본 철스크랩(엔/톤)의 왜도는 -0.48로 음의 값을 보이는데요. 즉, 분포의 최고점이 정규분포보다 오른쪽으로 치우친 형태이죠. 이때, 분포의 꼬리는 왼쪽으로 길게 표현 된답니다. 이번에는 첨도 값을 살펴볼까요? 일본 철스크랩(엔/톤)의 첨도는 -0.68로 음의 값을 보이는데요. 따라서 분포의 최고점이 정규분포보다 평평한 형태인 저첨이며, 이상점은 많이 존재하지 않습니다. 여기서, 잠깐!🙋🏻‍♀️🙋🏻‍♂️ Stephen G. West 교수님이 하셨던 말씀, 기억하시나요? 바로 왜도는 절댓값 2, 첨도는 절댓값 7보다 작은 경우에는 정규분포를 크게 벗어나지 않기 때문에 정규분포라고 가정하는 것이었는데요! 일본 철스크랩(엔/톤) 가격의 왜도는 절댓값 2보다 작고, 첨도는 절댓값 7보다 작기 때문에 정규 분포에서 크게 벗어나지 않는다고 말할 수 있어요! 따라서 앞으로의 통계기법을 적용할 때, 정규분포라고 가정할 수 있겠네요!



이번주 에이블레터 어떠셨나요?
좋았어요😁    아쉬웠어요😕

지난 <노코드 데이터분석> 다시 보기
평균만 믿다가 배신? 😱
히히😁히스토그램을 엑셀로 그려요?  



지금 이 콘텐츠 공유하기 👇