
뉴스레터 콘텐츠로 바로 가기! 📚
오늘도 어김없이 돌아온 <노코드 머신러닝의 이해> 7️⃣번째 시간! 어려운 프로그래밍 대신 평소에 자주 사용하는 엑셀로 머신러닝을 이해해 볼 텐데요! 여러분의 성별은 여자입니까? 여러분의 연령대는 40대 이상입니까? 여러분은 최근 한 달 이내 A 마트의 물건을 구매하셨습니까? 앗, 갑자기 왜 이렇게 질문이 많냐고요?🧐 바로 이러한 질문들을 통해서 A마트는 여러분이 어떠한 구매 성향을 가진 고객인지를 파악할 수 있기 때문입니다. 이때, 만약 여러분이 충성고객으로 판단된다면, A마트에서는 여러분의 구매를 유도하기 위한 할인 쿠폰이나 마케팅 메시지를 전송할 수도 있죠! 여기서의 핵심은 여러분이 충성고객인지를 파악할 수 있는 질문인데요. 즉, 여러분께 질문을 던지고, 그 질문에 해당되는지의 여부에 따라 충성 고객인지를 분류해 주는 의사결정나무(Decision Tree, 디시전 트리)의 원리가 적용된 것이죠! 그렇다면 의사결정나무의 작동원리, 엑셀로 파헤쳐 볼까요?
-에이블런 리사 드림💌
|
스무고개가 적용된 의사결정나무! 🌳
여러분, 스무고개가 무엇인지 알고 계시나요? 출제자가 마음속으로 적당한 단어를 생각하면, 다른 사람이 스무 번의 질문을 해서 출제자가 생각한 단어를 맞추는 게임인데요! 이때, 출제자는 질문에 대해 ‘네’ 또는 ‘아니오’라는 답변만 할 수 있죠. 이러한 스무고개를 활용한 게임으로는 ‘아키네이터’가 있는데요. 여러분께서 특정한 인물을 생각한 후, 아키네이터가 하는 질문에 답변을 하면 머릿속으로 생각하고 있는 인물을 맞춰준답니다. 실제로, 2022 카타르 월드컵의 한국 축구대표팀 주장인 ‘손흥민’ 선수를 생각하며, 아키네이터를 해보았는데요. 성별이 남자이고, 스포츠 관련 인물이며, 성이 ‘손’으로 시작하는지에 대한 스무고개 질문을 통해 ‘손흥민’ 선수를 잘 맞추는 것을 확인할 수 있었습니다.
그런데, 이러한 스무고개가 적용된 머신러닝 기법이 있다고 해요. 바로 의사결정나무죠! 의사결정나무(Decision Tree, 디시전 트리)는 질문을 던지고, 그 질문이 맞는지 틀리는지에 따라 대상을 좁혀나가는 모델입니다. (즉, 앞서 살펴본 스무고개를 그림으로 나타낸 것이죠!) 이때, 모델이 ‘나무’🌳를 닮았다고 하여 의사결정’나무’라는 이름이 붙여졌어요. 이러한 의사결정나무는 전체 데이터를 몇 개의 소집단으로 분류하거나 예측할 수 있답니다. 앞서 살펴본 손흥민 선수 사례로 더 자세하게 설명해볼게요. 첫 번째 질문인 ‘성별이 남자인가요?’를 통해 남자인 소집단과 그렇지 않은 소집단을 분류해줘요. 그 후, 다음 질문인 ‘스포츠 관련 인물인가요?’를 활용하여 스포츠 관련 소집단과 그렇지 않은 소집단을 분류해주는 형식이 반복되죠. 최종적으로는 여러가지 질문을 통해 ‘손흥민’ 선수로 대상을 좁혀나갑니다. (예측일 경우, 다른 머신러닝이 더욱 성능이 좋기 때문에 이번에는 ‘분류’에 초점을 맞춰 알아볼게요!)
의사결정나무의 구조는? 😋

그렇다면, 앞서 살펴본 의사결정나무는 어떠한 구조를 가지고 있을까요? 의사결정나무에서 질문이나 정답을 담은 네모의 상자를 마디(Node, 노드)라고 합니다. 이러한 마디에도 여러 가지 종류가 있는데요. 먼저 맨 처음의 분류 기준, 즉 첫 질문을 뿌리 마디(Root Node, 루트 노드)라고 해요. 또한 가장 마지막에 위치한 마디를 끝 마디(Leaf Node, 리프 노드)라고 부르며, 나무의 중간의 분류 기준으로 뿌리 마디와 끝 마디가 아닌 모든 마디를 중간 마디(Intermediate Node, 인터미디어트 노드)라고 합니다. 지금까지 의사결정나무의 구조를 살펴보았는데요. 여러분, 그렇다면 왜 의사결정’나무’🌳라는 이름이 붙였는지 이제 아시겠나요? 바로 가장 상단에는 ‘뿌리’, 가장 하단에 ‘잎’(Leaf, 리프)이 위치하여 전체적인 모양이 나무🌳를 뒤집어 놓은 것과 같이 보이기 때문이죠!
의사결정나무의 원리는? 😎
여러분은 눈이 오는 날씨를 좋아하시나요? 눈사람⛄을 만드는 것을 좋아하셔서 눈을 기다리시는 분도 계실텐데요. 그렇다면, 오늘은 눈이 와서 눈사람⛄을 만들 수 있을까요? 이러한 궁금증을 해결하기 위해서 스무고개의 2가지 질문을 설정하였는데요. 첫 번째 질문은 ‘온도가 영하입니까?’이며, 두 번째 질문은 ‘습도가 70% 이상입니까?’입니다. (눈은 온도와 습도에 많은 영향을 받기 때문이죠.) 이러한 2가지 질문을 설정한 후, 최근 30일 동안의 온도와 습도, 그리고 가장 중요한 눈이 왔는지의 여부를 조사했죠! 아래의 사진은 30일 동안의 날씨 데이터를 반영한 의사결정나무 모델입니다.😏

앞선 내용에서도 알 수 있듯이 최근 30일 동안의 데이터를 조사하였는데요. 그 결과, 눈이 온 날은 15일이었으며, 상단의 그림에서 총 30일 중 15일 동안 눈이 왔다는 의미로 (15/30)으로 표현하였습니다. 같은 원리로 최근 30일 동안 눈이 오지 않은 날은 15일로 (15/30)으로 표현할 수 있죠. 그럼 이제 스무고개를 해보도록 할 텐데요. 첫 번째 질문은 ‘온도가 영하입니까?’로, 해당 네모 상자는 첫 질문인 뿌리 마디가 되죠. 해당 질문에 맞춰 온도가 영하라면 왼쪽의 ‘네’로 이동하며, 온도가 영상이라면 오른쪽의 ‘아니오’로 이동할 것입니다.
왼쪽의 ‘네’로 이동한 온도가 영하인 집단에 해당되는 날짜는 총 20일인데요. 20일 중 눈이 온 날은 13일(13/20)이었으며, 눈이 오지 않은 날은 7일(7/20)이었습니다. 이때, 더 이상의 분할이 이뤄지지 않는다면 더욱 일수가 많은 ‘눈이 올 것이다’로 데이터를 분류할 수 있어요. (눈이 온 날인 13일이 눈이 오지 않는 7일보다 많기 때문이죠.)
이번에는 오른쪽의 ‘아니오’로 이동한 온도가 영상인 집단을 살펴볼게요. 영상인 집단에 해당되는 날짜는 총 10일인데요. 10일 중 눈이 온 날은 2일(2/10)이었으며, 눈이 오지 않는 날은 8일(8/10)이었습니다. 따라서 ‘눈이 오지 않을 것이다’라고 데이터를 분류하죠.

이때 온도가 영상인 경우, 한 번 더 분할을 해주려고 합니다. 바로 스무고개의 두 번째 질문인 ‘습도가 70% 이상입니까?’로, 해당 네모 상자는 중간의 분류 기준인 중간 마디가 되죠. 해당 질문에 맞춰 습도가 70% 이상이라면 왼쪽의 ‘네’로 이동하며, 습도가 70% 미만이라면 오른쪽의 ‘아니오’로 이동할 것입니다.
왼쪽의 ‘네’로 이동한 습도가 70% 이상인 집단에 해당되는 날짜는 총 7일인데요. 7일 중 눈이 온 날은 없었으며(0/7), 눈이 오지 않은 날은 7일(7/7)이었습니다. 이때, 더 이상의 분할이 이뤄지지 않는다면 더욱 일수가 많은 ‘눈이 오지 않을 것이다’로 데이터를 분류할 수 있어요.
이번에는 오른쪽의 ‘아니오’로 이동한 습도가 70% 미만인 집단을 살펴볼게요. 습도가 70% 미만인 집단에 해당되는 날짜는 총 3일인데요. 3일 중 눈이 온 날은 2일(2/3)이었으며, 눈이 오지 않는 날은 1일(1/3)이었습니다. 따라서 ‘눈이 올 것이다’라고 데이터를 분류하죠.
최종적으로 정리를 하면, 첫 번째 질문인 ‘온도가 영하입니까?’에 ‘네’라는 노드와 두 번째 질문인 ‘습도가 70% 이상입니까?’에 ‘네’와 아니오’에 해당하는 노드는 가장 마지막에 위치한 끝 마디죠! 그렇다면, 이러한 의사결정나무는 어떻게 활용할 수 있을까요? 만약 오늘의 날씨에 대해 스무고개를 해보도록 하겠습니다! 첫 번째 질문인 ‘온도가 영하입니까?’의 응답이 ‘아니오’가 나왔으며, 두 번째 질문인 ‘습도가 70% 이상입니까’의 대답이 아니오라고 가정해 보도록 해요. 즉, 온도는 영상이며, 습도는 70% 미만인 날씨인 거죠! 그러면 의사결정나무 모델에 따라 ‘눈이 올 것이다’라고 분류할 수 있으며, 따라서 눈사람⛄을 만들 준비를 해야겠네요!
의사결정나무의 순서는? 🙄
우리는 앞선 사례에서 눈이 올 경우를 분류하기 위해 2가지 데이터인 ‘온도’와 ‘습도’를 사용했는데요. 이때, 첫 번째 질문인 뿌리 마디를 ‘온도가 영하입니까?’로 설정해 줬습니다. 즉, 첫 번째 질문에 온도 변수를 활용해 준 것이죠. 그런데 여러분, 첫 번째 질문으로 ‘습도가 70% 이상입니까?’를 사용해 주면 안 되는 것일까요? 질문의 순서는 어떻게 결정되는 것이죠?🙄

이러한 질문의 순서를 결정하기 위해서는 ‘불순도’의 개념을 알아야 하는데요. 불순도란 순수한 물질에 섞여 있는 순수하지 않은 물질인 불순물을 생각하면 쉬워요. 즉, 불순도란 해당 범주 안에 서로 다른 데이터가 섞여 있는 정도입니다. 왼쪽 동그라미 안에는 파란색 점이 5개, 주황색 점이 5개로 서로 다른 데이터가 많이 섞여 있어 높은 불순도라고 말할 수 있어요. 반면, 오른쪽 동그라미 안에는 파란색 점이 1개, 주황색 점이 9개로 단 하나의 점만 파란색이기 때문에 낮은 불순도라고 이야기 할 수 있죠. 우리의 의사결정나무는 결과 데이터가 비슷한 것끼리 묶이는 것을 목표로 해요. (즉 결과 데이터인 눈이 오는 경우끼리, 눈이 오지 않는 경우끼리만 묶이면 가장 좋은 데이터죠.) 따라서 의사결정나무는 불순도를 작게 하는 방향을 선택해 줍니다!
앞선 불순도의 개념을 통해 의사결정나무는 불순도를 작게 하는 방향으로 선택해준다는 것을 알 수 있었는데요. 즉, 우리가 고려할 데이터인 ‘온도’와 ‘습도’ 중 불순도를 더욱 작게 해주는 데이터를 스무고개의 첫 번째 질문인 뿌리 마디로 활용해주면 된답니다. (우리도 스무고개를 할 때, 처음부터 정답을 맞히기 위해서 데이터를 가장 잘 분류해 주는 예리한 질문을 하는 것처럼요!) 

왼쪽 사진은 ‘온도가 영하입니까?’라는 질문으로 분류되는 데이터를 나타낸 것이며, 오른쪽 사진은 ‘습도가 70% 이상입니까?’라는 질문으로 분류되는 데이터를 표현했습니다. 두 데이터 모두 온도가 영하인 날과 습도가 70% 이상인 날이 20일로 동일하네요. 그렇다면, 온도와 습도 중 데이터가 비슷한 것끼리 묶인 것은 무엇일까요? 🤷🏻♀️🤷🏻♂️ 바로 온도인데요! 온도가 영하일 때, 눈이 오는 경우와 오지 않는 경우는 13일과 7일로 구분되죠. 반면 습도가 70% 이상일 때, 눈이 오는 경우와 오지 않는 경우는 9일과 11일로 조금 더 다른 데이터가 섞여 있어 불순도가 높답니다. 따라서 불순도가 더 적은 ‘온도’ 데이터를 첫 번째 질문으로 활용하는 것이죠!
엑셀로 따라 하는 의사결정나무!
지금까지 의사결정나무의 원리를 차근차근 이해해 보았는데요. 이러한 의사결정나무의 장점은 구조가 단순하여 처음 보는 사람도 해석이 쉽고, 중요한 데이터와 분리되는 기준을 제시한다는 것입니다. 하지만 데이터의 수가 적을수록 불안정하며, 분류가 되는 경계선 부근의 자료값들은 오차가 클 수 있다는 단점이 있죠. 마지막으로 엑셀을 활용하여 의사결정나무를 하는 방법까지 공부하면 미션 클리어 😎

How to MAKE (and USE) Decision Tree Analysis in Excel
David McLachlan
지금까지 자세한 작동원리로 알아본 의사결정나무, 엑셀로 해보고 싶으시다고요? 그럼 위에 있는 유튜브 사진을 클릭해 주세요! 🔼🔼🔼
유튜브에 베이즈 정리가 적용된다고?😲
베이즈 정리가 순진하다고요?🥴
데이터를 유사한 속성으로 묶어준다고요? 📊
서포트 벡터 머신, 가보자고! ✊🏻
밀도를 기반으로 비슷한 것끼리 묶는다고요?👥


지금 이 콘텐츠 공유하기👇
뉴스레터 콘텐츠로 바로 가기! 📚
스무고개가 적용된 의사결정나무! 🌳
여러분, 스무고개가 무엇인지 알고 계시나요? 출제자가 마음속으로 적당한 단어를 생각하면, 다른 사람이 스무 번의 질문을 해서 출제자가 생각한 단어를 맞추는 게임인데요! 이때, 출제자는 질문에 대해 ‘네’ 또는 ‘아니오’라는 답변만 할 수 있죠. 이러한 스무고개를 활용한 게임으로는 ‘아키네이터’가 있는데요. 여러분께서 특정한 인물을 생각한 후, 아키네이터가 하는 질문에 답변을 하면 머릿속으로 생각하고 있는 인물을 맞춰준답니다. 실제로, 2022 카타르 월드컵의 한국 축구대표팀 주장인 ‘손흥민’ 선수를 생각하며, 아키네이터를 해보았는데요. 성별이 남자이고, 스포츠 관련 인물이며, 성이 ‘손’으로 시작하는지에 대한 스무고개 질문을 통해 ‘손흥민’ 선수를 잘 맞추는 것을 확인할 수 있었습니다.
그런데, 이러한 스무고개가 적용된 머신러닝 기법이 있다고 해요. 바로 의사결정나무죠! 의사결정나무(Decision Tree, 디시전 트리)는 질문을 던지고, 그 질문이 맞는지 틀리는지에 따라 대상을 좁혀나가는 모델입니다. (즉, 앞서 살펴본 스무고개를 그림으로 나타낸 것이죠!) 이때, 모델이 ‘나무’🌳를 닮았다고 하여 의사결정’나무’라는 이름이 붙여졌어요. 이러한 의사결정나무는 전체 데이터를 몇 개의 소집단으로 분류하거나 예측할 수 있답니다. 앞서 살펴본 손흥민 선수 사례로 더 자세하게 설명해볼게요. 첫 번째 질문인 ‘성별이 남자인가요?’를 통해 남자인 소집단과 그렇지 않은 소집단을 분류해줘요. 그 후, 다음 질문인 ‘스포츠 관련 인물인가요?’를 활용하여 스포츠 관련 소집단과 그렇지 않은 소집단을 분류해주는 형식이 반복되죠. 최종적으로는 여러가지 질문을 통해 ‘손흥민’ 선수로 대상을 좁혀나갑니다. (예측일 경우, 다른 머신러닝이 더욱 성능이 좋기 때문에 이번에는 ‘분류’에 초점을 맞춰 알아볼게요!)
의사결정나무의 구조는? 😋
그렇다면, 앞서 살펴본 의사결정나무는 어떠한 구조를 가지고 있을까요? 의사결정나무에서 질문이나 정답을 담은 네모의 상자를 마디(Node, 노드)라고 합니다. 이러한 마디에도 여러 가지 종류가 있는데요. 먼저 맨 처음의 분류 기준, 즉 첫 질문을 뿌리 마디(Root Node, 루트 노드)라고 해요. 또한 가장 마지막에 위치한 마디를 끝 마디(Leaf Node, 리프 노드)라고 부르며, 나무의 중간의 분류 기준으로 뿌리 마디와 끝 마디가 아닌 모든 마디를 중간 마디(Intermediate Node, 인터미디어트 노드)라고 합니다. 지금까지 의사결정나무의 구조를 살펴보았는데요. 여러분, 그렇다면 왜 의사결정’나무’🌳라는 이름이 붙였는지 이제 아시겠나요? 바로 가장 상단에는 ‘뿌리’, 가장 하단에 ‘잎’(Leaf, 리프)이 위치하여 전체적인 모양이 나무🌳를 뒤집어 놓은 것과 같이 보이기 때문이죠!
의사결정나무의 원리는? 😎
여러분은 눈이 오는 날씨를 좋아하시나요? 눈사람⛄을 만드는 것을 좋아하셔서 눈을 기다리시는 분도 계실텐데요. 그렇다면, 오늘은 눈이 와서 눈사람⛄을 만들 수 있을까요? 이러한 궁금증을 해결하기 위해서 스무고개의 2가지 질문을 설정하였는데요. 첫 번째 질문은 ‘온도가 영하입니까?’이며, 두 번째 질문은 ‘습도가 70% 이상입니까?’입니다. (눈은 온도와 습도에 많은 영향을 받기 때문이죠.) 이러한 2가지 질문을 설정한 후, 최근 30일 동안의 온도와 습도, 그리고 가장 중요한 눈이 왔는지의 여부를 조사했죠! 아래의 사진은 30일 동안의 날씨 데이터를 반영한 의사결정나무 모델입니다.😏
앞선 내용에서도 알 수 있듯이 최근 30일 동안의 데이터를 조사하였는데요. 그 결과, 눈이 온 날은 15일이었으며, 상단의 그림에서 총 30일 중 15일 동안 눈이 왔다는 의미로 (15/30)으로 표현하였습니다. 같은 원리로 최근 30일 동안 눈이 오지 않은 날은 15일로 (15/30)으로 표현할 수 있죠. 그럼 이제 스무고개를 해보도록 할 텐데요. 첫 번째 질문은 ‘온도가 영하입니까?’로, 해당 네모 상자는 첫 질문인 뿌리 마디가 되죠. 해당 질문에 맞춰 온도가 영하라면 왼쪽의 ‘네’로 이동하며, 온도가 영상이라면 오른쪽의 ‘아니오’로 이동할 것입니다.
왼쪽의 ‘네’로 이동한 온도가 영하인 집단에 해당되는 날짜는 총 20일인데요. 20일 중 눈이 온 날은 13일(13/20)이었으며, 눈이 오지 않은 날은 7일(7/20)이었습니다. 이때, 더 이상의 분할이 이뤄지지 않는다면 더욱 일수가 많은 ‘눈이 올 것이다’로 데이터를 분류할 수 있어요. (눈이 온 날인 13일이 눈이 오지 않는 7일보다 많기 때문이죠.)
이번에는 오른쪽의 ‘아니오’로 이동한 온도가 영상인 집단을 살펴볼게요. 영상인 집단에 해당되는 날짜는 총 10일인데요. 10일 중 눈이 온 날은 2일(2/10)이었으며, 눈이 오지 않는 날은 8일(8/10)이었습니다. 따라서 ‘눈이 오지 않을 것이다’라고 데이터를 분류하죠.
이때 온도가 영상인 경우, 한 번 더 분할을 해주려고 합니다. 바로 스무고개의 두 번째 질문인 ‘습도가 70% 이상입니까?’로, 해당 네모 상자는 중간의 분류 기준인 중간 마디가 되죠. 해당 질문에 맞춰 습도가 70% 이상이라면 왼쪽의 ‘네’로 이동하며, 습도가 70% 미만이라면 오른쪽의 ‘아니오’로 이동할 것입니다.
왼쪽의 ‘네’로 이동한 습도가 70% 이상인 집단에 해당되는 날짜는 총 7일인데요. 7일 중 눈이 온 날은 없었으며(0/7), 눈이 오지 않은 날은 7일(7/7)이었습니다. 이때, 더 이상의 분할이 이뤄지지 않는다면 더욱 일수가 많은 ‘눈이 오지 않을 것이다’로 데이터를 분류할 수 있어요.
이번에는 오른쪽의 ‘아니오’로 이동한 습도가 70% 미만인 집단을 살펴볼게요. 습도가 70% 미만인 집단에 해당되는 날짜는 총 3일인데요. 3일 중 눈이 온 날은 2일(2/3)이었으며, 눈이 오지 않는 날은 1일(1/3)이었습니다. 따라서 ‘눈이 올 것이다’라고 데이터를 분류하죠.
최종적으로 정리를 하면, 첫 번째 질문인 ‘온도가 영하입니까?’에 ‘네’라는 노드와 두 번째 질문인 ‘습도가 70% 이상입니까?’에 ‘네’와 아니오’에 해당하는 노드는 가장 마지막에 위치한 끝 마디죠! 그렇다면, 이러한 의사결정나무는 어떻게 활용할 수 있을까요? 만약 오늘의 날씨에 대해 스무고개를 해보도록 하겠습니다! 첫 번째 질문인 ‘온도가 영하입니까?’의 응답이 ‘아니오’가 나왔으며, 두 번째 질문인 ‘습도가 70% 이상입니까’의 대답이 아니오라고 가정해 보도록 해요. 즉, 온도는 영상이며, 습도는 70% 미만인 날씨인 거죠! 그러면 의사결정나무 모델에 따라 ‘눈이 올 것이다’라고 분류할 수 있으며, 따라서 눈사람⛄을 만들 준비를 해야겠네요!
의사결정나무의 순서는? 🙄
우리는 앞선 사례에서 눈이 올 경우를 분류하기 위해 2가지 데이터인 ‘온도’와 ‘습도’를 사용했는데요. 이때, 첫 번째 질문인 뿌리 마디를 ‘온도가 영하입니까?’로 설정해 줬습니다. 즉, 첫 번째 질문에 온도 변수를 활용해 준 것이죠. 그런데 여러분, 첫 번째 질문으로 ‘습도가 70% 이상입니까?’를 사용해 주면 안 되는 것일까요? 질문의 순서는 어떻게 결정되는 것이죠?🙄
이러한 질문의 순서를 결정하기 위해서는 ‘불순도’의 개념을 알아야 하는데요. 불순도란 순수한 물질에 섞여 있는 순수하지 않은 물질인 불순물을 생각하면 쉬워요. 즉, 불순도란 해당 범주 안에 서로 다른 데이터가 섞여 있는 정도입니다. 왼쪽 동그라미 안에는 파란색 점이 5개, 주황색 점이 5개로 서로 다른 데이터가 많이 섞여 있어 높은 불순도라고 말할 수 있어요. 반면, 오른쪽 동그라미 안에는 파란색 점이 1개, 주황색 점이 9개로 단 하나의 점만 파란색이기 때문에 낮은 불순도라고 이야기 할 수 있죠. 우리의 의사결정나무는 결과 데이터가 비슷한 것끼리 묶이는 것을 목표로 해요. (즉 결과 데이터인 눈이 오는 경우끼리, 눈이 오지 않는 경우끼리만 묶이면 가장 좋은 데이터죠.) 따라서 의사결정나무는 불순도를 작게 하는 방향을 선택해 줍니다!
앞선 불순도의 개념을 통해 의사결정나무는 불순도를 작게 하는 방향으로 선택해준다는 것을 알 수 있었는데요. 즉, 우리가 고려할 데이터인 ‘온도’와 ‘습도’ 중 불순도를 더욱 작게 해주는 데이터를 스무고개의 첫 번째 질문인 뿌리 마디로 활용해주면 된답니다. (우리도 스무고개를 할 때, 처음부터 정답을 맞히기 위해서 데이터를 가장 잘 분류해 주는 예리한 질문을 하는 것처럼요!)

왼쪽 사진은 ‘온도가 영하입니까?’라는 질문으로 분류되는 데이터를 나타낸 것이며, 오른쪽 사진은 ‘습도가 70% 이상입니까?’라는 질문으로 분류되는 데이터를 표현했습니다. 두 데이터 모두 온도가 영하인 날과 습도가 70% 이상인 날이 20일로 동일하네요. 그렇다면, 온도와 습도 중 데이터가 비슷한 것끼리 묶인 것은 무엇일까요? 🤷🏻♀️🤷🏻♂️ 바로 온도인데요! 온도가 영하일 때, 눈이 오는 경우와 오지 않는 경우는 13일과 7일로 구분되죠. 반면 습도가 70% 이상일 때, 눈이 오는 경우와 오지 않는 경우는 9일과 11일로 조금 더 다른 데이터가 섞여 있어 불순도가 높답니다. 따라서 불순도가 더 적은 ‘온도’ 데이터를 첫 번째 질문으로 활용하는 것이죠!
엑셀로 따라 하는 의사결정나무!
지금까지 의사결정나무의 원리를 차근차근 이해해 보았는데요. 이러한 의사결정나무의 장점은 구조가 단순하여 처음 보는 사람도 해석이 쉽고, 중요한 데이터와 분리되는 기준을 제시한다는 것입니다. 하지만 데이터의 수가 적을수록 불안정하며, 분류가 되는 경계선 부근의 자료값들은 오차가 클 수 있다는 단점이 있죠. 마지막으로 엑셀을 활용하여 의사결정나무를 하는 방법까지 공부하면 미션 클리어 😎
How to MAKE (and USE) Decision Tree Analysis in Excel
David McLachlan
지금까지 자세한 작동원리로 알아본 의사결정나무, 엑셀로 해보고 싶으시다고요? 그럼 위에 있는 유튜브 사진을 클릭해 주세요! 🔼🔼🔼
유튜브에 베이즈 정리가 적용된다고?😲
베이즈 정리가 순진하다고요?🥴
데이터를 유사한 속성으로 묶어준다고요? 📊
서포트 벡터 머신, 가보자고! ✊🏻
밀도를 기반으로 비슷한 것끼리 묶는다고요?👥
지금 이 콘텐츠 공유하기👇