[노코드머신러닝]유튜브에 베이즈 정리가 적용된다고?😲


엑셀, 매크로만 NO! 머신러닝도 YES!

#엑셀 #머신러닝 #클릭_몇번이면_분석_끝!


파이썬, 자바, C언어, C++.... 프로그래밍 언어는 왜 이렇게 복잡하고 어려운지😢😢 평소에 자주 사용하는 엑셀로 머신러닝을 하고 싶었던 분 있으신가요? 🙋🏻‍♀️🙋🏻‍♂️ (저요 저요!) 그렇다면, 어렵다고 생각했던 머신러닝을 EXCEL로도 쉽게 따라할 수 있는 <노코드 머신러닝> 어떠신가요? 실무에서 자주 사용하는 엑셀로 머신러닝까지!

 

이 뉴스레터를 보면 좋은 사람은?
👶🏻 : 러닝머신? 머신러닝? 머신러닝을 처음 들어보는 왕왕왕초보!

👲🏻 : 실무에서 사용하는 엑셀로 노코드 머신러닝 하고 싶으신 분!

👸🏻 : ‘나도 어디서 머신러닝 해봤어~’ 라고 자랑하고 싶으신 분!


-에이블런 리사 드림💌



💬  넌 왜 베이즈 정리야?

#토머스베이즈 #확률론 #베이즈정리

여러분, 알고 계신 유명한 수학 공식이나 법칙이 있으실까요? 해당 질문에 파스칼의 삼각형이나 드모르간의 법칙을 안다고 대답해주신 분들도 계실텐데요. 그렇다면 한 가지 퀴즈를 내보도록 하겠습니다.🙋🏻‍♀ 파스칼의 삼각형과 드모르간의 법칙의 공통점이 무엇이라고 생각하시나요? (수학🧮과 관련되어 있다는 사실 빼고요!) 너무 어렵다면, 다시 한 번 천천히 공식의 이름을 읽어볼까요? 퀴즈의 답은 바로 수학자의 이름을 따서 공식이나 법칙이 만들어졌다는 것입니다. 이렇게 오래전부터 저명한 수학자들의 대부분은 자신이 발명한 수학 공식에 자신의 이름을 붙여왔습니다. 그런데, 갑자기 이런 이야기가 나온 이유가 궁금하시다고요?🤔 바로, 베이즈 정리도 같은 원리로 만들어졌기 때문입니다. 수학자인 토머스 베이즈는 확률론에 관심이 많았고, 그의 저서인 <확률론의 한 문제에 대한 에세이>에서 베이즈 정리와 관련된 내용을 서술하였습니다.




💬  그래서 베이즈 정리가 뭔데?

#사전확률과_사후확률의_관계 #조건부확률

앞선 내용을 통해 베이즈 정리는 토머스 ‘베이즈’에서 인용되었다는 사실을 알 수 있었습니다. 그렇다면 베이즈정리는 어떤 개념일까요? 베이즈 정리를 단 한 문장으로 표현한다면, ‘두 확률변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리’입니다. 잠깐 STOP! 확률은 들어봤는데 사전확률과 사후확률, 이건 뭔가요? 🤷🏻‍♀🤷🏻‍♀🤷🏻‍♀


여러분은 어떤 날씨를 좋아하시나요? 여름철🥵에는 장마로 인해 흐리거나 비가 오는 날이 종종 있는데요. 이러한 날씨를 예시로 사전 확률과 사후 확률을 알아보도록 하겠습니다.


우리는 지금까지의 기상청 데이터를 바탕으로 비가 올 확률과 비가 오지 않을 확률을 알고 있다고 가정해보도록 하겠습니다. 이때, 사전 확률은 우리가 현재 가지고 있는 정보를 바탕으로 정한 확률입니다. 따라서 날씨 예제에서의 사전 확률은 비가 올 확률과 비가 오지 않을 확률이 됩니다. 이때, 해당 값을 알기 쉽도록 확률인 Probability의 ‘P’를 가져와서 작성해 주는데요. 따라서 비가 올 확률은 P(🌂)로 적을 수 있습니다.

이번에는 사후 확률입니다. 먼저 사후 확률이란, 특정 사건이 발생한 후에 다른 사건이 발생할 확률입니다. 이때, 우리는 2가지 경우를 고려할 수 있는데요. 날씨가 흐린 후, 비가 오는 경우나 비가 온 후, 날씨가 흐릴 경우입니다. 여러분은 2가지 경우 중 어떤 사건에 더욱 관심이 있으신가요? 대부분의 사람들은 날씨가 흐린 후 비가 올 확률을 궁금해하며, 이것이 사후 확률이 됩니다. (출근길에 흐린 날씨를 보며, 비가 올 것을 대비하여 우산을 챙긴 경험, 다들 있으시죠?) 먼저 날씨가 흐린 후, 비가 올 확률은 P(🌂|☁)로 표현합니다. 확률이 조금 복잡해졌지만, 어렵지 않습니다. 먼저, 우리가 구하고 싶은 확률은 ‘비가 올 확률’입니다. 이러한 나의 관심사는 막대기(|)를 기준으로 왼쪽에 작성합니다. 하지만, 단순히 비가 올 확률이 궁금한 것이 아닌, ‘날씨가 흐리다’는 조건이 붙었을 때의 ‘비가 올 확률’을 궁금해합니다. 따라서 이러한 조건은 막대기(|)를 기준으로 오른쪽에 작성합니다. 여기서 막대기(|)는 ‘~한다면’을 의미하며, 영어의 IF문과 같은 가정을 표현합니다. 그렇다면, 총정리를 해보도록 하죠! 우리는 날씨가 흐리다(☁)고 한다면(|) 그때의 비가 올 확률(🌂)에 관심을 가지고 있습니다. 이렇게 어떤 사건이 이미 일어났다는 조건이 있을 때 다른 사건이 일어날 확률을 계산하는 것을 조건부 확률이라고 합니다.


그렇다면, 우리가 최종적으로 알고자 했던 ‘베이즈 정리’로 돌아와보도록 하겠습니다. 베이즈 정리란 현재 알고 있는 정보를 바탕으로 정해진 사전 확률과 특정한 사건이 발생한 후에 다른 사건이 발생할 확률인 사후 확률 사이에 어떠한 관계가 있는지를 설명해 주는 정리입니다. 




💬 네모🟥로 알아보는 베이즈 정리

#유튜브 #추천알고리즘 #정사각형

앞서 살펴본 베이즈 정리를 수학 공식으로도 표현할 수 있는데요. 잠깐, 네모🟥를 활용하면 수학 공식 없이도 베이즈 정리를 더 쉽게 이해할 수 있다고요? 특히 네모 중에서도 가로와 세로의 길이가 1로 동일한 정사각형을 사용하면 더욱 좋습니다. 그 이유 무엇일까요? 가로와 세로의 길이가 1인 정사각형의 넓이는 1x1로 1이 되며, 이러한 1은 전체 확률인 1을 나타내기 때문입니다. 그렇다면 네모를 활용해 베이즈 정리를 이해해 보도록 하겠습니다. 



유튜브 영상을 딱 하나만 보고 자려고 했는데😴, 마음에 드는 맞춤 동영상 때문에 밤을 지새운 경험이 있으신가요? 유튜브는 시청한 콘텐츠를 바탕으로 사용자들이 선호할 영상을 파악하는데 여기에는 베이즈 정리 개념이 적용되었습니다. 여러분은 주로 어떤 유튜브에 좋아요를 누르시나요? 다양한 콘텐츠, 짧은 영상시간, 흥미로운 썸네일과 같은 여러 요인이 있지만, 이번에는 ‘콘텐츠’에 집중해보도록 하겠습니다.

유튜브는 새로운 가입자인 튜튜👱🏻‍♀️씨를 사로잡기 위해 노력 중입니다. 바로 튜튜씨에게 여행 콘텐츠를 추천한 후, 그것을 시청한 튜튜씨가 좋아요를 누를 확률인 P(👍🏻|🛫)을 계산하고 싶은 것이죠! 이렇게 여행 콘텐츠를 시청한 후에 좋아요를 누르는 경우를 사후 확률이라고 부릅니다. 이 확률이 높게 나온다면, 앞으로 유튜브는 튜튜씨에게 여행 콘텐츠를 추천할 예정입니다. 하지만, 튜튜씨는 새로운 가입자이기 때문에 아직 영상을 좋아할지 싫어할지를 알 수 없습니다. 따라서 유튜브는 튜튜씨가 영상에 좋아요를 누를 확률인 P(👍🏻)을 0.5, 싫어요를 누를 확률인 P(👎🏻)을 0.5로 가정합니다. (딱 반반으로요!) 아직 튜튜씨에 대한 아무런 정보가 없기 때문에 동등한 확률을 가정하는 것이죠. 해당 확률은 우리가 현재 가지고 있는 정보를 바탕으로 도출되었기 때문에 사전 확률이라고도 부릅니다. 그러면 이런 사전 확률을 네모에 나타내보도록 하겠습니다. 네모의 가로 길이를 영상을 좋아할 확률과 싫어할 확률로 분할합니다. 이때, 앞에서 가정했던 0.5씩을 네모에 표현해 줍니다.



유튜브에 가입한지 10일이 지난 오늘, 튜튜씨는 총 20편의 영상을 시청한 후, 해당 영상에 좋아요나 싫어요를 눌렀습니다. 이러한 평가 기록을 참고하여 2가지의 정보를 알아냅니다. 첫 번째는 좋아요를 눌렀을 때, 그것이 여행 콘텐츠일 확률 P(🛫|👍🏻)입니다. 두 번째는 싫어요를 눌렀을 때, 그것이 여행 콘텐츠일 확률 P(🛫|👎🏻)입니다. 시청기록을 자세히 살펴보도록 하겠습니다. 총 10개의 영상에 좋아요를 눌렀는데, 그 중 8개가 여행 콘텐츠였습니다. 즉, 좋아하는 영상 중 0.8만큼이 여행 콘텐츠입니다. 그렇다면, 좋아하는 영상 중 여행 콘텐츠가 아닐 확률은 0.2입니다. 지금까지의 내용을 네모에 나타내보도록 하죠! 네모의 왼쪽 세로는 좋아하는 영상일 때, 그 영상이 여행 콘텐츠인지 아닌지로 분할하며, 여기서는 0.8과 0.2로 나눠집니다. 이번에는 싫어요를 누른 10개의 영상을 살펴보도록 하겠습니다. 10개의 싫어요를 누른 영상 중 4편이 여행 콘텐츠이기 때문에 그 확률은 0.4가 됩니다. 그렇다면, 싫어하는 영상 중 여행 콘텐츠가 아닌 확률은 0.6이 됩니다. 이를 네모에 표현하면 오른쪽 세로는 싫어요를 누른 영상일 때, 그 영상이 여행 콘텐츠인지 아닌지로 분할하며, 여기서는 0.4와 0.6이 됩니다. 



그렇다면, 이제는 모든 변의 길이를 곱할 차례입니다. 4개로 분리된 네모의 가로와 세로의 곱을 계산하면, 각 상황에 맞는 확률을 구할 수 있습니다. 짠! 왼쪽 상단의 진한 초록색 네모를 살펴볼까요? 영상을 좋아할 확률 0.5와 좋아하는 영상일 때 여행 콘텐츠일 확률인 0.8을 곱한 값인 0.4가 도출된 것을 확인할 수 있습니다. 해당 값들을 모두 계산하여 더하면 1이 나오는 것 확인하셨나요? 



그럼 다시 처음으로 돌아와보도록 하죠! 우리가 구하고 싶었던 확률은 유튜브가 여행 콘텐츠를 추천한다면, 그것을 시청한 튜튜씨가 좋아요를 누를 확률인 P(👍🏻|🛫)입니다. 이때의 조건은 바로 ‘여행 콘텐츠를 시청’하는 것이며, 여행 콘텐츠를 시청하지 않은 상황은 우리의 관심사에서 제외됩니다. 따라서 여행 콘텐츠를 시청한 경우인 왼쪽 상단의 0.4 네모와 오른쪽 상단의 0.2 네모만 남게 됩니다. 이 두 네모를 합치면 0.6이 되며, 해당 경우는 분모로 계산됩니다. 이때, 우리가 더욱 관심을 갖는 경우는 어디일까요? 바로 좋아하는 영상일 때, 좋아요를 누르는 경우이며 해당 확률 값인 0.4 네모가 분자로 오게 되는 것입니다. 따라서 이렇게 도출된 값을 계산하면 ‘여행 콘텐츠를 시청하였을 때, 좋아요를 누를 확률’은 66%로 계산됩니다. 즉, 우리는 좋아요나 싫어요를 누를 확률인 사전확률 P(👍🏻)와 P(👎🏻)를 바탕으로 여행 콘텐츠를 시청했을 때, 좋아요를 누를 사후확률 P(👍🏻|🛫)을 계산하였습니다. 바로 이것이 베이즈 정리이죠! 베이즈 정리 미션클리어 😎 




엑셀로 따라하는 베이즈 정리 관련 영상 보러가기!


지금까지 네모로 알아본 베이즈 정리, 엑셀로 해보고 싶으시다고요? 그럼 위에 있는 유튜브 사진을 클릭해주세요! 🔼🔼🔼 (해당 내용은 <노코드 머신러닝> 2탄의 나이브 베이즈와 연결됩니다.) 




이번주 에이블레터 <노코드 머신러닝> 어떠셨나요?
좋았어요😁     아쉬웠어요😕


이 뉴스레터 공유해주기💌



교육서비스 경험을 혁신하는 에이블런입니다. 📣

● 비전공자를 위한 데이터 활용교육 > ABLEARN

● 1인 교육담당자를 위한 온라인 교육지원서비스 > &SPACE