파이썬

내일배움단- 파이썬 분석 3주차

RAN318 2021. 11. 5. 19:44
728x90
반응형

2021.11.02 - [파이썬] - 내일배움단 - 파이썬 분석 2주차

 

내일배움단 - 파이썬 분석 2주차

2021.10.27 - [파이썬] - 내일배움단 - 파이썬 분석 2021.10.26 - [파이썬] - 내일배움단 - 파이썬 분석 내일배움단 - 파이썬 분석 직장인 내일 배움 카드로 첫 시작한 스파르타 파이썬 분석 아자아자 'ㅅ'/

ran-318.tistory.com

 

[3주차 수업 목표]

  1. 실제 데이터를 분석할 수 있다.
  2. 그래프를 그려 인사이트를 찾을 수 있다.
  3. 주어진 문제를 데이터 기반의사 결정을 통해 해결할 수 있다.

  • 3주차 오늘 배울 것
    • 실제 데이터를 보는 방법
      • 스파르타 코딩의 실제 데이터를 만나봅시다
    • 가설을 세우는 방법
      • 우리에게 주어지는 것은 문제 뿐입니다
      • 문제를 해결하기 위한 가설을 세우고 근거를 찾아봅시다
    • 데이터에 기반해서 문제를 해결하는 방법
      • 그럴 것 같은 것은 있을 수 없어요!
      • 적어도 데이터가 전달해주는 의미를 근거로 내세웁시다

      • 우리가 마주 할 문제들
        • [문제1] 강의 중 가장 어려운 것은 무엇일까?

          💡 스파르타코딩클럽의 목표는 수강생 전원이 완주를 하는 것 입니다. 
            이를 위해서 어느 지점에서 수강생들이 이탈을 하고 있는지 알고 싶습니다. 
            그 지점을 알아야 문제를 해결 할 수 있기 때문이죠

        • [문제2] 강의자막으로 워드클라우드 만들기
          💡
          스파르타코딩클럽에서 많이 사용하는 단어는 무엇을까요? 
            우리의 강의를 표현해 줄 수 있는 키워드를 뽑을 수 있을까요? 
            키워드를 한눈에 볼 수 있는 워드 클라우드를 만들어 보겠습니다.

        • [문제3] 제 2의 즉문즉답 시간을 잡아본다면?
          💡수강생들은 일주일에 두 번 즉문즉답 시간을 가지고 있습니다. 
          토요일 오후 2시~5시, 화요일 오후 7시 ~10시 인데, 왜인지는 모르지만 토요일에는 사람들이 많이 오지 않아요.
          그 이유를 찾아보겠습니다.

      • [문제1] 강의 중 가장 어려운 지점은 어디일까?
        1. 라이브러리 불러오기
          판다스를 이용해 데이터를 다루어야 하기 때문에 가장 먼저 판다스를 불러옵니다.
        2. 수강 데이터 불러와서 살펴보기
          분석해 볼 데이터를 불러오겠습니다.
        3. 데이터 살펴보기
          우리에게 주어진 데이터는 강의 아이디, 수강완료 시간, 사용자 아이디 이렇게 3개가 있습니다. 
          어떻게 어려운 강의를 찾을 수 있을까요?👀
        4. 그래프 그리기
          ✅그래프를 그려 어려운 지점을 한 눈에 보도록 하겠습니다.


        5. 강의 제목 불러오기


        6. 강의 제목과 연결하기


        7. 강의 제목과 연결된 바 그래프 그리기
        8. 어려운 강의 찾아보기
          데이터 분석에 정답이란 없습니다. 우리가 가공한 데이터를 가지고 가설을 세우고 확인해 나가는 것이죠.
      • [문제2] 강의 자료 자막으로 워드클라우드 만들기
        1. 라이브러리 불러오기
          이번에 처리할 데이터들은 관계형 데이터가 아니기 때문에 다른 라이브러리들을 사용 해 보겠습니다.

          //워크클라우드 설치하기
          conda install -c conda-forge wordcloud

          //라이브러리 불러오기
          import numpy as np
          from PIL import Image
          from wordcloud import WordCloud
          import matplotlib.pyplot as plt

        2. 데이터 불러오기
          워드클라우드를 그려 볼 데이터를 불러오겠습니다.


        3. 워드클라우드 생성하기

          - 참고링크 : [https://amueller.github.io/word_cloud/generated/wordcloud.WordCloud.html](https://amueller.github.io/word_cloud/generated/wordcloud.WordCloud.html)
          - 위의 코드를 활용해 워드 클라우드를 생성하겠습니다.
          - `font_path` : 한글 폰트 설정 경로
          - `background_color` : 배경색상



        4. 워드클라우드 모양내서 그리기

        5. 워드클라우드 이미지 저장하기

      • [문제3] 적절한 즉문즉답 시간은 언제일까?
        1. 라이브러리 불러오기
          판다스를 이용해 데이터를 다루어야 하기 때문에 가장 먼저 판다스를 불러옵니다.  
          필요한 라이브러리를 불러오고, 폰트 설정도 미리 해 두겠습니다

        2. 데이터 불러오기
          분석해 볼 데이터를 불러오겠습니다.

        3. 데이터 살펴보기
          불러온 데이터들은 어떤 컬럼을 가지고 있는지 살펴볼까요?

        4. 필요한 데이터 정하기
          우리가 해결해야 할 문제는 무슨 요일, 몇 시에 수강생들이 강의를 듣는가입니다.
           이를 위해서는 요일별, 시간별 데이터가 필요합니다. 우리가 가진 데이터를 가공해서 만들어야 합니다.

        5. 시간 데이터 전처리 해주기
          우리가 가진 데이터는 범위 기간의 시간데이터 입니다. 
          하지만 실제로 찍어보면 우리가 가진 데이터는 문자열 데이터 입니다. 
          🥴예를 들어 2020-09-03 16:04:05.555000 에 1을 더하면 2020-09-03 16:04:05.5550001 이 됩니다.

        6. 요일 추가해주기
          시간으로 변경 했으면 요일 컬럼을 추가해줍니다.


      • [문제3] 제 2의 즉문즉답 시간 알아내기
        1. 요일 별 수강완료 수강생 수 전처리 하기

        2. Quiz_요일별 수강 완료 수강생 수 바 그래프 그리기

        3. 시간 데이터 추출 해주기

        4. 시간 별 수강완료 수강생 수 전처리 하기

        5. Quiz_시간 별 수강완료 수강생 수 라인 그래프 그리기

        6. 요일별 종료 시간 살펴보기

        7. 히트맵 그리기


      • 끝 & 숙제
        ✅나만의 워드 클라우드 만들기


728x90
반응형