파이썬
내일배움단- 파이썬 분석 3주차
RAN318
2021. 11. 5. 19:44
728x90
반응형
2021.11.02 - [파이썬] - 내일배움단 - 파이썬 분석 2주차
내일배움단 - 파이썬 분석 2주차
2021.10.27 - [파이썬] - 내일배움단 - 파이썬 분석 2021.10.26 - [파이썬] - 내일배움단 - 파이썬 분석 내일배움단 - 파이썬 분석 직장인 내일 배움 카드로 첫 시작한 스파르타 파이썬 분석 아자아자 'ㅅ'/
ran-318.tistory.com
[3주차 수업 목표]
- 실제 데이터를 분석할 수 있다.
- 그래프를 그려 인사이트를 찾을 수 있다.
- 주어진 문제를 데이터 기반의사 결정을 통해 해결할 수 있다.
- 3주차 오늘 배울 것
- 실제 데이터를 보는 방법
-
-
- 스파르타 코딩의 실제 데이터를 만나봅시다
- 가설을 세우는 방법
-
-
-
- 우리에게 주어지는 것은 문제 뿐입니다
- 문제를 해결하기 위한 가설을 세우고 근거를 찾아봅시다
- 데이터에 기반해서 문제를 해결하는 방법
-
-
-
- 그럴 것 같은 것은 있을 수 없어요!
- 적어도 데이터가 전달해주는 의미를 근거로 내세웁시다
-
- 우리가 마주 할 문제들
- [문제1] 강의 중 가장 어려운 것은 무엇일까?
💡 스파르타코딩클럽의 목표는 수강생 전원이 완주를 하는 것 입니다.
이를 위해서 어느 지점에서 수강생들이 이탈을 하고 있는지 알고 싶습니다.
그 지점을 알아야 문제를 해결 할 수 있기 때문이죠 - [문제2] 강의자막으로 워드클라우드 만들기
💡스파르타코딩클럽에서 많이 사용하는 단어는 무엇을까요?
우리의 강의를 표현해 줄 수 있는 키워드를 뽑을 수 있을까요?
키워드를 한눈에 볼 수 있는 워드 클라우드를 만들어 보겠습니다. - [문제3] 제 2의 즉문즉답 시간을 잡아본다면?
💡수강생들은 일주일에 두 번 즉문즉답 시간을 가지고 있습니다.
토요일 오후 2시~5시, 화요일 오후 7시 ~10시 인데, 왜인지는 모르지만 토요일에는 사람들이 많이 오지 않아요.
그 이유를 찾아보겠습니다.
- [문제1] 강의 중 가장 어려운 것은 무엇일까?
- [문제1] 강의 중 가장 어려운 지점은 어디일까?
- 라이브러리 불러오기
판다스를 이용해 데이터를 다루어야 하기 때문에 가장 먼저 판다스를 불러옵니다. - 수강 데이터 불러와서 살펴보기
분석해 볼 데이터를 불러오겠습니다. - 데이터 살펴보기
우리에게 주어진 데이터는 강의 아이디, 수강완료 시간, 사용자 아이디 이렇게 3개가 있습니다.
어떻게 어려운 강의를 찾을 수 있을까요?👀 - 그래프 그리기
✅그래프를 그려 어려운 지점을 한 눈에 보도록 하겠습니다. - 강의 제목 불러오기
- 강의 제목과 연결하기
- 강의 제목과 연결된 바 그래프 그리기
- 어려운 강의 찾아보기
데이터 분석에 정답이란 없습니다. 우리가 가공한 데이터를 가지고 가설을 세우고 확인해 나가는 것이죠.
- 라이브러리 불러오기
- [문제2] 강의 자료 자막으로 워드클라우드 만들기
- 라이브러리 불러오기
이번에 처리할 데이터들은 관계형 데이터가 아니기 때문에 다른 라이브러리들을 사용 해 보겠습니다.
//워크클라우드 설치하기 conda install -c conda-forge wordcloud
//라이브러리 불러오기 import numpy as np from PIL import Image from wordcloud import WordCloud import matplotlib.pyplot as plt
- 데이터 불러오기
워드클라우드를 그려 볼 데이터를 불러오겠습니다. - 워드클라우드 생성하기
- 참고링크 : [https://amueller.github.io/word_cloud/generated/wordcloud.WordCloud.html](https://amueller.github.io/word_cloud/generated/wordcloud.WordCloud.html) - 위의 코드를 활용해 워드 클라우드를 생성하겠습니다. - `font_path` : 한글 폰트 설정 경로 - `background_color` : 배경색상
- 워드클라우드 모양내서 그리기
- 워드클라우드 이미지 저장하기
- 라이브러리 불러오기
- [문제3] 적절한 즉문즉답 시간은 언제일까?
- 라이브러리 불러오기
판다스를 이용해 데이터를 다루어야 하기 때문에 가장 먼저 판다스를 불러옵니다.
필요한 라이브러리를 불러오고, 폰트 설정도 미리 해 두겠습니다 - 데이터 불러오기
분석해 볼 데이터를 불러오겠습니다. - 데이터 살펴보기
불러온 데이터들은 어떤 컬럼을 가지고 있는지 살펴볼까요? - 필요한 데이터 정하기
우리가 해결해야 할 문제는 무슨 요일, 몇 시에 수강생들이 강의를 듣는가입니다.
이를 위해서는 요일별, 시간별 데이터가 필요합니다. 우리가 가진 데이터를 가공해서 만들어야 합니다. - 시간 데이터 전처리 해주기
우리가 가진 데이터는 범위 기간의 시간데이터 입니다.
하지만 실제로 찍어보면 우리가 가진 데이터는 문자열 데이터 입니다.
🥴예를 들어 2020-09-03 16:04:05.555000 에 1을 더하면 2020-09-03 16:04:05.5550001 이 됩니다. - 요일 추가해주기
시간으로 변경 했으면 요일 컬럼을 추가해줍니다.
- 라이브러리 불러오기
- [문제3] 제 2의 즉문즉답 시간 알아내기
- 요일 별 수강완료 수강생 수 전처리 하기
- Quiz_요일별 수강 완료 수강생 수 바 그래프 그리기
- 시간 데이터 추출 해주기
- 시간 별 수강완료 수강생 수 전처리 하기
- Quiz_시간 별 수강완료 수강생 수 라인 그래프 그리기
- 요일별 종료 시간 살펴보기
- 히트맵 그리기
- 요일 별 수강완료 수강생 수 전처리 하기
- 끝 & 숙제
✅나만의 워드 클라우드 만들기
728x90
반응형