Netflix Movies and TV Shows (0) Intro
앞으로 4개의 캐글 노트북에 대한 글을 정리하려 합니다.
첫번째 캐글은 Netflix Movies and TV Shows 라는 데이터셋입니다.
데이터 소개
해당 데이터는 넷플릭스에 상영되는 드라마와 영화에 대한 기본 정보를 포함한 데이터셋입니다.
제목, 디렉터, 국가, 장르 등 총 12개의 칼럼을 가진 데이터 셋이고,
캐글에서 현재 usability 10점만점에 10점, 그리고 총 업로드 된 노트북이 1천개가 넘는
인기 높은 데이터 셋입니다.
Interesting Task Ideas
- 해당 항목은 캐글에서 제안하는 4가지 아이디어입니다.
- Understanding what content is available in different countries
- Identifying similar content by matching text-based features
- Network analysis of Actors / Directors and find interesting insights
- Does Netflix has more focus on TV Shows than movies in recent years.
Exploratory Data Analysis Steps
데이터 분석 과정은 크게 아래의 카테고리별로 진행할 예정입니다.
EDA에 관한 아티클로 analyticsvidhya를 추천드립니다.
1. Setting the goals about the dataset
- Find popular tv shows and movies
- Find similarities between these programs
- Geographical difference
- Distribution by genre
2. Data Exploration and Data preparation
2.1 Univariate analysis
2.2 Bi-variate analysis
2.3 Missing value treatment
2.4 Outlier treatment
2.4.1 Detect outlier
2.4.2 Remove outlier
3. Feature engineering
3.1 Variable transformation
3.2 Variable / feature selection
3.3 Variable creation
업로드 주소
해당 주피터 노트북은 여기에
지속적으로 업데이트 할 예정이니 전체 코드가 궁금하신 분들은 확인해주세요.
Just do it & Keep steady
댓글남기기