728x90

데이터 9

[데이터 사이언스] Seaborn 으로 샘플 데이터셋 가져오기

파이썬 Seaborn 패키지는 데이터 로딩이나 랭글링 작업에 소요되는 시간과 모듈 활용 시 혼동을 줄이기 위해 패키지 차원에서 샘플 데이터셋을 제공한다. 특정 함수가 호출되면 연결된 온라인 레포지토리에서 데이터를 가져 오기 때문에 인터넷 연결이 필요하다. 1. Seaborn 패키지 불러오기 import seaborn as sns 2. 샘플 데이터셋 목록 확인하기 dataset_names = sns.get_dataset_names() 3. 샘플 데이터셋 가져오기 2.에서 확인한 샘플 데이터셋 명을 인자로 함수를 호출하면 데이터를 가져올 수 있다. diamonds = sns.load_dataset('diamonds') # 다이아몬드 데이터셋 + 원본 데이터셋이 업로드되어 있는 온라인 레포지토리 github...

[데이터 사이언스] DW(데이터웨어하우스)와 DB(데이터베이스)의 비교

Data Warehouse (데이터 웨어하우스) Data Base (데이터 베이스) 목적 데이터 분석용 서비스용 주요 기술 OLAP(On-Line Analytical Processing) : 온라인 분석 처리 OLTP(On-Line Transactional Processing) : 온라인 트랜잭션 처리 데이터 및 테이블 형태 subject-oriented, historical, 대용량, 반정규화 application-oriented, real-time, 정규화 성능 및 최적화 정확성 속도 중시 쓰기 최적화 주요 제품 Big Query, Amazon Redshift 등 MySQL, Oracle 등 참고 ) Database vs Data Warehouse: Key Dif..

[데이터 사이언스] 데이터 분석 및 시각화 프로젝트 아이디어

전국 학교 급식 메뉴 데이터 급식 메뉴 빈도 순 시각화 ( ex. 가장 많이 나온 급식 메뉴는? ) 특이한 메뉴 추출 급식 메뉴의 지역성 또는 계절성 연관 관계 파악 잔반 데이터 추가하여 급식 메뉴와 잔반량의 연관 관계 파악 영화 데이터 영화 배경 시기 중심으로 영화 나열 영화 장르와 영화 포스터 색깔 연관 관계 파악 주류 판매 데이터 요일 별 주류 판매량 추이 시각화 도서 데이터 자기 계발 관련 도서명 워드 클라우드 시각화 음원 데이터 년도별 가사 워드 클라우드 시각화 모든 음원 가사 워드 클라우드 시각화 ( ex. 가장 진부한 가사는? ) 인구 데이터 지도를 인구수에 비례하도록 시각화

[데이터 시각화] D3.js로 세계 지도에 국가별 Corona19 코로나 확진자 수 실시간으로 나타내기

코로나19 확진자는 어느 국가를 중심으로 어떻게 늘었을까? 코로나19 확진자 수를 세계 지도에 날짜별 국가별로 나타내어 확진자가 어느 국가를 중심으로 어떻게 늘어났는지 시각화해보았습니다. 확진자 수 데이터는 kaggle.com에서 다운받아 전처리하여 사용하였습니다 TopoJSON에는 국가명이 아닌 국가 코드만 존재하였고, 국가별 확진자 수 데이터에는 국가 코드가 아닌 국가명만 존재하였습니다. 그래서 국가별 코드 및 국가명 데이터를 별도로 구하여 TopoJSON에 추가하였습니다. 하지만 TopoJSON에 추가한 국가명이 국가별 확진자 수 데이터의 국가명과 정확하게 일치하지 않는 경우가 많아 데이터 전처리 단계에서 상당한 어려움을 겪었습니다. index.html World COVID-19 Confirmed ..

728x90