728x90

데이터 사이언스 10

[머신러닝] 배라 아이스크림 종류 구분하는 분류 모델 5분만에 만들기(ft.Teachable Machine)

배스킨라빈스 아이스크림 종류 중 '민트 초코'와 '엄마는 외계인'을 구분하는 모델을 간단하게 만들어보자! 1. Teachable Machine(https://teachablemachine.withgoogle.com) 사이트 접속 * Teachable Machine : 머신러닝 모델을 쉽고 빠르고 간단하게 만들 수 있도록 제작된 웹 기반 도구를 제공하는 사이트 2. 이미지 프로젝트 시작하기 [이미지 프로젝트] > [표준 이미지 모델] 클릭 3. 모델 학습시키기 분류할 종류(클래스)명 입력 > 샘플 이미지 업로드 > 모델 학습시키기 * 모델을 학습시킬 때 고급 설정으로 에포크, 배치크기, 학습률을 설정할 수 있음. 분류할 클래스명에 '민트 초코'와 '엄마는 외계인'을 입력하고 배스킨라빈스 홈페이지에서 다운로..

[데이터 사이언스] Seaborn 으로 샘플 데이터셋 가져오기

파이썬 Seaborn 패키지는 데이터 로딩이나 랭글링 작업에 소요되는 시간과 모듈 활용 시 혼동을 줄이기 위해 패키지 차원에서 샘플 데이터셋을 제공한다. 특정 함수가 호출되면 연결된 온라인 레포지토리에서 데이터를 가져 오기 때문에 인터넷 연결이 필요하다. 1. Seaborn 패키지 불러오기 import seaborn as sns 2. 샘플 데이터셋 목록 확인하기 dataset_names = sns.get_dataset_names() 3. 샘플 데이터셋 가져오기 2.에서 확인한 샘플 데이터셋 명을 인자로 함수를 호출하면 데이터를 가져올 수 있다. diamonds = sns.load_dataset('diamonds') # 다이아몬드 데이터셋 + 원본 데이터셋이 업로드되어 있는 온라인 레포지토리 github...

[데이터시각화] Seaborn Boxplot 예제 코드 설명

0. 패키지 및 데이터 불러오기 import seaborn as sns tips = sns.load_dataset("tips") 1. 기본 가로형 세로형 Boxplot 그리기 ax1 = sns.boxplot(x=tips["total_bill"]) # 가로형 boxplot, orient="h" 명시적으로 설정 가능 ax2 = sns.boxplot(x="total_bill", orient="v", data=tips) # 세로형 boxplot 2. 집단별 Boxplot 그리기 ax = sns.boxplot(x="day", y="total_bill", data=tips) ax = sns.swarmplot(x="day", y="total_bill", data=tips, color=".25") # 데이터 포인트 나..

[데이터 사이언스] DW(데이터웨어하우스)와 DB(데이터베이스)의 비교

Data Warehouse (데이터 웨어하우스) Data Base (데이터 베이스) 목적 데이터 분석용 서비스용 주요 기술 OLAP(On-Line Analytical Processing) : 온라인 분석 처리 OLTP(On-Line Transactional Processing) : 온라인 트랜잭션 처리 데이터 및 테이블 형태 subject-oriented, historical, 대용량, 반정규화 application-oriented, real-time, 정규화 성능 및 최적화 정확성 속도 중시 쓰기 최적화 주요 제품 Big Query, Amazon Redshift 등 MySQL, Oracle 등 참고 ) Database vs Data Warehouse: Key Dif..

[데이터 사이언스] 데이터 분석 및 시각화 프로젝트 아이디어

전국 학교 급식 메뉴 데이터 급식 메뉴 빈도 순 시각화 ( ex. 가장 많이 나온 급식 메뉴는? ) 특이한 메뉴 추출 급식 메뉴의 지역성 또는 계절성 연관 관계 파악 잔반 데이터 추가하여 급식 메뉴와 잔반량의 연관 관계 파악 영화 데이터 영화 배경 시기 중심으로 영화 나열 영화 장르와 영화 포스터 색깔 연관 관계 파악 주류 판매 데이터 요일 별 주류 판매량 추이 시각화 도서 데이터 자기 계발 관련 도서명 워드 클라우드 시각화 음원 데이터 년도별 가사 워드 클라우드 시각화 모든 음원 가사 워드 클라우드 시각화 ( ex. 가장 진부한 가사는? ) 인구 데이터 지도를 인구수에 비례하도록 시각화

[데이터 시각화] D3.js로 세계 지도에 국가별 Corona19 코로나 확진자 수 실시간으로 나타내기

코로나19 확진자는 어느 국가를 중심으로 어떻게 늘었을까? 코로나19 확진자 수를 세계 지도에 날짜별 국가별로 나타내어 확진자가 어느 국가를 중심으로 어떻게 늘어났는지 시각화해보았습니다. 확진자 수 데이터는 kaggle.com에서 다운받아 전처리하여 사용하였습니다 TopoJSON에는 국가명이 아닌 국가 코드만 존재하였고, 국가별 확진자 수 데이터에는 국가 코드가 아닌 국가명만 존재하였습니다. 그래서 국가별 코드 및 국가명 데이터를 별도로 구하여 TopoJSON에 추가하였습니다. 하지만 TopoJSON에 추가한 국가명이 국가별 확진자 수 데이터의 국가명과 정확하게 일치하지 않는 경우가 많아 데이터 전처리 단계에서 상당한 어려움을 겪었습니다. index.html World COVID-19 Confirmed ..

[데이터 시각화] D3.js로 날짜별 Corona19 코로나 확진자 수 상위 10개국 실시간으로 나타내기

날짜별 가장 많은 코로나19 확진자가 발생한 국가나 지역은 어디일까? 코로나19 확진자 수가 많은 상위 10개 국가 또는 지역을 날짜별로 실시간 업데이트해보았습니다. 확진자 수 데이터는 kaggle.com에서 다운받아 전처리하여 사용하였습니다. index.html Which countries or regions have the most COVID-19 confirmed cases? Top 10 Countries or Regions by daily accumulated COVID-19 confirmed cases (data from kaggle.com) * 전체 데이터 및 코드 : 참고자료: bl.ocks.org/charlesdguthrie/11356441

[데이터 시각화] GeoJSON과 TopoJSON

데이터를 지도 형태로 시각화할 때 GeoJSON이나 TopoJSON 데이터를 활용할 수 있다. 1. GeoJSON www.geojson.org 에 따르면 GeoJSON은 다양한 지리적 데이터 구조를 인코딩하는 형식이다. GeoJSON은 Point, LineString, Polygon, MultiPoint, MultiLineString, MultiPolygon의 기하학적 유형을 지원한다. 추가 프로퍼티를 가진 기하학적 객체는 Feature 객체이고, Feature 객체 집합은 FeatureCollection 객체에 포함된다. { "type": "Feature", "geometry": { "type": "Point", "coordinates": [125.6, 10.1] }..

[데이터 분석] 서울에서 면적 대비 카페가 가장 많은 동은?

서울에서 면적 대비 카페가 가장 많은 동은 어디일까? 1. 주제 선정 한국의 카페 시장은 포화상태에 이르렀다. 전국에 7만1000여 곳의 커피 전문점이 영업 중인 가운데 지난 한 해 카페 창업 건수는 1만4000개, 폐업 건수는 9000개 수준으로 폐업 건수보다 창업 건수가 많은 상황이 지속되고 있다. 실제로 ‘한 집 건너 카페’라는 말처럼 한 골목에서 여러 카페가 함께 영업하고 있거나 심지어 한 건물에서 두세 개의 카페가 영업하고 있는 상황을 종종 목격할 수 있었다. 이에 다른 지역보다 카페가 상대적으로 많이 분포되어 있는 서울에서 각 법정동의 면적 대비 카페가 가장 많은 동은 어디일까라는 궁금증을 가지게 되어 데이터 분석을 통해 이를 알아보고자 하였다. (참고: 한집 건너 카페..커피숍사업자 1년새 ..

728x90