본문 바로가기
DeepLearning Framework & Coding/Microsoft AzureML

[Microsoft AzureML - 13] Kaggle 사용법

by 노마드공학자 2021. 6. 29.

※ 이전글

[Microsoft AzureML - 0] Intro https://limitsinx.tistory.com/113

[Microsoft AzureML - 1] 개발 환경 세팅 https://limitsinx.tistory.com/114

[Microsoft AzureML - 2] 학습할 데이터 불러오기 https://limitsinx.tistory.com/115

[Microsoft AzureML - 3] 데이터 전처리(Data pre-processing) - I https://limitsinx.tistory.com/116

[Microsoft AzureML - 4] 데이터 전처리(Data pre-processing) - II https://limitsinx.tistory.com/117

[Microsoft AzureML - 5] 학습모델 구현 및 검증 https://limitsinx.tistory.com/118

[Microsoft AzureML - 6] 여러 학습모델 동시에 성능비교 https://limitsinx.tistory.com/119

[Microsoft AzureML - 7] Binary Classification with Kaggle https://limitsinx.tistory.com/120

[Microsoft AzureML - 8] 모델 선정과 Hyper Parameter 자동튜닝 https://limitsinx.tistory.com/121

[Microsoft AzureML - 9] 학습데이터 CSV로 Export하기 https://limitsinx.tistory.com/122

[Microsoft AzureML - 10] 데이터 Feature Engineering https://limitsinx.tistory.com/123

[Microsoft AzureML - 11] 이미지 데이터학습 with Neural Network https://limitsinx.tistory.com/124

[Microsoft AzureML - 12] Train/Test 데이터 구분하기 https://limitsinx.tistory.com/125

 

 


Kaggle

 

빅데이터 및 머신러닝을 하시는 데이터싸이언티스트분들중에서는 모르는 사람이 없을 "Kaggle"입니다.

 

캐글이라고 부르는데요,

 

앞으로 종종 캐글에서 데이터를 가져와서 학습해볼 예정이라, 시작전 한번 소개하는 시간을 가져보려합니다.

 

 

https://www.kaggle.com/
 

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

www.kaggle.com

 

 

위의 링크가 바로 Kaggle 싸이트인데요, 데이터사이언스를 하실분들은 캐글아이디는 가입해주시는게 좋습니다.

 

가입을 완료하시면 이렇게 첫화면이 나올껀데요!

 

Kaggle에서도 가장 유명한 Dataset인 "Titanic"데이터를 불러오겠습니다.

 

Search란에 Titanic이라고 검색해주시면 됩니다.

 

검색후 위의 글을 클릭해주시면 되는데요

 

 

붉은색 네모박스의 "Data"를 클릭하시고 스크롤을 내리시다보면

 

요기 Train.csv, Test.csv가 있습니다. 이 데이터를 받아주시면 됩니다.

 

데이터에 대한 간단한 설명들도 적혀있는데요

 

타이타닉 데이터들에 대한 설명입니다.

총 10개의 Feature가 있네요! 

 

Train Dataset을 통해 학습을 완료하고, Test Dataset을 통해 Survival 유무를 찾아내면 되는 프로젝트입니다!

Test Dataset에 대한 정답은 따로 없고, csv파일로 만들어서 Kaggle에 올려주면, 정확도가 몇%인지만 말해줍니다.

 

 

Test한 결과를 확인해보고 싶을때는, 여기 [Submit Predictions]를 클릭해서

 

 

요기에 csv파일로 업로드해주시면 됩니다.

 

예를들어, 401번~800번의 사람들이 Test Dataset에서 survival 유무를 제출해야한다! 라고 하면

 

한 컬럼은 401~800, 나머지 한컬럼은 각각의 사람들에 대한 생존유무(0/1)로 채워서 csv파일로 저장하고 제출하면됩니다.

 

제출하면, 요렇게 결과값을 알려줍니다! :)

 

 

보통 타이타닉은 80%의 정확도를 기준으로, 어느정도 정합성을 가지는지 안가지는지 판단하는데요

 

캐글은 오픈경쟁플랫폼이기에, 이렇게 학습한결과를 바탕으로 이제까지 제출한사람들중 내가 몇등인지까지 친절하게? 알려준답니다!

댓글