본문 바로가기
DeepLearning Framework & Coding/Microsoft AzureML

[Microsoft AzureML - 2] 학습할 데이터 불러오기

by 노마드공학자 2021. 6. 18.

※ 이전글

[Microsoft AzureML - 0] Intro https://limitsinx.tistory.com/113

[Microsoft AzureML - 1] 개발 환경 세팅 https://limitsinx.tistory.com/114

 


Automobile Price Prediction

 

이번에는 본격적으로 데이터를 분석해보고 예측까지 해보는 예제를 해보도록 하겠습니다.

 

Automobile Price Prediction데이터는 AzureML에 모두 내장되어있는 데이터로써 별도의 다운로드가 필요없습니다!

 

 

첫번째로, Studio 화면에서 좌측하단에 [+New]라고 된부분을 클릭해줍니다!

 

이것은 프로젝트를 생성하겠다는 뜻으로, 엑셀로 치면 "새파일"과 같은 기능입니다.

 

 

그다음 [Blank Experiment]를 클릭해주시면, 빈화면이 다음과같이 만들어지게 됩니다!

 

[Experiment created on 2021.6.14]는 제가 해당프로젝트를 만들어준 날짜로써, 이부분이 프로젝트 이름이 됩니다!

 

저는 TEST_Automobile price prediction으로 바꾸도록 하겠습니다.

 

좌측의 카테고리들은, 내가 머신러닝을 구현하기 위해 필요한 도구들이 모여있는 공간입니다.

 

복잡해보이지만, 실제로 쓰는것은 한정적이며 되게 직관적으로 UI가 잘되어있습니다 :)

 

이제 AuzreML에 내재된 샘플데이터를 뽑아와볼건데요!

 

좌측 카테고리의 [Saved Datasets] -> [Samples] -> [Automobile price data]를 드래그해서 오른쪽의 Workspace에 올려놓으면 상기 그림처럼 블록이 생성됩니다.

 

데이터들이 제대로 Import되었는지 확인을 해야겠죠?

 

①에서 마우스 오른쪽 커서를 누르고 [Visualize]를 클릭해봅니다.

 

 

그럼 해당 샘플파일의 데이터들이 모두 깔끔하게 정리되어 나오는데요

 

Rows 205, Columns 26이란 뜻은  "데이터가 205개 있으며, 26개의 특징들을 가지고 있다" 라는 의미입니다.

 

 

Visualize된 데이터의 가장 오른쪽에는 결국 저희가 학습 후 구해내야할 "Price(차량 가격)" column이 있는데요

 

이렇게 column을 클릭하게되면 우측의 [Statistics]창을 통해 해당 column속 데이터들을 통계처리하여 보여줍니다.

 

평균값/중앙값/최소/최대값/표준편차... 인데요

 

여기서 Unique values라는건 데이터의 갯수입니다. 즉, 205개의 데이터가 있는데 똑같은값을 가지는 데이터를 제외하면 186개의 종류가 있다는 뜻이죠

 

Missing data라는건, 값이 빈칸으로 존재하는 데이터 갯수라는 뜻입니다. 즉 4개가 제대로 값이 입력되지 않았다는것이죠

 

이런데이터들은 Data-preprocessing을 통해 학습하기전에 깔끔하게 정리를 해주고 시작해야합니다. 자칫 이런부분들이 학습에 악영향을 미칠가능성이 높기때문이죠

 

마지막으로 Feature Type은 데이터의 타입입니다.

 

fuel-system column을 클릭해보면 "String"으로 나오는데요, 문장이라는 뜻입니다.

 

학습을할때는 문장이나 언어를 input으로 넣을수는 없기에 각각을 숫자로 매핑해주는데요

(예를들면, "AAA"=1 , "BB" =2, ...)

 

AuzreML은 이런것까지 모두 자동으로 해주기에 되게 편합니다 :)

 

이 다음글로는 이렇게 얻어진 데이터를 어떻게 분석하고, 빈칸들은 어떻게 처리할지, 학습에 유의미한 데이터들은 어떻게 찾아낼지와 같은 Data-preprocessing에 대해 다루어보겠습니다!

댓글