본문 바로가기

데이터전처리5

[Microsoft AzureML - 10] 데이터 Feature Engineering ※ 이전글 [Microsoft AzureML - 0] Intro https://limitsinx.tistory.com/113 [Microsoft AzureML - 1] 개발 환경 세팅 https://limitsinx.tistory.com/114 [Microsoft AzureML - 2] 학습할 데이터 불러오기 https://limitsinx.tistory.com/115 [Microsoft AzureML - 3] 데이터 전처리(Data pre-processing) - I https://limitsinx.tistory.com/116 [Microsoft AzureML - 4] 데이터 전처리(Data pre-processing) - II https://limitsinx.tistory.com/117 [Micros.. 2021. 6. 26.
[Microsoft AzureML - 4] 데이터 전처리(Data pre-processing) - II ※ 이전글 [Microsoft AzureML - 0] Intro https://limitsinx.tistory.com/113 [Microsoft AzureML - 1] 개발 환경 세팅 https://limitsinx.tistory.com/114 [Microsoft AzureML - 2] 학습할 데이터 불러오기 https://limitsinx.tistory.com/115 [Microsoft AzureML - 3] 데이터 전처리(Data pre-processing) - I https://limitsinx.tistory.com/116 이전 데이터전처리-1 글에서 정리한바와 같은 방식으로 유효인자를 찾아, 자동차의 가격예측을 위해 직접적인 영향을 주는 인자는 "horsepower,city-mpg,engine-s.. 2021. 6. 20.
[Microsoft AzureML - 3] 데이터 전처리(Data pre-processing) - I ※ 이전글 [Microsoft AzureML - 0] Intro https://limitsinx.tistory.com/113 [Microsoft AzureML - 1] 개발 환경 세팅 https://limitsinx.tistory.com/114 [Microsoft AzureML - 2] 학습할 데이터 불러오기 https://limitsinx.tistory.com/115 Data Pre-processing 데이터전처리는 머신러닝에서 아주 중요한 부분으로, 저는 개인적으로 인공지능의 80%는 데이터 전처리라고 생각하고 있습니다. 학습 모델을 짜는것은 어떻게든 github나 googling을 통해 구현을 할 수 있는데, 내가 진짜 학습시키고자 하는 Domain의 데이터들을 학습하기 유용한 형태로 정리하는것은 .. 2021. 6. 19.
[Microsoft AzureML - 2] 학습할 데이터 불러오기 ※ 이전글 [Microsoft AzureML - 0] Intro https://limitsinx.tistory.com/113 [Microsoft AzureML - 1] 개발 환경 세팅 https://limitsinx.tistory.com/114 Automobile Price Prediction 이번에는 본격적으로 데이터를 분석해보고 예측까지 해보는 예제를 해보도록 하겠습니다. Automobile Price Prediction데이터는 AzureML에 모두 내장되어있는 데이터로써 별도의 다운로드가 필요없습니다! 첫번째로, Studio 화면에서 좌측하단에 [+New]라고 된부분을 클릭해줍니다! 이것은 프로젝트를 생성하겠다는 뜻으로, 엑셀로 치면 "새파일"과 같은 기능입니다. 그다음 [Blank Experime.. 2021. 6. 18.
[코드로 이해하는 딥러닝 2-8] - Data Pre-processing "Data Pre-Processing" 데이터 전처리(Data pre-processing)은, 머신러닝 및 빅데이터 분석가에게 아주 필요한 기술입니다. 데이터들의 범위는 중구난방이기 때문에 균일화를 해줄 필요가 있기 때문이죠 예를들면, 저는 [1,2,3] [1000,3,4], [10000,5,2] 라는 x_data를 학습시킨다고 가정해보죠 Feature 1은 1~10000의 범위를 갖는동안 나머지는 +-2정도의 값변화를 가지죠 즉, Feature들 간에 값의 scailing차이가 너무 나게되면, 한쪽으로 강한 Bias가 생긴 값들이 나올 수 있다는 것입니다. 따라서, 데이터를 학습시키기전에 전처리를 해주는 과정이 필요한데요 보통, Gaussian pdf를 따른다는 전제하에, Z-score (x-mean(.. 2021. 1. 12.