[기계학습] Machine Learning in Action - 1장. 기계학습 기초(기계학습이란/주요 용어/알고리즘 선정방법/머신러닝개발단계) 요약정리

 

1.1 기계학습이란 무엇인가

- 데이터를 정보로 변환하는 일련의 과정(Data → Information)

- 목적 : ‘가치 있는 정보를 캐낸다’

 

1.1.2 기계학습은 점점 중요해질 것이다

· 데이터 홍수

· 지식 노동의 시대 : 데이터를 이해하는 일은 더욱 더 중요한 기술!

 

 

1.2 주요 전문 용어

[값 유형]

명목형 값

 - 참 또는 거짓을 판별 할 수 있는 경우

 - 예) 파충류, 어류, 포유류 등 ☞ 분류

 

수치형 값

 - 한정되지 않은 수치형 값을 가지는 경우

 - 예) 402.001, 1000.743 등 회귀

 

[변수 유형]

목적 변수

- 기계학습 알고리즘을 가지고 예측하고자 하는 것

 

속성(features) = 특성(attributes)

- 목적 변수에 대한 속성

* 머신러닝 목적이 속성과 목적 변수 간의 관계를 찾는 것!

 

 

[데이터집합 종류]

훈련 데이터집합

- 기계학습 알고리즘을 훈련하는데 사용되는 데이터

- 목적 변수 값 존재

 

검사 데이터집합

- 기계학습 알고리즘을 테스트하기 위해 사용되는 데이터

- 목적 변수없음

→ 예측 값과 검사 예제의 본래 목적 변수를 비교하여 얼마나 정확한지 짐작할 수 있다.

 

 

[학습 방법]

지도학습(Supervised learning)

- 알고리즘에 무엇을 예측할 것인지 제공

 * 분류 : 목적 변수는 명목형 값을 가짐

 * 회귀 : 목적 변수가 정수가 아닌 실수처럼 연속적인 값을 가짐 

Supervised Learning
분류(Classification) 회귀(Regression)
K-최근접 이웃(K-Nearest Neighbors) 선형회귀(Linear)
나이브 베이즈(Naive Bayes)  
지지 벡터 머신(Support Vector Machines)  
의사결정 트리 (Decision Tree)  

 

비지도학습(Unsupervised learning)

- 분류 항목 표시나 목적 변수가 없음

Un-supervised Learning
군집화(Clustering) 밀도 추정(Density Estimation)
K-평균(K-means) 기대 극대화(EM)
디비스캔(DBSCAN)  

 

* 왜이렇게 많은 알고리즘 방법이 존재하는가? 하나의 방법만 선택할 수는 없는 것인가?

 

 

 

1.4  올바른 알고리즘 선정 방법

① 목적 고려

  - 목적 값을 예측하려면 지도 학습 (회귀 혹은 분류)

  - 목적 값 예측이 아니라면 비지도 학습

 

② 보유하고 있는 데이터 고려

  - 데이터 파악 우선시 되어야 함

  - 명목형인가. 연속형인가. 속성 내 누락 값이 있는가. 오류 데이터가 있는가.

 

 선택의 폭이 좁아 졌다고 해서 가장 좋은 알고리즘이 무엇인지, 가장 좋은 결과를 낼 수 있는 지 모두 알 수 있는 것이 아님

다양한 알고리즘을 시도해야하며 어떻게 수행되는지 알아야 함

 

 

1.5 기계학습 응용 프로그램 개발 단계

① 데이터 수집

  - 필요한 정보를 수집하고 데이터를 추출하여 표본을 모음

 

② 입력 데이터 준비 및 분석

  - 수집한 데이터를 유용한 형식으로 만듦

  - 알고리즘마다 다른 형식의 입력데이터가 만들어짐

  - 중복 값, 누락 값 처리 등

 

④ 알고리즘 훈련

  - 실제 기계학습이 이루어지는 부분!

   * 비지도학습의 경우 목적 값을 가지지 않기 때문에 훈련 단계가 없음

 

⑤ 알고리즘 테스트 

  - 학습된 정보를 사용하는 단계

  - 훈련이 얼마나 잘되었는지를 알아보기 위해 학습된 정보를  테스트

 

⑥ 사용하기

 



반응형
그리드형

댓글

❤️김세인트가 사랑으로 키웁니다❤️