1.1 기계학습이란 무엇인가
- 데이터를 정보로 변환하는 일련의 과정(Data → Information)
- 목적 : ‘가치 있는 정보를 캐낸다’
1.1.2 기계학습은 점점 중요해질 것이다
· 데이터 홍수
· 지식 노동의 시대 : 데이터를 이해하는 일은 더욱 더 중요한 기술!
1.2 주요 전문 용어
[값 유형]
명목형 값
- 참 또는 거짓을 판별 할 수 있는 경우
- 예) 파충류, 어류, 포유류 등 ☞ 분류
수치형 값
- 한정되지 않은 수치형 값을 가지는 경우
- 예) 402.001, 1000.743 등 ☞ 회귀
[변수 유형]
목적 변수
- 기계학습 알고리즘을 가지고 예측하고자 하는 것
속성(features) = 특성(attributes)
- 목적 변수에 대한 속성
* 머신러닝 목적이 속성과 목적 변수 간의 관계를 찾는 것!
[데이터집합 종류]
훈련 데이터집합
- 기계학습 알고리즘을 훈련하는데 사용되는 데이터
- 목적 변수 값 존재
검사 데이터집합
- 기계학습 알고리즘을 테스트하기 위해 사용되는 데이터
- 목적 변수없음
→ 예측 값과 검사 예제의 본래 목적 변수를 비교하여 얼마나 정확한지 짐작할 수 있다.
[학습 방법]
지도학습(Supervised learning)
- 알고리즘에 무엇을 예측할 것인지 제공
* 분류 : 목적 변수는 명목형 값을 가짐
* 회귀 : 목적 변수가 정수가 아닌 실수처럼 연속적인 값을 가짐
Supervised Learning | |
분류(Classification) | 회귀(Regression) |
K-최근접 이웃(K-Nearest Neighbors) | 선형회귀(Linear) |
나이브 베이즈(Naive Bayes) | |
지지 벡터 머신(Support Vector Machines) | |
의사결정 트리 (Decision Tree) |
비지도학습(Unsupervised learning)
- 분류 항목 표시나 목적 변수가 없음
Un-supervised Learning | |
군집화(Clustering) | 밀도 추정(Density Estimation) |
K-평균(K-means) | 기대 극대화(EM) |
디비스캔(DBSCAN) |
* 왜이렇게 많은 알고리즘 방법이 존재하는가? 하나의 방법만 선택할 수는 없는 것인가?
1.4 올바른 알고리즘 선정 방법
① 목적 고려
- 목적 값을 예측하려면 지도 학습 (회귀 혹은 분류)
- 목적 값 예측이 아니라면 비지도 학습
② 보유하고 있는 데이터 고려
- 데이터 파악 우선시 되어야 함
- 명목형인가. 연속형인가. 속성 내 누락 값이 있는가. 오류 데이터가 있는가.
→ 선택의 폭이 좁아 졌다고 해서 가장 좋은 알고리즘이 무엇인지, 가장 좋은 결과를 낼 수 있는 지 모두 알 수 있는 것이 아님
→ 다양한 알고리즘을 시도해야하며 어떻게 수행되는지 알아야 함
1.5 기계학습 응용 프로그램 개발 단계
① 데이터 수집
- 필요한 정보를 수집하고 데이터를 추출하여 표본을 모음
② 입력 데이터 준비 및 분석
- 수집한 데이터를 유용한 형식으로 만듦
- 알고리즘마다 다른 형식의 입력데이터가 만들어짐
- 중복 값, 누락 값 처리 등
④ 알고리즘 훈련
- 실제 기계학습이 이루어지는 부분!
* 비지도학습의 경우 목적 값을 가지지 않기 때문에 훈련 단계가 없음
⑤ 알고리즘 테스트
- 학습된 정보를 사용하는 단계
- 훈련이 얼마나 잘되었는지를 알아보기 위해 학습된 정보를 테스트
⑥ 사용하기
'컴퓨터공학과 > 그외' 카테고리의 다른 글
윈도우 무비 메이커 다운로드(feat. 진짜 주의사항) (4) | 2020.10.22 |
---|---|
SCI-HUB, 사이허브 : 무료 논문 사이트, 우리는 왜 돈내고 논문 보나! (0) | 2020.05.14 |
네이티브 앱 vs.웹 앱 - 사용자 경험(UX)에 비추어 본 모바일 앱의 발전 방향 (0) | 2020.04.30 |
UNICODE 특장점, 유니코드 변환 방식(UTF-8과 UTF-16 특장점, 비교, 표현방법) / 한글 유니코드 (0) | 2020.04.27 |
[WEKA] java에서 weka 사용하기 / 분류·클러스터 구현 템플릿 및 예제 (0) | 2020.04.26 |