Machine Learning/ 개요

개요

  • 지도 학습 & 비지도 학습
    • 지도 학습(Supervised Learning)
      • 답이 있는 것을 학습 시키는 것 ex) 고양이 사진을 학습 시켜서 새로운 사진을 보고 고양이인지 아닌지를 판별하는 것
    • 비지도 학습(Unsupervised)
      • 답이 없는 것에서 패턴을 찾아 분류하는 것
  • 회귀 & 분류
    • 회귀 (Regression)
      • 연속적인 속성의 값을 예측하는 것으로 선형 회귀가 대표적. ex) 집 값이 얼마냐
    • 분류 (Classification)
      • 이산적인 속성의 값을 예측 하는 것으로 로지스틱 회귀가 대표적. ex) 양성이냐 음성이냐, 해킹을 당했느냐 안 당했느냐
      • 사실 이산적인 속성도 양이 많아지면 연속적인 것으로 보이기 때문에 이 둘 사이에는 모호한 지점이 있다.
  • Clustering & Non-Clustering
    • Clustering
      • 비지도 학습 중에서 비슷한 분류가 될 수 있는 것 –거리가 가깝거나 비슷한 의미거나 등– 끼리 묶는 것
    • Non-Clustrering
      • 비지도 학습 중에서 혼돈 속에서 패턴을 찾아내는 것. 강의의 예에서는 소음 속에서 개별 목소리를 뽑아내는 예가 있다.
  • 머신러닝에서 사용하는 개념들
    • 가설 함수(Hypothesis)
      • 선형 회귀나 로지스틱 회귀, 인공신경망에서 사용하는 모델 자체를 의미.
    • 비용 함수(Cost Function)
      • 가설함수와 실제 데이터의 차이 값을 의미.
      • 비용함수의 값이 0이라는 것은 모델로 세운 가설함수가 실제 데이터와 정확히 일치한다는 것을 의미한다.
      • 머신러닝은 결국 최저의 비용을 갖도록 가설함수를 만드는 과정이다.
    • Gradient Descent
      • 가설함수의 비용을 줄이는 알고리즘.
      • 가설함수의 각 파라미터 별로 비용함수를 편미분한 후 이전 파라미터 값에서 빼는 식으로 가설함수의 파라미터 값을 조절하면서 가설함수의 비용을 줄이는 방식을 사용한다.
      • 각 파라미터의 크기에 차이가 있기 때문에 그것을 보정하는 Feature Scaling과 파라미터의 값을 추가로 조절하는 Regularization 가 추가로 사용된다.
    • 과소적합(Underfitting) vs 과적합(Overfitting)
      • 가설함수가 실제 데이터의 값을 제대로 반영하지 못하는 경우 과소적합(Underfitting) 편향이 높다(High Bias)고 하며, 가설함수가 시험용 데이터에는 부합하지만, 다른 데이터 셋에는 부합하지 못하는 경우 과적합(Overfitting) 분산이 높다(High Variance)고 한다.
  • 위 내용은 사실 머신러닝 이전에 이미 각 분야에서 사용되던 통계적인 분석 방법이다. 머신러닝은 통계적인 분석 방법을 기계에 학습 시켜서 사용하는 것.
    • 물론 인공신경망 같은 것은 컴퓨터의 등장으로 가능해진 방법.
[ssba]

The author

지성을 추구하는 디자이너/ suyeongpark@abyne.com

One thought on “Machine Learning/ 개요”

댓글 남기기

This site uses Akismet to reduce spam. Learn how your comment data is processed.