비지도학습 & 반지도학습

업데이트:

본 내용은 인공지능의 이해의 내용을 참조하여 작성하였습니다.

비지도학습

결과 정보가 없는 데이터들에 대해서 특정 패턴을 찾는 학습 방법으로,
데이터의 잠재 구조, 계층 구조, 사용자 패턴등을 찾아낸다.

비지도학습의 예
군집화, 밀도 추정, 차원 축소

군집화

데이터가 갖고 있는 유사성에 근거하여 데이터를 분할 하는 방법

계층적 군집화

군집화 결과가 계층적인 구조를 갖도록 하는 방법

병합형 계층적 군집화
데이터 개개의 값이 하나의 군집으로서 시작하여,
서로 가까이 있는 군집들을 결합하는 과정을 반복해 계층적 구조를 만드는 군집화

분리형 계층적 군집화
데이터 전부를 하나의 군집으로 보고 시작하여,
유사성을 바탕으로 군집을 분할해 나가 계층적 구조를 만드는 군집화

분할 군집화

계층적 구조를 만들지 않고 유사한 데이터들을 나눠 묶는 군집화
K-means, K-medoids, DBSCAN 등이 있다.

K-means 알고리즘

데이터를 K개의 그룹으로 나누는 알고리즘으로,
데이터의 군집의 중심 위치를 임의로 선정하고
중심 위치로부터 각 데이터들의 거리를 계산한다.
중심을 기준으로 가까운 거리의 값들을 중심의 군집에 속하게 만든 후
그 안에서 중심 위치를 다시 계산하여 새로운 중심 위치를 갱신한다.
이 과정을 군집의 변화가 나타나지 않을 때까지 반복한다.

장점

  • 일반적인 군집화에서 많이 활용한다.
  • 알고리즘이 쉽고 간결하다.

단점

  • 거리 기반 알고리즘으로 속성 값이 많을 때는 군집화 정확도가 떨어진다.
  • 중심 위치를 정하고 매번 모든 데이터들 간의 거리를 계산해야하므로,
    반복 횟수가 많을 수록 시간이 많이 걸린다.
  • 적합한 K의 값을 찾기가 힘들다.

밀도 추정

각 데이터들 값이 특정 값에 속할 것이라고 추정되는 확률 분포를 찾아내
데이터들과 변수들 간의 관계를 파악하는 방법이다.

모수적 밀도추정

분포가 특정 수학적 함수의 형태가 존재한다고 가정 후,
주어진 데이터를 가장 잘 반영하는 파라미터를 결정하는 방법이다.
대표적인 예로는 가우시안 함수 가 있다.

비모수적 밀도 추정

분포에 대한 별다른 가정을 하지 않고 주어진 데이터의 밀도 함수를 표현하는 방법으로,
대표적인 예로는 히스토그램 이 있다.

차원 축소

고차원의 데이터의 정보를 최대한 유지하면서 저차원으로 변환하는 방법으로,
저차원으로 변환해 시각화 시 직관적인 데이터 분석을 가능하게 해주며,
차원의 저주 문제를 완화 할 수 있게 해준다.

차원의 저주
차원이 커질수록 한 변수에 속하는 정보량이 적어져
모델 성능도 저하되는 현상

주성분 분석

데이터의 분산을 잘 설명해 주는 소수의 축을 중심으로
데이터를 사상하여 저차원으로 변환하는 방법으로,
변수들 간 존재하는 상관관계를 이용해 주성분을 추출한다.

이상치 탐지

이상치
다른 데이터들과 값이 크게 달라 다른 메커니즘에 의해 생성된 건지 아닌지 의심되는 데이터로,
제거의 대상보다는 관심의 대상이 된다.

잡음
관측 오류나 시스템에서 발생하는 무작위 적인 오차로,
제거의 대상이다.

반지도학습

반지도학습은 지도학습과 비지도학습 과정을 모두 사용하는 학습 방법으로,
결과값이 존재하는 지도학습 데이터를 이용하여,
각각의 미분류된 데이터를 결과값과 인접한 그룹에 할당하도록 학습한다.

반지도 학습은 다음과 같은 가정을 갖는다.
평활성 가정
가까이 있는 점들은 서로 같은 부류에 속할 것이다.

군집 가정
같은 군집에 속하는 데이터는 동일한 부류에 속할 가능섭이 높다.

매니폴드 가정
원래 차원보다 낮은 차원의 매니폴드에 데이터가 분포할 가능성이 높다.

태그:

카테고리:

업데이트:

댓글남기기