불꽃코딩 :: 불꽃코딩

전체 글

Anselm 2023. 2. 12. 20:37

2023. 2. 12. 20:37

머신러닝의 한 종류로 훈련 데이터에 타깃이 없음.

타깃이 없기 때문에 외부의 도움 없이 스스로 유용한 무언가를 학습해야 함.

대표적인 비지도 학습 작업은 군집, 차원 축소등이 있음

히스토그램 : 값이 발생한 빈도를 그래프로 표시한 것. 보통 x축이 값의 구간(계급), y축은 발생 빈도(도수).

군집 : 비슷한 샘플끼리 그룹으로 모으는 작업

클러스터 : 군집 알고리즘에서 만든 그룹

실제 비지도 학습에서는 타깃값을 모르기 때문에 이처럼 샘플의 평균값을 미리 구할 수 없음

타깃값을 모르면서 어떻게 평균값을 찾을 수 있을까?

k-평균 군집 알고리즘이 평균값을 자동으로 찾아 줌.

이 평균값이 클러스터의 중심에 위치하기 때문에 클러스터 중심 또는 센트로이드라고 부름.

k-평균 알고리즘 동작방식

1. 무작위로 k개의 클러스터 중심으로 정합니다.

2. 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정합니다.

3. 클러스터에 속한 샘플의 평균값으로 클러스터 중심을 변경합니다.

4. 클러스터 중심에 변화가 없을 때까지 2번으로 돌아가 반복합니다.

k-평균 알고리즘은 처음에는 랜덤하게 클러스터 중심을 선택하고 점차 가장 가까운 샘플의 중심으로 이동하는 비교적 간단한 알고리즘

k-평균 알고리즘의 단점 중 하나는 클러스터 개수를 사전에 지정해야 한다는 것. 실전에서는 몇개의 클러스터가 있는지 알 수 없습니다. 어떻게 하면 적절한 k 값을 찾을 수 있을까?

군집 알고리즘에서 적절한 k 값을 찾기 위한 완벽한 방법은 없다. 적절한 클러스터 개수를 찾기 위한 대표적인 방법인 엘보우 방법