리딩을 해주신 김승일님 자료
http://whydsp.org/263
# Unsupervised Learing / Clusgtering
# 계층적 군집화
1. 유사도가 가장 가까운 한 쌍을 찾는다.
2. 찾은 한 쌍을 하나의 그룹으로 만들고, 그룹의 위치는 두 쌍의 중심(무게중심)
3. 위 과정을 1개의 그룹만 남을 때까지 반복
: 팩토리얼계산으로 2^3알고리즘
# 계통도
: tree의 깊이가 깊은 것 보다, 깊지않은 쪽의 거리가 가까움
# 세로줄 군집화
: 데이터를 단순히 rotation 시켜줌
ex. 마트에서는 어떤 물건을 함께 진열하면 좋을까? 기저귀와 맥주
# 계층적 군집화 기법의 단점
: 뚜렷한 그룹으로 쪼개지 못하고, 계산량이 많음(알고리즘 대박...)
=> K-means Clustering
# K-means Clustering
1. 임의의 k점을 initial centroid로 잡기
2. 각 centroid에서 가까운 node들을 하나의 그룹으로 만듬
3. Centroid Update. 각 그룹의 무게중심으로 중심을 잡기
4. 더 이상 그룹에 변화가 없을때까지 위 과정을 반복
# 선호도 군집
: Zebo.com, 사람들이 가지고 싶은 물건 목록을 만드는 사이트
# Tanamoto Coefficient
: 책이 잘못나온거 같음
타니모토 알고리즘이 맞음
군집화 할 때, 합집합분의 교집합으로 계산
'Development > Data Science' 카테고리의 다른 글
[집단지성] 4.7 클릭학습 개념 (0) | 2015.05.14 |
---|---|
[집단지성] 4. 검색과 랭킹 - 6. 유입 링크 사용하기 (0) | 2015.05.04 |
[집단지성] 유클리디안 거리점수, 피어슨 상관점수 (0) | 2015.04.24 |
집단지성 (0) | 2015.04.21 |