[한국공공정책신문=김유리 기자]
◇ 클러스터링의 개념
데이터를 자동 분류, 데이터를 비슷한 특징을 가진 그룹으로 나누는 기술이다. 클러스터링(Clustering)은 비슷한 특징을 가진 데이터를 그룹으로 묶는 방법이다. 예컨대, SNS상의 사용자 행동에서 취미나 흥미가 비슷한 사람들을 같은 그룹으로 분류할 수 있다. 교사가 없는 것 중 하나이다. 마케팅과 의료 등 다양한 분야에서 활용되어 보다 효과적인 분석을 가능하게 한다.
◇ 클러스터링의 기본
클러스터링이란 데이터를 비슷한 특징을 가진 그룹(cluster)으로 나누는 방법이다. 예컨대, 당신이 많은 과일 데이터를 가지고 있고, 그것들을 ‘사과’ ‘귤’ ‘포도’처럼 그룹을 나누고 싶다고 생각했다고 해보자. 클러스터링은 그 작업을 자동으로 수행하기 위한 기법이다.
◇ 클러스터링의 주요 기법
첫째, K-means 클러스터링이다. K-means 클러스터링은 데이터를 미리 정한 수의 클러스터(cluster)로 나누는 방법으로 ① 클러스터의 수를 결정한다. 예컨대, ‘세 그룹으로 나누고 싶다’ 라고 정한다. ② 초기의 중심을 정한다. 각 그룹의 중심(centroid)을 무작위(random) 설정한다. ③ 데이터를 그룹으로 나눈다. 각 데이터를 가장 가까운 중심에 할당한다. ④ 중심을 다시 계산한다. 각 그룹의 중심을 다시 계산하고 다시 데이터를 할당한다. ⑤ 반복이다. 그룹 분류가 안정될 때까지 이를 반복한다. 이 방법은 데이터가 많거나 명확하게 나누어져 있는 경우에 효과적이다.
둘째, 계층적 클러스터링이다. 계층적 클러스터링은 데이터를 계층적으로 그룹화하는 방법이다. 여기에는 주로 두 가지 접근법이 있다. ① 응집형이다. 처음에 모든 데이터를 개별 클러스터로 시작해 가까운 클러스터(cluster)를 점점 연결한다. ② 분할형(Divisive)이다. 먼저 모든 데이터를 하나의 큰 클러스터로 만들고 서서히 클러스터를 나누어 간다. 이 방법은 데이터의 계층적 관계를 시각화하는 데 편리하다.
셋째, DBSCAN이다. DBSCAN(Density-Based Spatial Clustering of Applications with Noise)은 데이터 밀도를 기반으로 클러스터를 찾는 방법이다. 데이터가 밀집된 부분을 클러스터로 취급하고 밀집되지 않은 부분을 ‘노이즈(noise)’로 무시한다. 사전에 클러스터(cluster)의 수를 결정할 필요가 없고 형상이 불규칙한 데이터에 대해서도 유효하다.
◇ 클러스터링의 이용사례
① 마케팅이다. 고객을 비슷한 구매 경향을 가진 그룹으로 나누어 타겟을 좁힌 광고를 실시한다. ② 의료다. 환자의 증상이나 병력을 바탕으로 비슷한 질병을 가진 환자를 그룹화한다. ③ 화상처리다. 화상 내의 영역을 그룹으로 나누어, 물체의 인식이나 세그먼테이션(segmentation)을 실시한다.
◇ 클러스터링 평가
클러스터링 결과가 좋은지 확인하기 위해서는 다음과 같은 방법이 있다. ① 실루엣(silhouette) 점수다. 각 데이터 포인트가 자신의 클러스터(cluster)에 얼마나 적합한지를 측정한다. 점수가 높을수록 클러스터가 잘 나누어져 있음을 나타낸다. ② 다비즈(Dubies)-볼다인(Bouldine) 지수다. 클러스터 사이의 거리와 클러스터 내의 편차를 비교하여 클러스터링의 품질을 평가한다.
이규철 / 법학박사(상법)
∙ AI·GPT, SDGs&ESG 코치 및 강사
∙ 100세대학 크리에이터 및 칼럼니스트
∙ 생성AI와 챗GPT, SDGs·ESG경영전략,
글로벌 MBAtoCEO, 리더의 필승전략,
100세대학 행복디자인 매뉴얼 등 27권
∙ 일본(와세다대),중국(복단대·화동정법대)