[한국공공정책신문=김유리 기자]
◇ 볼츠만 머신(Boltzmann machine)
볼츠만 머신(Boltzmann machine)은 확률적 회귀 결합형 신경망의 일종이다. 생성모델 중의 하나로 무향 그래프에 대응한 확률 모델이며 1985년에 개발되었다. 결정론적인 신경망인 퍼셉트론과 달리 데이터의 확률적 생성 규칙(生成規則)을 학습한다. 명칭은 사용되고 있는 샘플링 함수(볼츠만 분포)에서 유래한다.
*주1) 무향 그래프(undirected graph)는 그래프 이론에서 그래프의 종류 중 하나로, 노드(node)를 연결하는 선에 화살표를 이용하지 않은 것이다. 그래픽 모델링에서 인과관계를 가정하지 않는 변수 간의 관련성을 나타내는 경우 이용되는 일이 있다.
*주2) 확률 모델이란 불확실성이나 무작위성을 다루기 위해 확률적인 과정을 수학적으로 모델화한 것을 말한다. 심층학습에서는 모델의 파라미터 학습이나 미관측 데이터의 예측 등에서 확률적인 추론 계산을 실시하는 일이 있어, 그러한 경우에는 확률 모델을 이용하게 된다.
*주) 퍼셉트론(Perceptron)이란 퍼셉트론이란 뇌신경을 모방함으로써 인간과 같은 인식능력을 재현하려는 알고리즘이다. 입력된 신호를 처리하여 하나의 값을 출력한다. 입력된 신호에 따라 무언가를 출력하는 블랙박스를 상상하면 좋을 것이다.
볼츠만 머신(Boltzmann machine)은 통계적인 변동을 이용한 1982년에 개발된 홉필드 네트워크의 일종이기도 한다. 유닛(neuron) 간에 대칭적인 상호작용이 있는 비동기형 네트워크이며 네트워크의 에너지 함수가 극소값을 나타낸다. 홉 필드ㆍ네트워크는 각 유닛(unit)이 ‘전인가 없음’의 매컬록(McCulloch)과 피츠(Pitts)형의 입출력 특성을 가지고 있다(형식뉴런).
볼츠만 머신(Boltzmann machine)은 홉필드 네트워크(Hopfield network)와 마찬가지로 연결된 유닛(unit) 간의 네트워크로 네트워크가 가진 에너지가 정의된다. 홉필드 네트워크와 다른 점은 에너지 함수가 최소값을 취하는 것을 목표로 한다는 것이다. 각 노드(node)는 확률 변수, 엣지(edge)는 가중치를 각각 가진다.
볼츠만 머신의 학습에서는 로그 우도 함수를 최대화하는 최대 가능성 추정을 실시한다. 기대치 계산에 의한 발산을 피하기 위해 분포 샘플링이 필요하다. 이 샘플링에는 마르코프 연쇄 몬테카를로(MCMC)법이 필요하고, 학습에 방대한 시간이 소요되기 때문에 비실용적이라는 문제점이 있었다.
*주) 마르코프 연쇄 몬테카를로(Markov Chain Monte Carlo: MCMC)법은 ‘난수를 이용해 근사 계산을 하는 기법’을 말한다. 즉 난수를 이용하여 확률분포를 근사적으로 계산하는 기법으로 많은 경우에 이용되고 있다.
◇ 제한된 볼츠만 머신(RBM, Restricted Boltzmann machine)
볼츠만 머신의 비실용적 문제점을 해소하기 위해서 동일 층간의 접속을 인정하지 않는 제한된 볼츠만 머신이 1986년에 개발되었다. 제한된 볼츠만 머신은 볼츠만 머신과 같이 랜덤 네트워크(random network)가 아닌, 그래프 구조를 입력층과 은닉층의 2개 층으로 하는 제한을 걸어 학습이 수렴하기 쉽도록 한 것이다. 또 변수가 독립적이기 때문에 볼츠만 머신에 비해 샘플링이 용이하고, MCMC법의 깁스 샘플링이나 컨트러스티브 다이버전스(CD, Contrastive Divergence)법 등을 이용한다.
*주) CD(Contrastive Divergence)법은 2002년에 Hinton에 의해 고안되어 구배법을 적은 계산량으로 할 수 있게 되었다. 알고리즘은 매우 간단하다. 구배법(gradient method)은 최적화 문제에서 함수의 구배에 관한 정보를 해의 탐색에 이용하는 알고리즘을 총칭한다.
◇ 제한된 볼츠만 머신의 역할
제한된 볼츠만 머신은 다음과 같다. ① 차원 축소, ② 분류(classification), ③ 협조 필터링, ④ 특징량 학습 ,⑤ 데이터 마이닝(data mining) 등에 응용할 수 있어, 교사가 있는 학습ㆍ교사가 없는 학습에 이용할 수 있다. 2006년에 주목을 끈 것은 ‘제한된 볼츠만 머신(DNN, Deep Neural Network)’을 다단으로 겹친 ‘심층 신경망(DNN)’이었다. 이것은 훗날 딥러닝(deep learning)의 원조 모델이 되고 있다.
*주1) 협조 필터링(Collaborative Filtering, CF)은 많은 사용자의 기호 정보를 축적해, 어느 사용자와 기호가 유사한 다른 사용자의 정보를 이용해 자동적으로 추론을 실시하는 방법론이다. 취미가 비슷한 사람의 의견을 참고한다는 입소문의 원리에 비유되는 경우가 많다.
*주2) AIㆍ기계학습에서는 대량의 데이터로부터 패턴이나 규칙을 자동으로 학습해, 데이터의 분류나 예측을 실현하는데, 이 때에 필요하게 되는 것이 ‘특징량’이다. 특징량은 대상 데이터의 특징을 정량적인 수치로 나타낸 것이다.
이규철 / 법학박사(상법)
∙ AI·GPT, SDGs&ESG 코치 및 강사
∙ 100세대학 크리에이터 및 칼럼니스트
∙ 생성AI와 챗GPT, SDGs·ESG경영전략,
글로벌 MBAtoCEO, 리더의 필승전략,
100세대학 행복디자인 매뉴얼 등 27책
∙ 일본(와세다대),중국(복단대·화동정법대)