[한국공공정책신문=김유리 기자]
◇ 경사 소실 문제의 개념
경사 소실 문제(vanishing gradient problem)란 기계학습 수법의 하나인 뉴럴네트워크(neural network)의 설계서, 경사가 소실됨으로써 학습이 진행되지 않게 되는 기술적인 문제를 말한다. 신경망을 통한 학습을 할 때 가장 간단한 모델인 ‘단순 퍼셉트론’에서는 ‘선형 분리 가능(Linearly separable)’한 문제만 학습할 수 있었다. 따라서 비선형 분리가 필요한 문제에서는 퍼셉트론을 다층화해야 한다. 다층화할 경우에 새롭게 문제가 되는 것은 예측값과 실제값의 차이인 오차를 최소화하는 이른바 최적화 문제가 복잡화 된다.
*주1) 단순 퍼셉트론(Simple perceptron)이란 입력층과 출력층만으로 구성되는 심플한 네트워크이다. 노드(node)에서 신호가 전파될 때 무게 W가 곱셈되고, 바이어스 b가 가산된다.
*주2) 선형 분리 가능(Linearly separable)이란 기하학에서 두 집합이 이차원 평면상에 있을 때 그들의 집합을 하나의 직선으로 분리할 수 있는 것을 말한다.
◇ 오차역전파법(백프로퍼게이션) 등장
다층 신경망의 최적화 문제를 풀기 위해서는 1986년에 등장한 백프로퍼게이션(Backpropagation)법이 이용된다. 백프로퍼게이션(Backpropagation)법에서는 오차 최소화에 사용되는 경사 강하법의 일종인 확률적 경사 강하법을 이용한다. 오차를 출력층에서 입력층을 향해 역방향으로 전파하면서 경사를 계산하고 은닉층의 무게나 바이어스가 다시 계산하는 이 기법으로 이것들을 수동으로 설계할 필요가 없어졌다.
*주) 백프로파게이션(Backpropagation) 또는 오차역전파법은 신경망의 학습 알고리즘이다.
◇ 경사 소실 문제의 발생
그러나 여기서 다른 문제가 생겼다. 신경망은 다층화됨에 따라 경사가 사라져 버린 것이다. 경사가 사라지면 가장 적절한 설계가 요구되지 않아 학습이 진행되지 않게 된다. 이 경사 기울기 소실 문제는 가장 적절한 설계와 함께 다층 신경망의 오랜 문제였다. 경사 소실 문제의 원인 중 하나의 예는 활성화 함수였다. ‘시그모이드함수’ 등의 경우 경사가 0에 가까운 영역이 존재하기 때문에 경사 소실에 빠지면 무게가 거의 수정되지 않게 된다. 다층 신경망에서는 한 곳이라도 경사가 0에 가까운 층이 존재하면, 그보다 하층의 경사도 모두 0에 가까워진다. 이 때문에 층수가 늘어날수록 (특히 4층 이상에서) 학습이 어려워진다.
*주) 시그모이드 함수(sigmoid function)는 생물의 신경세포가 가지는 성질을 모델화한 것으로서 이용된다. 표준 시그모이드 함수는 로짓(logit)의 역함수이며, 이것에 빗대어 통계 처리의 수치 계산 라이브러리에서는 표준 시그모이드 함수를 expit 함수라고 부르고 있는 경우도 있다.
◇ 경사 소실 문제의 개선
따라서 활성화 함수의 변경은 기울기 소실 문제를 개선했다. 시그모이드 함수 대신 ‘램프 함수’(ReLU 등)를 사용하면 경사 소실이 발생하기 어려워졌다. 그 밖에는 무게나 초기화, 경사 강하법의 선택 등이 경사 소실과 관련이 있다. 이러한 경사 소실 문제를 포함한 일련의 기술적 문제가 해결됨으로써 다층 신경망은 심층화에 성공하여 2010년대에는 특히 이미지 지각 문제로 분류 정확도가 비약적으로 향상되었다. 심층화된 다층 신경망은 딥러닝이라고 불리게 되었다. 그러나 복잡한 모델에서는 경사 소실 문제는 여전히 과제가 되고 있다.
*주) 램프 함수는 정규화 선형 함수로 Rectified Linear Function, ReLU(렐) 등으로도 불린다. ReLU 함수는 음의 값 입력은 ‘0’을, 양의 값 입력은 ‘x’를 출력하는 함수이다. 활성화 함수 중에서 가장 좋은 함수라고도 할 수 있다. 시그모이드함수는 ‘-1’~‘1’밖에 출력을 하지 않지만, ReLU 함수는 상한이 없는 함수이기 때문에 그만큼 학습 속도가 빨라진다. ReLU 함수는 활성화 함수 중에서도 은닉층에서 매우 이용되고 있는 함수이다. 램프함수라고도 한다.
이규철 / 법학박사(상법)
∙ AI·GPT, SDGs&ESG 코치 및 강사
∙ 100세대학 크리에이터 및 칼럼니스트
∙ 생성AI와 챗GPT, SDGs·ESG경영전략,
글로벌 MBAtoCEO, 리더의 필승전략,
100세대학 행복디자인 매뉴얼 등 27책
∙ 일본(와세다대),중국(복단대·화동정법대)