현재의 딥러닝 구조와 방식을 더 깊게 이해하기 위해 초기 신경망 이론과 모델에 대해 정리해 보았다.
1943년 맥컬럭-피츠(McCulloch-Pitts) 뉴런
맥컬럭과 피츠는 최초로 인간 두뇌의 뉴런을 모델링했다.
그 바탕에는 '인간의 두뇌는 논리적 서술을 구현하는 이진 원소들의 집합'이라는 추측이 있었다.
신경 활동의 '전부 아니면 전무(All-or-nothing)'적인 특성 때문에 신경계의 일과 그들 사이의 관계들은 명제 논리(Propositional logic)로 취급된다. 모든 망의 행동은 이러한 관점에서 기술될 수 있다.
(중략) 어떠한 조건들을 만족시키려는 논리적 표현에 대하여, 우리는 그것이 기술하는 방법대로 행동하는 망을 찾을 수 있다.
즉 어떠한 논리적 명제에 대하여 참(True) 혹은 거짓(False)이라는 판단을 내릴 수 있고 이것이 여러 번 반복된다면, 그것이 마치 인간의 두뇌와 같은, 일종의 지식 시스템으로서 작동할 수 있다고 본 것이다.
예를 들어 '바나나는 노란색이다'와 같은 명제가 참이라고 판단할 수 있다면, 우리는 바나나가 노란색이라는 '지식'을 갖고 있는 것과 같기 때문이다.
위 그림과 같이 입력 a와 b를 가진 단순한 뉴런이 있다고 하자.
이 뉴런의 임계값이 1이라고 할 때, 시각 `t`에서 a, b가 각각 비활성적(inactive)이라면 시냅스의 합이 0이므로 시각 `t+1`에서 또한 비활성적이다.
만약 a가 활성적이고 b가 비활성적이라면, 시각 `t+1`일 때 뉴런은 활성적이게 된다. 비활성 시냅스와 활성 시냅스의 합은 $0 + 1 = 1$로 임계값과 같기 때문이다.
즉 2개의 입력과 임계값이 1인 뉴런은 논리적 OR 연산을 수행한다. 또 임계값이 2일 경우에는 논리적 AND 연산을 수행하게 된다.
또한 맥컬럭과 피츠는 뉴런의 작동(operation)에 대한 몇 가지 가정들을 제안했는데, 이들은 지금의 딥러닝에도 여전히 적용될 수 있는 것들이다.
① 뉴런의 활동은 all or nothing의 과정이다.
② 어떤 뉴런을 자극(excited) 되도록 하려면 2개 이상 고정된 수의 시냅스가 일정한 시간 내에 활성화(activated)되어야 한다.
위와 같은 단순한 구조에서 입력이 1개라면, 그것이 그대로 출력으로 이어질 것이기 때문이다.
③ 신경 시스템에서 유일하게 의미 있는 시간 지연은 시냅스에서의 지연(synaptic delay)이다.
④ 어떠한 억제적(inhibitory) 시냅스는 그 시각의 뉴런의 활성화(activation)를 절대적으로 방지한다.
당시 억제적 시냅스는 지금의 편향(bias)과 같은 역할을 하는 것이었고, 그 값에 따라 활성화 함수인 계단 함수의 결과가 일괄적으로 나타날 수 있었음을 의미한다.
⑤ 네트워크의 연결 구조는 시간에 따라 바뀌지 않는다.
시간이 흘러도, 심지어 학습하는 과정에 있어서도 변화하는 것은 연결 가중치들 뿐, 네트워크의 연결 구조 자체가 변하지는 않는다.
결론적으로 맥컬럭과 피츠의 네트워크에서 중요한 점은 단순한 요소들의 연결을 통해 무한한 컴퓨팅 능력을 구현할 수 있다는 것이었다.
이들의 연구는 그렇게 신경 시스템이 기본적인 처리 요소인 뉴런과 그들의 연결로 주어졌을 때, 실제로 무엇이 가능한가를 이해하려는 시도였다.
비록 고정된 논리 장치들의 조합이기 때문에 새로운 학습이나 결과 값의 변화가 불가하다는 한계 때문에, 이후 인간 두뇌 활동을 설명할 수 있는 정확한 모델링은 아닌 것으로 판명되었지만 말이다.
1949년 헵의 학습 규칙(Hebbian Learning Rule)
도날드 헵(Donald Hebb)은 그의 저서 『The Organization of Behavior』에서 신경 시스템이 어떻게 학습하는가에 대해 서술했다.
이는 최초의 가장 단순한 학습 규칙으로서, 이후 제시된 신경망 모델들의 학습 규칙의 토대가 되었다.
When an axon of cell A is near enough to excite cell B and repeatedly or persistently takes part in firing it, some growth process or metabolic change takes place in one or both cells such that A's efficiency, as one of the cells firing B, is increased.
뉴런 A의 축색돌기가 뉴런 B를 흥분시킬 만큼 충분히 가까이 있고 반복적/지속적으로 발화하는 데 참여할 때, B를 발화하는 뉴런 중 하나로서 A의 효율이 증가한다.
즉 시냅스 앞 뉴런이 흥분하고, 이에 따라 시냅스 뒤 뉴런이 흥분하면 그 시냅스의 전달 효율이 강화된다는 것이다. 반대로 장기간 발화되지 않으면 전달 효율도 감퇴한다.
이를 수식으로 나타내면 그 의미가 더 분명하게 와닿는다.
$$\Delta w_{ij} = \eta \, a_i \, o_j$$
이때 $w_{ij}$는 뉴런 i와 j의 연결 강도, $\eta$는 학습률을 나타내는 비례 상수, $a_i$는 뉴런 i의 출력, $o_j$는 뉴런 j의 출력이다.
위 식에서는 연결 강도의 변화량을 시냅스 앞과 뒤 뉴런의 출력으로 나타냈다.
각 출력이 함께 커지면 연결 강도가 크게 증가되며, 시냅스 전후 뉴런의 흥분이 반복적으로 발생하면 이후에는 시냅스에서 정보가 점차 더 효율적으로 전달됨을 뜻한다.
추가로 그가 제시한 몇 가지 중요한 아이디어들을 정리하면 다음과 같다.
① 시냅스의 연결 강도 조정을 통한 생리학적 학습 규칙, 즉 '헵의 시냅스'에 대해 제시했다.
② 신경 시스템의 분산된 표현 방식, 즉 어떤 것을 표현하기 위해서는 여러 개의 뉴런들이 참여해야 한다는 점을 제시했다.
③ 신경 시스템에서의 정보 표현을 형성하는 한편, 서로 연결되고 자기 강화하는 뉴런의 부분 집합(cell assemblies)의 형태를 공리화했다.
1957년 퍼셉트론(Perceptron)
프랭크 로젠블랫(Frank Rosenblatt)이 제안한 퍼셉트론은 비교적 정확히, 계산에 의해 기술된 최초의 신경망 모델이었다.
그는 특정한 생물 기관에 국한되지 않는 일반적인 지능 시스템의 기본 성질들을 규명하고자 했고, 그 노력의 일환으로 단층 퍼셉트론을 제안했다.
다음은 그가 제안한 단층 퍼셉트론의 구조이다.
위 구조가 뉴런 하나의 작용을 표현하고 있는 것이다.
첫 번째 센서층은 단순히 환경의 센서 역할을 담당한다. 인간의 시각, 청각, 촉각 등과 같이 어떤 감각의 입력들을 받아 들이는 층인 것이다.
여기서 생성된 신호들은 두 번째 결합층과 연결된다. 또한 이들은 결국 하나로 모여 세 번째 반응층을 통해 최종적인 반응을 출력하게 된다.
결합층과 반응층의 연결은 가변적인 연결 강도로 이루어져 있어 학습이 일어난다.
퍼셉트론의 기본 요소가 되는 임계 논리 유닛(TLU: Threshold Logic Unit)은 맥컬럭-피츠 뉴런의 특별한 타입 중 하나이다.
하나의 TLU는 그 자체로 퍼셉트론 또는 Adaline(Adaptive linear element)이라고 불리기도 하는데, 로젠블랫과 더불어 버나드 위드로우(Bernard Widrow)가 이에 대해 광범위하게 연구하였다.
퍼셉트론에서 학습은 가변적 연결 강도, 즉 가중치를 조정함으로써 이루어지며, 그 과정은 다음과 같다.
① 연결 강도들($w_i$)과 임계값($\theta$)을 각각 0과 임의의 숫자로 초기화한다.
② 새로운 입력($x_0 x_1, \cdots, x_{n-1}$)과 기대되는 출력($d(t)$)을 제시한다.
③ 실제 출력 값을 계산한다.
$$ y(t) = f_h (\sum_{t=0}^{n-1} w_t (t)x_t(t) - \theta ) $$
④ 연결 강도를 조정한다. ($\eta$는 0과 1 사이 값)
$$ w_i(t+1) = w_i(t) + \eta \left [ d(t) - y(t) \right ] x_t(t) $$
$$ d(t) = \begin{Bmatrix} +1, \; x_i \in class A \\ -1, \; x_i \in class B \end{Bmatrix} $$
⑤ ②~④를 반복한다.
1959년 Adaline과 Madaline
Adaline(Adaptive linear element, '에이다라인'이라고 읽는다.)은 신경 세포의 초기 모델로, 적응형 선형 결합기와 양자화 회로를 직렬로 접속한 것이다.
이를 신경 세포와 직접 비교해보면, 적응형 연결 강도는 시냅스, 입력 벡터의 성분은 축색 돌기의 입력, 양자화된 출력은 축색 출력에 각각 대응한다.
적응형 선형 결합기의 출력은 각각의 입력에 연결 강도를 곱하여 합한($s = \sum x_i w_i$), 입력 신호의 선형 결합이다.
0이나 1, 둘 중 하나로 결정되며, 이를 양자화 회로에서 1 또는 -1로 양자화한다.
Adaline을 퍼셉트론과 비교하면 몇 가지 중요한 차이점을 지닌다.
우선, 퍼셉트론의 반응층 요소는 임계 장치여서 출력 값이 0 또는 1로 제한되는 반면, Adaline은 어떤 값도 취할 수 있다는 것이다.
위 구조도를 보면, 퍼셉트론과 Adaline의 최종 출력 값은 모두 -1 또는 1로 양자화되어 얻어진다.
그러나 반응층 요소의 출력 값의 경우, 퍼셉트론은 활성화 함수 이후에, Adaline은 활성화 함수 이전에 도출되기 때문이다.
바로 이 점으로부터 학습 과정에서의 차이 또한 발생하게 된다. 위 구조도에서 각각 빨간 색과 글씨로 표현한 부분이 여기에 해당된다.
퍼셉트론의 경우 양자화된 최종 출력 값으로부터 오차(error)를 계산하고, 이를 기반으로 가중치를 업데이트 한다.
반면 Adaline은 양자화되지 않은, 반응층의 출력 값으로부터 오차를 계산하고, 이를 통해 가중치를 없데이트 한다.
이때 퍼셉트론과 달리 Adaline에는 델타 규칙(Delta Rule)이라고 하는 학습 방식이 적용되는데,
한 마디로 출력 유닛의 오차에 비례해서 해당 연결 가중치를 조정한다는 내용이다.
양자화되지 않은 출력 값을 기반으로 오차가 계산되므로 이 값을 직접 이용하여 새로운 가중치를 적용할 수 있게 된 것이다.
또한 Adaline에서 오차는 단순 차이 값이 아닌, 위드로우와 호프가 제안한 최소 평균 제곱(LMS, Least Mean Squared)을 통해 계산된다.
하지만 여전히, 퍼셉트론과 Adaline 모두 선형 분리 가능한 문제만 풀 수 있다는 한계가 있었다.
Madaline은 Many Adaline을 의미하며, Adaline이 하나의 뉴런에 상응해 선형 분리 가능한 논리 함수만 실현 가능한 것에 반해, 이를 조합하여 네트워크를 구성함으로써 비선형 분리 함수를 구현할 수 있게 되었다.
1층에는 많은 입력 유닛들로 구성되고, 2층에는 AND, OR, 다수결 소자(MAJ, Majority Votetaker) 등의 고정 논리 디바이스로 구성되어 있다.
1960년대 제안된 기본적인 구조는 아래와 같다.
Madaline의 학습은 각 유닛의 양자화가 계단 함수를 사용하므로 미분이 불가능하며, 따라서 오차역전파 알고리즘 대신에 Adaline의 학습 알고리즘을 확장한 Madaline rule 2를 사용한다.
그 기본 아이디어는 과거 입력 패턴에 관해 학습이 끝난 응답을 가능한 교란되지 않도록 다른 유닛에 영향을 가장 적게 미치는 유닛에 책임을 전가하는 것이다.
이를 통해 입력 패턴과 목표 값을 제시해 잘못된 응답의 개수를 최대로 억제시키는 것을 목표로 한다.
1969년 밝혀진 퍼셉트론의 한계
퍼셉트론의 학습 방법은 입력 행렬과 결정 유닛 사이에 1개 이상의 가변적인 연결 강도를 가진 장치들에는 응용될 수 없는 한계를 지닌다.
여러 층의 가변 연결 강도를 가진 장치는 단층 연결 강도 장치보다 인간의 두뇌에 더 유사하고, 보다 복잡한 판별을 할 수 있지만, 이는 단층 퍼셉트론의 가장 주요한 특징인 자동 학습(Automatic Learning)이 부족하다.
이밖에도 퍼셉트론은 근본적인 한계점을 지니고 있었다. 바로 기본적인 XOR 논리 연산을 수행할 수 없다는 것이다.
Exclusive-OR(XOR) 함수는 선형 분리가 가능하지 않은 패턴 분류 문제의 대표적인 예이다.
아래 그림과 같이 4 가지 입력 패턴들이 하나의 직선에 의하여 2개 영역으로 나뉠 수 없기 때문이다.
즉 퍼셉트론의 가장 주된 기능적 제한점은 출력 유닛이 선형 분리 가능한 패턴들만 분류할 수 있다는 것이었다.
퍼셉트론은 처음 등장했을 때 상당한 센세이션을 일으키며 다양한 분야에 큰 영향을 끼쳤지만, 앞서 언급한 것과 같은 한계가 1969년 민스키(Minsky)와 파퍼트(Papert)에 의해 철저하게 분석되어 알려지자, 신경망 연구에 대한 열기가 급격히 냉각되는 계기가 되었다.
추가로 퍼셉트론 모델의 쇠퇴 요인을 정리해보면 다음과 같다.
① 퍼셉트론 모델의 한계성, 즉 단순한 선형 분리 가능 패턴들만 분류할 수 있다.
② 반응층 출력 기댓값이 정확할 때에는 더 이상 학습이 일어나지 않는다.
③ 버나드 위드로우에 의하면, 당시 인공적으로 인간의 두뇌를 묘사하려는 아이디어에 대한 많은 사람들의 저항이 있었다고 한다.
④ 당시 미디어를 통해 퍼셉트론 모델이 지나치게 환상적으로 소개되었고, 기자들이 정확한 이해 없이 인공적 두뇌 모델에 대한 가능성을 대서특필 했다고 한다.
그럼에도 불구하고 퍼셉트론 모델이 유용했던 점은 구조적 단순함으로 인해 병렬 계산을 쉽게 구현해낼 수 있었다는 것이다. 따라서 추후 오차 역전파(Back Propagation) 모델과 같은 다층 퍼셉트론 모델의 기반이 될 수 있었다.
아래 자료를 참고했습니다.
- 『신경망 이론과 응용 1(김대수)』
- 학습 규칙 & 역전파(Backpropagation)
- aistudy
'공부하며 성장하기 > 인공지능 AI' 카테고리의 다른 글
Random Forest (0) | 2023.05.20 |
---|---|
Decision Tree (0) | 2023.05.19 |
이미지 인코딩(Encoding)과 디코딩(Decoding) 과정 이해하기 (2) | 2022.10.18 |
Yolov5에서 ModelEMA와 model fuse가 의미하는 것 (2) | 2022.09.24 |
YOLOv3 모델 학습 속도 개선하기 (0) | 2022.06.18 |