- [AI ESG School] 7차시 - 인공신경망의 구조와 개념2024년 11월 28일 21시 01분 01초에 업로드 된 글입니다.작성자: 공부하는 보르조이
인공신경망의 기본 개념과 퍼셉트론의 구조
인공신경망은 뇌 동작 원리를 기초로 만들었으며 신경망은 인간의 뇌가 가지는 생물학적인 특성 중 뉴런의 연결 구조를 의미하며, 이러한 신경망을 본뜬 컴퓨터로 구현한 네트워크 구조를 인공신경망( ANN , Artificial Neural Network ) 이라고 부릅니다.
또한 뉴런을 본떠 만든 것을 퍼셉트론이라 부르고
퍼셉트론은 입력, 가중치, 전이함수, 활성화 함수로 이루어 집니다.
각 단어의 뜻은 이전에서 살펴보았던 [인공지능 수학] 에서 봐주세요.
전이 함수에 대하여
전이라는 말을 알고 계신가요?
전이는 자리나 위치 등 다른 곳으로 옮기는 것을 의미합니다.
이처럼 퍼셉트론에서 전이함수는 입력 데이터에 각각의 가중치의 값을 곱한 것을 합하여 다음 함수로 전달하는 역할을 합니다.
뉴런의 경우, 받은 자극 값을 저장하다가 자극 값이 일정 용량을 넘어서면 다음 뉴런으로 값을 전달합니다
퍼셉트론의 활성화 함수에서는 전이 함수로부터 받은 데이터의 크기가 일정량을 넘어서면 그 값을 출력할 수 있도록 합니다.
이때 출력의 기준이 되는 값을 임계값 이라고 합니다.
임계값에 대하여
예를 들어
우리 몸의 70%를 차지하는 물은 일정 온도를 기준으로 상태가 바뀌는 사실을 생각해봅시다.
온도가 0℃ 이하로 내려가면 액체 상태의 물은 고체 상태인 얼음으로,
온도가 100℃ 이상 올라가면 기체상태인 수증기로 바뀌듯
물의 상태가 변하는 0℃와 100℃의 지점이 바로 활성화 함수에서 임계값에 해당합니다.
단층 퍼셉트론과 다층 퍼셉트론의 필요성과 발전
단층 퍼셉트론이 처음 발표되었을 땐 사람과 같은 인공지능을 만들 수 있을거라고 세상이 기대했습니다.
하지만 현실의 문제들은 모두 수학적인 법칙을 따라가지 않기에 오로지 퍼셉트론 만으로는 문제를 해결하기 어렵습니다.
특히나 두 개의 명제 가운데 한개만 참일 경우를 판단하는 배타적 논리학(XOR) 상황이 자주 발생했습니다.
이렇게 인공지능은 1차 겨울을 맞이 했습니다 - 1970년대
그렇다면 다층 퍼셉트론은 어떻게 XOR 문제를 해결했을까요?
1차 방정식은 직선만 나타낼 수 있지만, 2차, 3차, n차 방정식이 되면서 변수가 늘어남에 따라 더 다양한 곡선을 그릴 수 있게 됩니다.
이렇게 변화시킬 수 있는 값이 많아지며 다양한 모양을 나타낼 수 있듯, 퍼셉트론도 많아지며 다양한 문제를 풀 수 있다고 생각하시면 됩니다.
이를 다층 퍼셉트론이라고 했습니다.
단층 퍼셉트론의 수가 3개 이상이면 심층 신경망, 인공신경망(ANN)이라고 부르기 시작했습니다.
인공 신경망
인공신경망의 노드는 어떠한 기능을 수행하며
엣지 또는 간선은 노드간의 데이터, 값을 전달해주는 역할을 합니다.
퍼셉트론 수가 늘어남에 따라 동일한 동작을 하는 층을 묶어 입력층, 은닉층, 출력층으로 구분할 수 있게 되었습니다.
이렇게 노드들은 각자의 역할을 하게되는데요,
- 입력을 받는 노드들을 묶어 "입력층"
- 입력을 받은 뒤 가중치의 영향을 받아 결과를 도출하는 "은닉층"
- 활성화 함수를 통해 결과값을 변환하여 사람이 이해할 수 있도록 도와주는 "출력층"
특히 은닉층에서는 수 많은 가중치에 의해 영향을 받으며 그 값이 변화합니다.
입력값의 가중치를 곱한 것을 수식으로 W₁X₁으로 나타냈습니다.
은닉층 값의 합을 시그마( Σ )로 나타낸 값을 "가중합" 이라고 합니다.
정리하면 W₁X₁ + W₂X₂ + W₃X₃ = ΣWᵢXᵢ 이런 수식이 되겠습니다.
이후 계산된 값은 전이함수를 통해 맨 마지막 노드인 출력층으로 전달됩니다.
인공 신경망의 학습 과정
인공신경망은 활성화 함수( sigmoid, ReLu, Tanh )를 통해 학습을 합니다.
인공신경망은 여러개의 퍼셉트론이 이어진 심층신경망입니다.
이에 따라 효율적으로 가중치를 조절해주는 방법이 오차 역전파법(Back-propagtion)입니다.
간단히 말해, 순전파를 통해 출력값을 계산한 후, 출력값과 정답 데이터 간의 차이를 기반으로 모델을 학습시키는 방법입니다.
가중치와 편향값을 학습하는 과정에서는 Loss값이 최소인 값을 찾아가는 경사하강법을 사용하여 최적의 값을 구합니다.
하지만 오차 역전파법과 경사하강법을 통해 보다 효율적으로 최적의 값을 구할 순 있었지만,
단층 퍼셉트론에서 다층 퍼셉트론, 심층 신경망이 됨에 따라 은닉층 개수가 많아졌고, 가중치를 조절하는 과정에서 기울기가 0이되는 현상이 발생했습니다.
이러한 현상은 활성화 함수인 ReLu를 통해 해결했습니다.
ReLu의 함수 형태가 0 이하의 입력은 0으로, 그 이상의 값은 그대로 유지했기에 값이 음수가 나오는 현상을 막을 수 있게 되었습니다.
'AI ESG School' 카테고리의 다른 글
[AI ESG School] 6차시 - 인공지능에 필요한 수학 (2) 2024.11.27 [AI ESG School] 5차시 - 인공지능의 성능 평가 및 개선 방법 (0) 2024.06.25 [AI ESG School] 4차시 - 머신러닝의 용어와 원리파악 (0) 2024.06.19 [AI ESG School] 3차시 - 인공지능의 범주와 개념 (0) 2024.05.14 [AI ESG School] 2차시 - 컴퓨터 기술의 발전과 인공지능 필요성 (1) 2024.05.08 다음글이 없습니다.이전글이 없습니다.댓글