[AI ESG School] 6차시 - 인공지능에 필요한 수학

[ AI ESG School ]

2024년 11월 27일 10시 10분 04초에 업로드 된 글입니다.

작성자: 공부하는 보르조이

함수와 인공지능의 수학적 기초

인공지능 모델은 수학을 기본으로하며, 함수* 는 두 집합 사이의 관계를 설명하는 중요한 수학 개념입니다.

* 함수 : 집합 x의 변화에 따라 집합 y가 변하는 규칙을 그래프로 나타내며, 일반적으로 y= f(x) 형태로 표기됩니다.

1차 함수 수식인 f(x) = ax + b에서, a는 기울기, b는 y축과 만나는 y 절편을 나타내며

인공지능 모델은 h(x) = w(x) + b 형태로 표현됩니다.

알파벳만 바뀌었을 뿐 의미는 1차 함수의 원리를 바탕으로 하고있습니다!

w는 Weight의 약자로 영향을 미치는 정도를 나타냅니다.

b는 Bias의 약자로 편향된 정도를 나타냅니다.

다양한 문제에 대해, 이 w와 b를 찾는 것이 바로 머신러닝의 핵심입니다.

[ h(x) = w(x) + b라는 인공지능을 나타내는 기본 예측 식을 설정해놓고 수많은 횟수의 실험을 반복하는 방법으로 정답에 근접한 w와 b를 찾아내야합니다. ]

Loss (손실)이란?

연필 1개 값이 100원이라면 연필 5개의 총 금액은 얼마일까요?

수학이 어느정도 학습된 사람이 봤을땐 연필의 개수와 연필의 가격을 곱하여 500원 이라는 것을 쉽게 알 수 있습니다.

하지만 컴퓨터의 경우 연필의 수 x, 연필의 가격 y의 관계가 100x + 0이라는 것을 알아야 합니다.

머신러닝 이전의 컴퓨터는 예측식 이외에도 어떠한 정보를 갖고 있지 않았기에 w와 b를 랜덤하게 설정하게 됩니다.

예를 들어 컴퓨터가 w를 70, b를 40을 랜덤값으로 설정했다고 하면,

우리가 원하는 정답은 y는 100x + 0입니다.

그렇다면 컴퓨터에게 해당 값은 우리가 찾고 있는 정답이 아니라고 알려줘야 합니다.

그러기 위해서 정답값과 컴퓨터가 입력한 식을 통해 도출된 예측값 hx의 차이를 알려줘야 합니다.

hx - y를 구하는 것을 바로 cost 또는 loss라고 합니다.

원하는 답과 멀어질수록 비용 또는 손실이 발생한다는 의미입니다.

👉 얼마나 틀렸는지 알려주기 위해서는, 정답값과 예측값의 차이가 중요!

Loss (손실) 함수란 ?

loss함수는 컴퓨터가 세운 가설 hx는 wx + b에서 w와 b 값의 변화에 따른

정답 y와 차이인 loss를 개선하기 위해 사용되는 식 입니다.

loss함수를 그래프로 표현하면

이런식으로 포물선 맨 아래 위치한 최소값은 정답과 예측의 차이가 최소인 곳을 의미하는데요

👉 loss가 최소인 값을 찾기 위해 포물선의 맨 아래 최소값을 찾는것이 가장 중요!

이를 찾기 위해 특정 지점의 기울기 값을 구하기 위해선 미분* 개념인 경사하강법* 을 사용해야합니다.

* 미분 : 한 점에서의 기울기

* 경사하강법 : 기울기에 따라 w값을 조정하여 loss를 최소화하는 방법으로, 기울기가 음수일때 w를 증가시키고 양수일 때는 w를 감소시켜 최종적으로 기울기가 0인 지점을 찾아가는 방법

딥러닝의 구조와 활성화 함수

딥러닝* 은 1차 함수를 이용하여 모델을 설정하는 것은 머신러닝과 동일하지만

1차 함수를 여러 개로 쌓아 복잡한 과정을 학습합니다.

* 딥러닝 : [딥러닝에 대해]

딥러닝에서는 다층 구조의 입력이 여러 개 있으므로, 입력 신호변수 X₁, X₂, X₃으로 표현합니다.

뉴런은 여러 뉴런에서 온 입력 신호의 합으로 판단한다고 했는데, 단순히 X₁ + X₂ + X₃ 로 표현할 수는 없습니다.

각 신호가 가진 정보를 판단하는데 유용한 정도, 즉 입력에 대한 중요도가 다르기 때문이죠

중요도를 입력신호에 반영하여 입력변수에 가중치를 곱하는 형태로 표현합니다.

각 변수의 가중치를 적용하여 합판 최종 예측값 W₁ * X₁ + W₂ * X₂ + W₃ * X₃ + b가 활성화 여부를 결정하는 임계치보다 크면 활성화 되고, 작으면 비활성화 됩니다.

가중치를 반영한 변수의 합이 임계치 이상이 되면 다음 신호로 전달해준다는 의미를 숫자 1로, 그렇지 않으면 0으로 표현한다면

(y=1) : W₁X₁ + W₂X₂ + W₃X₃ ≥ θ

(y=0) : W₁X₁ + W₂X₂ + W₃X₃ ≤ θ

최종 예측값에 대해 전파 여부를 결정하는 함수를 "활성화 함수"라고 하며

다음 식처럼 표기할 수 있습니다

y = a ( W₁X₁ + W₂X₂ + W₃X₃ - θ )

이때 a는 "활성화 함수"이며 단순히 어떤 한가지 기준에 따라 0과 1로 이분화 하는것이 아닌 여러 형태의 함수가 있습니다.

대표적으로 Sigmoid, Tanh, ReLU 함수가 있습니다.

Sigmoid 함수는 x의 값에 따라 0부터 1의 값을 출력하는 S자형 함수입니다.

(Hyperbolic) Tangent 함수는 쌍곡선 함수중 하나로, Sigmoid 함수를 변형하여 얻을 수 있습니다.

ReLU는 가장 많이 사용되는 활성화 함수 중 하나로, Sigmoid, Tangent 함수보다 학습이 빠르고 연산비용이 적으며, 구현이 매우 간단하다는 특징이 있습니다.

'AI ESG School' 카테고리의 다른 글

[AI ESG School] 7차시 - 인공신경망의 구조와 개념 (0)	2024.11.28
[AI ESG School] 5차시 - 인공지능의 성능 평가 및 개선 방법 (0)	2024.06.25
[AI ESG School] 4차시 - 머신러닝의 용어와 원리파악 (0)	2024.06.19
[AI ESG School] 3차시 - 인공지능의 범주와 개념 (0)	2024.05.14
[AI ESG School] 2차시 - 컴퓨터 기술의 발전과 인공지능 필요성 (1)	2024.05.08

다음글이 없습니다.

이전글이 없습니다.