딥러닝: 화풍을 모방하기 (2) - 책 요약: 2. 앞먹임 신경망

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

통계, IT, AI

딥러닝: 화풍을 모방하기 (2) - 책 요약: 2. 앞먹임 신경망 본문

머신러닝

딥러닝: 화풍을 모방하기 (2) - 책 요약: 2. 앞먹임 신경망

Harold_Finch 2017. 1. 30. 14:47

2. 앞먹임 신경망: Feedforward Neural Network

2.1 유닛의 출력

- 앞먹임 신경망은 층(layer) 모양으로 늘어선 유닛이 인접한 층과 결합한 구조이다.

- 정보가 입력 측에서 출력 측으로만 흐르기 때문에 Feedforward라는 이름이 붙여졌다.

- Multi-layer perceptron이라고도 부르지만 최초 제안된 perceptron은 입출력 함수가 step 함수로만 제한되었기 때문에 약간 다르다.

- 유닛 한 개의 입출력의 예시는 아래와 같다.

그림 2-1. 유닛 한개의 입출력

- 이 유닛이 받는 총 입력은 $u_{1} = b_{1} + w_{11} x_{1} + w_{12} x_{2} + w_{13} x_{3} + w_{14} x_{4}$ 이다.

- $b_{1}$ 은 bias라고 부르며 1에 곱해지는 가중치이다.

- $w_{j i}$ ^[각주:1]는 입력에 대한 가중치이며 $b_{1}$ 은 회귀분석에서 y 절편과 같은 역할이다.

- $z_{1}$ 는 $u_{1}$ 에 활성화 함수를 적용한 값으로 $z_{1} = f (u_{1})$ 이다.

- 여러 출력을 갖는 신경망의 예시는 그림 2-2와 같다.

그림 2-2. 여러 출력을 갖는 단층 신경망

- 첫번째 층의 유닛의 수를 $i = 1, \dots, I$ , 두번째 층의 유닛의 수를 $j = 1, \dots, J$ 라고 하자.

- 두번째 층의 입력과 출력을 다음과 같이 쓸 수 있다.

$u_{j} = \sum_{i = 1}^{I} w_{j i} x_{i} + b_{j}, z_{j} = f (u_{j})$

- 벡터와 행렬 표기법을 사용하면 다음과 같다.

$u = X w + b, z = f (u)$

$X = {[\begin{matrix} x_{1} \\ \dots \\ x_{I} \end{matrix}]}^{T}, w = [\begin{matrix} w_{11} & \dots & w_{J 1} \\ ⋮ & ⋱ & ⋮ \\ w_{1 I} & \dots & w_{J I} \end{matrix}], b = {[\begin{matrix} b_{1} \\ ⋮ \\ b_{J} \end{matrix}]}^{T}, u = {[\begin{matrix} u_{1} \\ ⋮ \\ u_{J} \end{matrix}]}^{T}, z = {[\begin{matrix} f (u_{1}) \\ ⋮ \\ f (u_{J}) \end{matrix}]}^{T} = {[\begin{matrix} z_{1} \\ ⋮ \\ z_{J} \end{matrix}]}^{T}$

2.2 활성화 함수

- 유닛의 활성화 함수로는 통상적으로 단조증가하는 비선형함수가 사용된다.

- 가장 많이 사용되는 함수는 로지스틱 함수(logistic function)로 다음과 같은 형태를 갖는다.

$f (u) = \frac{1}{1 + e^{- u}}$

- 로지스틱과 유사한 형태를 보이는 함수로 쌍곡선 접점함수도 있다.

$f (u) = t a n h (u) = \frac{e^{u} - e^{- u}}{e^{u} + e^{- u}}$

- 두 함수 모두 출력의 상하한선이 존재하며 그 사이의 값에 대해서 서서히 변화하는 특징을 갖는다.

- 최근에는 단순하고 계산량도 적어 학습이 빠른 램프함수를 더 많이 사용하며 그 형태는 다음과 같다.

$f (u) = m a x (0, u)$

- 그림 2-3은 자주 사용되는 활성화 함수이며 이를 그리기 위한 코드를 첨부한다. figure_2_3.R

그림 2-3. 자주 사용되는 활성화 함수

- 이외에도 항등함수, 소프트맥스, 맥스함수 등이 사용된다.

- 최근에는 퍼포먼스의 문제로 Prameric Rectifiers도 사용한다고 하였다. 이 함수는 다음과 같은 정의를 갖는다. 단, $a$ 는 0보다 작은 상수이다.

$\begin{array}{r} f (x) = {\begin{cases} x & x ≧ 0 \\ a x & x < 0 \end{cases} \end{array}$

- 여기에 덧붙여 BatchNormalization이라는 방법도 사용된다.

2.3 다층 신경망

- 이상의 내용을 임의의 $L$ 개의 층수를 갖는 신경망으로 일반화 할 수 있다.

- 즉, 층 $l + 1$ 의 출력 $z^{(l + 1)}$ 은 바로 이전 층 $l$ 의 출력 $z^{(l)}$ 로부터 다음과 같이 계산할 수 있다. 단, 윗첨자는 해당 층을 나타낸다.

$u^{(l + 1)} = z^{(l)} w^{(l + 1)} + b^{(l + 1)}, z^{(l + 1)} = f (u^{(l + 1)})$

- $z^{(1)} = X$ 이며 최종 층의 출력 $y$ 는 $z^{(L)}$ 과 같다. 활성화 함수 $f$ 는 각 층 그리고 각 유닛마다 서로 다른 것을 사용할 수도 있다.

- 앞먹임 신경망은 주어진 $X$ 에 대하여 입력층에서 출력층 방향으로 앞선 계산을 반복하는 함수이다.

- 이 함수를 결정하는 것은 $w^{(l)}$ 과 $b^{(l)}$ 이며 이들을 파라미터라고 부른다.

- 파라미터들을 간결하게 $w$ 라고 표현하며 함수는 $y (x; w)$ 라고 표현한다.

2.4 출력층의 설계와 오차함수

2.4.1 학습의 얼개

- 하나의 입력 $x_{i}$ 에 대하여 바람직한 출력을 $d_{i}$ 라고 하자. $d_{i}$ 는 스칼라일 수도 있고 벡터일 수도 있다.

- 학습이란 모든 입출력 쌍에 대하여 $y (x_{i}; w)$ 가 최대한 $d_{i}$ 에 가까워지도록 $w$ 를 조절하는 과정이다.

- 이때 $y (x_{i}; w)$ 가 $d_{i}$ 에 가까운 정도를 측정해야 하는데 이 척도를 오차함수(error function)라고 부른다.

2.4.2 회귀

- 출력이 연속적인 값을 가지는 경우 파라미터를 찾는 문제를 회귀라고 한다.

- 출력과 같은 치역을 갖는 함수를 출력층의 활성화 함수로 고르는 것이 좋다.

- 회귀 문제의 경우 오차 함수 $E (w)$ 는 아래와 같다.

$E (w) = \frac{1}{2} \sum_{i = 1}^{N} {‖ y (x_{i}; w) - d_{i} ‖}^{2}$

2.4.3 이진 분류

- $x$ 에 따라 출력이 두 종류( $d \in [0, 1]$ )인 문제를 이진 분류라고 한다.

- $x$ 가 정해져 있을 때 $d = 1$ 이 되는 사후확률 $p (d = 1 | x)$ 을 추정한다.

- 확률의 범위는 $(0, 1)$ 이므로 $z^{(L)}$ 은 로지스틱 함수를 사용하여 구한다.

- $d$ 가 binary distribution을 따르므로 $w$ 의 데이터에 대한 우도 함수(likelihood function)을 다음과 같다.

$L (w) = \prod_{i = 1}^{N} p (d_{i} | x_{i}; w) = \prod_{i = 1}^{N} {y (x_{i}; w)}^{d_{i}} {1 - y (x_{i}; w)}^{1 - d_{i}}$

- 이 우도에 로그를 취하고 최소화를 위하여 부호를 바꾼 후 오차함수로 한다.

$E (w) = - \sum_{i = 1}^{N} [d_{i} l o g {y (x_{i}; w)} + (1 - d_{i}) l o g {1 - y (x_{i}; w)}]$

2.4.4 다클래스 분류

- $x$ 에 따라 출력이 두 종류 이상인 문제를 이진 분류라고 한다.

- $x$ 가 정해져 있을 때 $d = k$ 이 되는 사후확률 $p (d = k | x)$ 을 추정한다.

- $z^{(L)}$ 은 소프트맥스 함수를 사용하여 구한다.

- 즉, 이 출력층의 $k$ 번째 유닛의 출력은 다음과 같다.

$y_{k} = z_{k}^{(L)} = \frac{e x p (u_{k}^{(L)})}{\sum_{j = 1}^{K} e x p (u_{j}^{(L)})}$

- 정의에 의하여 출력의 합은 항상 1이 된다.

- $d$ 가 categorical distribution을 따르므로 이진 분류와 유사하게 오차함수를 정의할 수 있으며 이 함수를 교차 엔트로피(corss entropy)라고 부른다.

$E (w) = - \sum_{i = 1}^{N} \sum_{k = 1}^{K} d_{i k} l o g {y_{k} (x_{i}; w)}$

- 단, $d_{i k}$ 는 i번째 sample이 k class를 가질때 0 그렇지 않으면 1의 값을 갖는다.

전층의 i번째 출력이 다음 층의 j번째 입력으로 전달될 때의 가중치 [본문으로]

저작자표시 비영리 동일조건

'머신러닝' 카테고리의 다른 글

딥러닝: 화풍을 모방하기 (5) - 연습: 이진 분류 문제 (0)	2017.02.01
딥러닝: 화풍을 모방하기 (4) - 연습: 회귀 문제 (0)	2017.01.30
딥러닝: 화풍을 모방하기 (3) - 책 요약: 3. 확률적 경사 하강법 (1)	2017.01.30
딥러닝: 화풍을 모방하기 (1) - 책 요약: 1. 시작하며 (0)	2017.01.27
딥러닝: 화풍을 모방하기 - 시작하며 (0)	2017.01.27

공유하기 링크

페이스북
카카오스토리
트위터

'머신러닝' Related Articles

Comments

통계, IT, AI Harold_Finch 님의 블로그입니다.

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

통계, IT, AI

통계, IT, AI

딥러닝: 화풍을 모방하기 (2) - 책 요약: 2. 앞먹임 신경망 본문

딥러닝: 화풍을 모방하기 (2) - 책 요약: 2. 앞먹임 신경망

2. 앞먹임 신경망: Feedforward Neural Network

2.1 유닛의 출력

2.2 활성화 함수

2.3 다층 신경망

2.4 출력층의 설계와 오차함수

2.4.1 학습의 얼개

2.4.2 회귀

2.4.3 이진 분류

2.4.4 다클래스 분류

'머신러닝' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역