일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Python
- 자전거 여행
- 오토인코더
- 히토요시
- c#
- project euler
- 오일러 프로젝트
- 수달
- backpropagation
- 냥코 센세
- 비샤몬당
- 딥러닝
- 소인수분해
- Autoencoder
- 신경망
- CNN
- deep learning
- 베이지안
- SQL
- A Neural Algorithm of Artistic Style
- 전처리
- 소수
- mnist
- 합성곱 신경망
- Gram matrix
- bayesian
- 역전파법
- neural network
- Convolutional Neural Network
- 역전파
- Today
- Total
통계, IT, AI
주성분분석(Principal Component Analysis; PCA)에 관하여 본문
1. 들어가며
2차원의 세계가 존재한다고 가정하고 그곳을 플랫랜드라고 부르자. 즉, 플랫랜드에는 높이라는 것이 없다. 플랫랜드에서 일어나는 일을 상상해보자. 먼저 그곳의 주민들을 관찰한다면 아래와 같은 모습일 것이다. 테두리는 피부이고 그 안에 보이는 것은 장기이다. 우리는 장기를 관찰할 수 있고 심지어 만질 수도 있다. 1
그림 1. 무엇인가를 이야기하고 있는 플랫랜드의 주민들
그곳의 주민 A를 들어 다른 곳에 두자. 그러면 플랫랜드의 사람들은 A가 갑자기 사라지고 엉뚱한 곳에 나타났다고 생각할 것이다. 우리가 플랫랜드에 다리를 걸쳐둔다면 그들은 동그란 두개의 원을 볼 수 있을텐데 사실 그 두개의 원이 하나의 존재라는 것을 결코 쉽게 이해하지 못할 것이다.
이제 우리에게 과제가 하나 주어졌다. 아래와 같은 3차원의 물체를 어떻게 해야 그나마 그들에게 잘 이해시킬 수 있을까? 즉, 이 물체를 어떻게 회전시켜서 어떤 모습을 그들에게 보여줘야 2차원 세계의 주민이 이 물체의 특징을 가장 잘 알 수 있을까? 마우스를 이용하여 회전시켜가면서 생각해보자. 잘 보이지 않는다면 휠을 사용하여 확대할 수 있다.
사람마다 이견은 있겠지만 대체적으로 아래와 같은 모습 즉, 위나 아래에서 본 모습일 것이다. 그리고 그 이유는 이렇게 회전시키는 것이 이 물체의 특성을 가장 잘 나타내기 때문일 것이다. 참고로 이 물체는 스텔스 폭격기인 B-2이다.
그림 2. B-2의 특징이 가장 잘 드러난다.
2. PCA
위의 예를 통해서 PCA가 무엇인지를 알 수 있다. PCA란 어떤 자료의 특징을 최대한 보존하면서 차원을 축소시키는 방법론이다. 특징을 최대한 보존한다는 것과 차원을 축소한다는 것을 각각 알아보자.
특징을 최대한 보존한다는 것은, 수리적인 용어를 사용하자면 분산을 최대한 크게 하자는 것이다. 즉, 어떤 자료를 선형 변환하되, 가능한 한 적은 측면을 바라봐도 특징을 알 수 있도록 축 하나하나의 분산을 최대화하고, 변환 후 각 축은 서로 연관성이 없도록 한다.
어떤 자료를
단,
따라서
이제 차원을 축소한다는 것을 알아보자. 고유값과 고유벡터의 성질을 이용하면
3. B-2 다시 보기
1. 들어가며에서 소개한 B-2로 PCA를 해보자. 첨부한 csv 파일에 해당되는 데이터가 있으며 R 코드 또한 첨부한다.
먼저
이 공분산 행렬의 고유값은 크기 순서대로 10.98, 4.83, 0.05이며 고유벡터로 구성된
앞의 두 축만 선택하면 총 분산의 (10.98+4.83)/(10.98+4.83+0.05)=99.7%가 설명되므로 효율적인 차원 축소이다.
그림 3. PCA 수행 결과
4. 마치며
PCA라는 방법이 고유값과 고유벡터를 사용한다는 것은 알고 있었지만 PCA가 어떤 의미를 지니고 있고 왜 고유값과 고유벡터를 사용하는지는 제대로 알지 못했다. 이번 기회에 제대로 알기 위해서 노력했지만,
'통계' 카테고리의 다른 글
[Bayes] 베이지안 문제(몬티홀 등) (0) | 2018.02.03 |
---|---|
작성중 (0) | 2017.03.01 |
표본 분산의 분산 (5) | 2017.01.16 |
공분산과 누적분포함수 간의 관계 (0) | 2017.01.05 |
표본 범위와 표본 표준편차 비교 (0) | 2016.10.12 |