본 포스팅은 2022-11-23(수), 국민대학교 이재구 교수님의 인공지능 수업을 통해 배운내용을 정리하기 위해 작성하는 게시글입니다.
# 확률적 경사 하강법 변형
경사 하강법으로 학습을 진행하면 두가지의 문제점이 생긴다.
- Local Minima(지역 최솟값)
- Saddel points(안장점)
지역 최솟값은 최적화 함수 자체가 Convex함수가 아니기 때문에, Global한 최솟값을 찾지 못하는 문제점이다.
Saddel point는 미분값이 0과 같은 값이 됐을때 발생하는 지점이다.
이러한 문제점을 해결하기 위해서 momentum(관성)을 활용하여, 과거에 이동했던 방식을 기억하면서 기존의 방향으로 추가 이동할 수 있도록 한다.
속도벡터를 사용하여, 이전에 구한 경사도에 현재 그레디언트를 더해준다.
# 네스테로프 가속 경사도 관성
현재의 가속(v)를 통해 다음 예측지점을 예상 한 후, 예견한 곳의 경사도를 사용하여 이동한다.
# Learning Rate
학습률은 하이퍼 파라메타로 너무 크면 overshooting이 나타나 발산하거나, 진자 운동을 하는 형태를 띄고 너무 작다면 느린 수렴을 하게 된다. 그렇기 때문에 적응적 학습률(adaptive learning rates)을 사용한다. 이는 각 매개변수마다 자신의 상황에 따라 학습률을 조절해 사용하도록 한다.
- AdaGrad - 누적 벡터 사용
- RMSProp - 가중 이동평균 기법 사용
- Adam -> RMSProp에 관성을 추가로 적용함
# 규제
모델이 오버피팅이 나는 상황을 방지하기 위해서 규제방법을 사용한다.
- 명시적 방법
- 암시적 방법
크게 두가지 방법이 있으며, 일반화 오류를 줄이려는 의도륽 ㅏ지고 학습 알고리즘을 수정하는 방법 모두를 규제라고 정의한다.
'•Compter Science > Artificial Intelligence' 카테고리의 다른 글
[인공지능#13/11-21] 성능향상 기법 - 정규화, 배치 정규화, 가중치 초기화, 활성함수, one-hot-encoding (0) | 2022.11.22 |
---|---|
[인공지능#12/11-16] 목적함수의 알맞은 쓰임, 데이터 전처리 (0) | 2022.11.21 |
[인공지능#11/11-14] CNN - LeNet, AlexNet, VGCNet, GoogLeNet, ResNet, 심층학습 (0) | 2022.11.16 |
[인공지능#10/11-07] CNN의 구조 및 특징, 패딩, 보폭(Stride), Pooling (0) | 2022.11.09 |
[인공지능#9/10-31] 깊은 신경망(DNN)과 CNN 맛보기 (0) | 2022.10.31 |