[2주차] 파라메터 튜닝 - '특징' 살리기

수업목표

특징을 잘 살려내는 딥러닝 알고리즘을 배우고 실제 데이터에 활용해서 취소율, 주가 등을 예측한다.

- 딥러닝의 가장 큰 장점은 feature extraction 이다.

이러한 장점을 예측 시스템에 적용을 하느냐!

파라미터 튜닝

파라미터의 개념

⇒ 최적의 모델 구현을 위해 학습률, 배치크기, 훈련반복회수, 가중치 초기화방법 등 사용자가 설정하는 변수

⇒ 일반적으로 Parameter Tuning 이라고 하지만

실제로 파라메터는 모델이 학습하는 변수로 Weight, Bias등이고 우리가 실제로 설정하는 변수들은 하이퍼파라메터

파라미터는 모델이 알아서 학습하는 아이들이고

우리들은 어떤 하이퍼파라미터를 어떤식으로 변형하면 되는지 알아보았다.

가장 기본적인 하이퍼파라미터는?

1) 은닉층 수와 은닉 노드 수

- input, output layer 사이에 은닉층을 넣어서 선형모델이 아닌 비선형모델이 가능하게끔 복잡도를 높일 수 있다고 했었다.

- Hidden Layer의 노드숫자는 Input layer 숫자보다 큰 것이 일반적으로 더 효과적이다.

- 하지만 너무 많거나 적은 노드, layer는 Overfitting, Underfitting 등의 문제가 있을 수 있다.

- overfitting: 시간이나 리소스가 많이 소비될 수 있다.

- Underfitting: 복잡도가 낮아지고, 속도는 빨라지지만 제대로 학습되지 않을 수 있다.

Python 예시

# 선언 - layer sequence라는 모델을 쌓는다. 
multi_step_model = tf.keras.models.Sequential()

# 각 layer의 노드 수 - 32
# 선언 - LSTM, LSTM, Dense layer 이렇게 세가지 층으로 구성하겠다.
multi_step_model.add(tf.keras.layers.LSTM(32,
                                          return_sequences=True,
                                          input_shape=x_train_multi.shape[-2:]))
multi_step_model.add(tf.keras.layers.LSTM(16, activation='relu'))
multi_step_model.add(tf.keras.layers.Dense(72))

- Dense layer는 Hidden layer라고 생각해도 무방하다.

2) 배치 사이즈

모델학습의 효율을 위해 일정한 크기로 나눈 한 번의 batch마다 주는 데이터 샘플의 size
전체 Dataset을 한번에 학습하기에 하드웨어 시스템에 부담/한계가 되거나 시간문제가 있을때 ⇒일정한 크기로 나누어서 학습
Total Data=Batch Size * Mini Batch$
가용 메모리, epoch 수 등을 고려해서 설정

# 일반적으로 256으로 배치사이즈 설정
# 토탈데이터 숫자가 적다 - 64로 조절
BATCH_SIZE = 256
BUFFER_SIZE = 10000

# 배치 사이즈별로 셔플해서 데이터를 나누겠다.
# 배치 설정한 것이 input 값으로 들어간다.
train_univariate = tf.data.Dataset.from_tensor_slices((x_train_uni, y_train_uni))
train_univariate = train_univariate.cache().shuffle(BUFFER_SIZE).batch(BATCH_SIZE).repeat()

val_univariate = tf.data.Dataset.from_tensor_slices((x_val_uni, y_val_uni))
val_univariate = val_univariate.batch(BATCH_SIZE).repeat()

3) 훈련반복횟수(Epoch) 에포크

학습의 반복 숫자를 결정하는 변수
전체 Dataset을 1회 학습 1 epoch=BatchSize*Iteration
학습 효율이 떨어지는 시점을 적절히 판단

4) 활성화 함수

개별 hidden unit이라는 neuron에 들어오는 입력신호의 총 합을 출력 신호로 변환시켜야함
이 떄 모델의 복잡도를 높이기 위해서 선형 함수가 아닌 비선형 함수를 통과시켜서 전달
각 함수 특징 - 수학적인 부분이기 때문에 가볍게만 읽고 넘어가기

파이썬 예시

multi_step_model.add(tf.keras.layers.LSTM(16, activation='relu'))

여기서부터 필수는 아니지만 학습의 효율성을 높이기위해 고려할 부분!

배치정규화(Batch Normalization)

정규화가 필요한 이유 - 학습하고자 하는 모형은 비선형 모델에서의 가장 최저점을 찾는 과정이다.

학습을 더 빨리하기위해 ⇒ Local Optimum 문제에 빠지지 않기위해
최저점을 찾아야 하는데 전체적인 이해가 없으면 Global Optimum을 찾지 못하고 로컬에 머무를 수 있음
이럴때 정규화를 통해 좀더 Local Optimum에서 쉽게 빠져올 수 있게 해서 학습을 가속화 시킬수 있음

Local Optimum 문제란 골짜기가 여러 개가 있는데 가장 깊지 않는 골짜기에 있음에도 학습이 멈춰버리는 문제이다

이러한 문제를 골짜기 기울기들을 찌그러뜨려서, 완만하게 만들어서 여기보다 더 좋은 곳이 있을 것 같은데?하고 얕은 골짜기에서 나올 수 있도록 만들어주는데 이것이 Nomaliztion의 방법이다.

그래서 배치정규화가 뭔데!

말그대로 배치(덩어리진 데이터)를 정규화 시켜준다는 것이다.

수학적으로 input을 평균0, 표준편차 1인 분포로 normalize 시켜준다.

- Mini-batch 의 Feature 별 평균과 분산을 구해서 표준정규분포를 각 노드별로 수행한다.

학습의 효율을 높이기 위해 도입
1. 학습속도가 개선
2. 초기값 설정의 의존성이 적어짐 (학습할때마다 출력값을 정규화해서)
3. 과적합 위험(overfitting)을 줄일 수 있음
4. Gradient Vanishing 문제 해결 가능
단점
1. 배치사이즈에 의존적임 ⇒ 너무작은 배치사이즈에서는 학습이 잘 안됨
2. RNN에 적용하기 어려움 ( RNN- sequential 한 데이터를 들어가기 때문)
  ⇒ RNN은 각 시점마다 다른 분포 통계치를 가지기때문에 적용하기 어려움
활성화 함수의 활성화 값 혹은 출력값을 정규화 하는 과정
1. Activation Function 전/후에 사용 가능
2. 신경망의 각 Layer에서 데이터의 분포를 정규화 하는 과정
3. 전체data에 대한 평균분산과 값이 달라질 수 있음
4. 입력분포가 일정해지고 학습률을 개선시키는 효과가 있음

층 정규화

배치 정규화: 샘플링했던 배치들 자체의 정규화 (들어오는 배치들마다 정규화시켜줌)

층 정규화: 층 단위의 정규화(레이어에 들어오는 데이터를 각자 평균, 표준편차를 구해서 찌그러트린다)

- layer 별로 일어난다. 각 배치에 있는 모든 feature들의 평균과 표준편차를 구하는 것이다.

- 각 hidden node의 feature 별 분산과 평균이 아닌 layer 전체의 평균과 분산을 Normalize

- RNN 적용이 힘들다, 배치 사이즈의 영향이 크다 라는 단점을 보완

사용예시

layer.laterNormalization 해서 한층 쌓아주면 패키지가 알아서 노멀라이즈 해준다.

'🔥 > AI 🤖' 카테고리의 다른 글

[2주차] 파라메터 튜닝2 (0)	2021.10.06
[1주차] 요약 & 마무리 (0)	2021.09.29
[1주차] LSTM (0)	2021.09.29
[1주차] 딥러닝 기초모델 : MLP (0)	2021.09.29
[1주차] 수업목표 (0)	2021.09.28

공부기록

[2주차] 파라메터 튜닝 - '특징' 살리기

파라미터 튜닝

'🔥 > AI 🤖' 카테고리의 다른 글

티스토리툴바

[2주차] 파라메터 튜닝 - '특징' 살리기

파라미터 튜닝

'🔥 > AI 🤖' 카테고리의 다른 글

관련글

티스토리툴바