GPT-1

GPT 1은 Transformer 구조에서 디코더 부분을 활용한 모델 구조 입니다.
원본 논문

해당 논문에서는 라벨링 되지 않은 텍스트 데이터를 이용하여 모델을 pre-training 시킨 후 특정 task에 맞춤 fine-tunning 하는 방식을 제안합니다.
또한 GPT는 두가지 학습단계 1) Unsupervised pre-training, 2)supervised fine-tunning을 활용하여 모델구조를 최소한으로 변화시키고, fine-tuning 단게에서 과제에 맞는 Input representations을 사용 하였습니다.

여러 실험을 통해 해당 모델은 당시 12개의 task 중 9개에서 SOTA 수준의 성능을 발휘 하였습니다.

GPT-1에서는 <S>, <E>, <Delim> 등 다양한 special token을 활용하여 fine-tuning 시의 성능을 끌어 올렸습니다.

( 출처 : https://towardsdatascience.com/i-didnt-write-this-article-alone-bc604e50859c )

위 사진을 살펴보면 기존 처럼 문장의 시작에는 Start token을 넣어주고, 문장의 끝에는 Extract toekn을 넣어 주었다. 여기서 extract token은 EOS 기능 뿐만 아니라 이후 downwrad task의 query 벡터로 활용 된다.

Classfication

사진의 첫번째 task인 분류 문제를 푼다고하면, transformer 구조의 마지막 output으로 나온 extrack token을 별도의 linear layer에 통과 시켜 분류를 수행함.

Entailment

text Entailment는 Delim(delimiter) token이 활용되는데, 해당 토큰은 서로 다른 두 문장을 이어주는 역할을 함.
두 문장을 각각 넣지 않고 Delim 토큰을 이용해 한번에 넣음.

Similarity

두 개의 텍스트의 순서가 없으므로 텍스트 2개를 다른 순서로 이어 붙여 2개 모두 입력으로 사용.

Multiple Choice

문맥 문서 z, 질문 q, 가능한 답변 a_k라 하면 [z; q; delim token; a_k]로 연결하고 input 개수는 답변의 갯수만큼 생성

GPT의 이러한 input 구조의 장점은 transformer 구조를 별도의 학습 없이 여러 task에서 활용가능하다는 것이다.
사용자는 down-stream task를 위한 마지막 linear layer만 별도로 학습 시켜(fine-tunning) 원하는 task에 활용하면 된다.

다만 구조를 더 깊게 들여다보면 사실 transformer(pre-training model) 부분도 학습을 진행한다.

다만 fine tuning 부분에 비해 상대적으로 learning rate를 매우 작게 주어 거의 학습을 시키지 않고, fine tuning 부분에 learning rate를 크게 주어 이 부분을 중점적으로 학습 시킨다.

이때 수행하고자 하는 task에 대한 데이터가 거의 없을 때 pre-training model만 대규모의 데이터로 학습시킬 수 있다면 어느정도 target task에도 성능이 보장된다.즉, pre-training model의 지식을 fine tuning부분에 자연스럽게 전이학습시킬 수 있다.

(출처 : https://hwk0702.github.io)

GPT-1에서 활용한 구조를 더 자세히 보면 다음과 같은 특징이 있다.

12개의 decoder-only transformer layer 활용
12개의 multihead
인코딩 벡터의 차원 768
ReLu와 비슷한 생김새를 가진 GELU 활성화 함수 사용

reference

https://simonezz.tistory.com/73
https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf

'딥러닝 > NLP' 카테고리의 다른 글

GPT-2/GPT-3 (0)	2021.03.20
BERT (0)	2021.03.20
Transformer (0)	2021.03.18
BLEU (0)	2021.03.18
Seq2Seq (0)	2021.03.17

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

GPT-1

GPT-1

Classfication

Entailment

Similarity

Multiple Choice

reference

'딥러닝 > NLP' 카테고리의 다른 글

GPT-1

Classfication

Entailment

Similarity

Multiple Choice

reference

'딥러닝 > NLP' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역