GPT-2/GPT-3
·
딥러닝/NLP
GPT-2/GPT-3 GPT-2,GPT-3는 GPT-1에 이어 OpenAI에서 발표한 GPT-n 시리즈의 후속 모델로, 사용하는 도구 면에서는 크게 달라진 것이 없다. 다만 transformer layter의 크기를 더욱 늘리고 몇가지 추가 하였다. GPT-2 이전처럼 다음 단어를 예측하는 language modeling으로 학습시킨 pre-trainig model이 zero-shot setting으로 down-stream task를 수행할수 있게 되었다. zero-shot setting이란 원하는 task를 위한 별도의 예제를 주지 않고 task에 대한 지시사항만을 모델에 전달하는 것을 말한다. 앞서 본 독해기반 질의응답으로 모든 task를 수행 할 수있다. Dataset으로는 BPE(Byte Pair..