ELECTRA
·
딥러닝/NLP
ELECTRA(Efficiently Learning an Encoder that Classifies Token Replacments Accurately) ECECTRA는 BERT의 파생 모델 중 하나이다. BERT의 경우 MLM과 NSP 태스크를 사용해 사전 학습을 진행한다. MLM 태스크는 전체 토큰의 15%를 무작위로 마스킹한 후 해당 토큰을 예측하는 방식으로 진행한다. MLM 태스크를 사전 학습에 사용하는 대신 ELECTRA는 replaced toekn detection라는 태스크를 사용해 학습을 진행한다. replaced toekn detection는 마스킹 대상인 토큰을 다른 토큰으로 변경한 후 이 토큰이 실제 토큰인지 아니면 교체한 토큰인지를 판별하는 형태로 학습을 진행한다. 그렇다면 MLM ..
RoBERTa
·
딥러닝/NLP
Roberta(Robustly Optimized Bert pre-training Approach) Roberta는 bert의 파생 모델 중 하나다. RoBERTa는 기본적으로 BERT와 동일하며, 사전 학습 시 아래 항목을 변경하였다. MLM 태스크에서 정적 마스킹이 아닌 동적 마스킹 방법 적용 NSP태스크를 제거하고 MLM 태스크만 학습에 사용 배치 크기를 증가해 학습 토크나이저로 BBPE(byte-level BPE) 사용 위 내용에 대해 자세히 알아보자 정적 마스크 대신 동적 마스크 사용 BERT의 MLM 태스크는 주어진 토큰의 15% 확률로 무작위로 마스크된 토큰으로 변경한 후 모델에서 해당 토큰을 예측한다. 예를들어 '우리는 아침 6시에 출근을 한다` 라는 문장이 있을때, 토크나이징 적용후 [CL..
ALBERT
·
딥러닝/NLP
ALBERT BERT의 주요 문제점 중 하나는 수백만개의 변수로 구성되어 있다는 점이다. BERT-base는 1억 1천만 개의 변수로 구성되어 있어서 모델 학습이 어렵고 추론 시 시간이 많이 걸린다. 모델 크기를 늘리면 성능은 좋아지지만, 계산 시 리소스가 많이 소모된다. 이 문제를 해결하기 위해 ALBERT를 도입하였다. ALBERT는 다음 두 가지 방법을 사용해 BERT와 대비해 변수를 적게 사용하게 되었고, 모델의 학습 시간과 추론 시간을 줄였다. cross-layer parameter sharing factorized embedding layer parameterization cross-layer parameter sharing bert는 N개의 인코더로 구성되어 있다. 예를 들어 BERT-bas..
GPT-2/GPT-3
·
딥러닝/NLP
GPT-2/GPT-3 GPT-2,GPT-3는 GPT-1에 이어 OpenAI에서 발표한 GPT-n 시리즈의 후속 모델로, 사용하는 도구 면에서는 크게 달라진 것이 없다. 다만 transformer layter의 크기를 더욱 늘리고 몇가지 추가 하였다. GPT-2 이전처럼 다음 단어를 예측하는 language modeling으로 학습시킨 pre-trainig model이 zero-shot setting으로 down-stream task를 수행할수 있게 되었다. zero-shot setting이란 원하는 task를 위한 별도의 예제를 주지 않고 task에 대한 지시사항만을 모델에 전달하는 것을 말한다. 앞서 본 독해기반 질의응답으로 모든 task를 수행 할 수있다. Dataset으로는 BPE(Byte Pair..
BERT
·
딥러닝/NLP
BERT(Bidirectional Encoder Represenation from Transformer) 이해하기 BERT는 다양한 자연어 처리 태스크 분야에서 높은 성능을 보이며, 자연어 처리가 전반적으로 발전하는데 영향을 끼쳤다. BERT는 구글에서 발표한 임베딩 모델이다. BERT는 문맥이 없는 WORD2VEC와 같은 다른 임베딩 모델과 달리 문맥을 고려한 임베딩이다. 문맥을 고려하는게 왜 중요하냐면, 동음이의어나 여러가지 의미를 가진 단어에 유연하게 대응할 수 있기 때문이다. bert는 transformer에서 파생된 구조이기 때문에 transformer내용을 먼저 살펴보고 오자 -> 링크 BERT의 동작 방식 bert는 이름에서 알 수 있듯이 트랜스포머 모델을 기반으로 하며, 인코더-디코더가 있..
GPT-1
·
딥러닝/NLP
GPT-1 GPT 1은 Transformer 구조에서 디코더 부분을 활용한 모델 구조 입니다. 원본 논문 해당 논문에서는 라벨링 되지 않은 텍스트 데이터를 이용하여 모델을 pre-training 시킨 후 특정 task에 맞춤 fine-tunning 하는 방식을 제안합니다. 또한 GPT는 두가지 학습단계 1) Unsupervised pre-training, 2)supervised fine-tunning을 활용하여 모델구조를 최소한으로 변화시키고, fine-tuning 단게에서 과제에 맞는 Input representations을 사용 하였습니다. 여러 실험을 통해 해당 모델은 당시 12개의 task 중 9개에서 SOTA 수준의 성능을 발휘 하였습니다. GPT-1에서는 , , 등 다양한 special tok..
ariz1623
'딥러닝/NLP' 카테고리의 글 목록 (2 Page)