RoBERTa
·
딥러닝/NLP
Roberta(Robustly Optimized Bert pre-training Approach) Roberta는 bert의 파생 모델 중 하나다. RoBERTa는 기본적으로 BERT와 동일하며, 사전 학습 시 아래 항목을 변경하였다. MLM 태스크에서 정적 마스킹이 아닌 동적 마스킹 방법 적용 NSP태스크를 제거하고 MLM 태스크만 학습에 사용 배치 크기를 증가해 학습 토크나이저로 BBPE(byte-level BPE) 사용 위 내용에 대해 자세히 알아보자 정적 마스크 대신 동적 마스크 사용 BERT의 MLM 태스크는 주어진 토큰의 15% 확률로 무작위로 마스크된 토큰으로 변경한 후 모델에서 해당 토큰을 예측한다. 예를들어 '우리는 아침 6시에 출근을 한다` 라는 문장이 있을때, 토크나이징 적용후 [CL..