DistilBERT : 지식 증류BERT
·
딥러닝/NLP
지식 증류 기반 BERT 사전 학습된 BERT를 사용하는데 따르는 문제는 계산 비용이 많이 들고 제한된 리소스로 모델을 실행하기가 매우 어렵다는 것이다. 사전 학습된 BERT는 매개변수가 많고 추론에 시간이 오래 걸려 휴대폰과 같은 edge 디바이스에서 사용이 어렵다. 이러한 문제를 완하 하기 위해 사전 학습된 large bert에서 small bert로 지식을 이전하는 지식 증류를 사용할 수 있다.  지식 증류 란 ? 지식 증류란 사전 학습된 대형 모델의 동작을 재현하기 위해 소형 모델을 학습시키는 모델 압축 기술이다. teacher-student learning 이라고도 하는데, 사전 학습된 대형 모델은 교사이고 소형 모델은 학생이 된다. 문장의 다음 단어를 예측하기 위해 대형 모델을 사전 학습했다고..
SpanBERT
·
딥러닝/NLP
SpanBERT SpanBert는 텍스트 범위를 예측하는 질문-응답과 같은 태스크에 주로 사용된다. SpanBERT의 아키텍처를 통해서 어떠한 원리로 작동하는지 확인해보자. SpanBERT의 아키텍처 예제를 통해 SpanBERT의 아키텍처를 이해해 보자. sentence = 'you are expected to know the laws of your country' # sentence를 토큰화 tokens = [you, are, expected, to, know, the, laws, of, your, country] # SpanBERT에서는 토큰을 무작위로 마스킹하는 대신에, 다음과 같이 토큰의 연속 범위를 무작위로 마스킹함. tokens = [you, are, [MASK], [MASK], [MASK],..
BART
·
딥러닝/NLP
BART BART는 페이스북에서 개발한 모델 아키텍쳐이다. BART는 트랜스포머 아키텍쳐를 기반으로한다. BART는 본질적으로 노이즈 제거 오토 인코더(denoising autoencoder)다. 손상된 텍스트를 재구성하며 학습을 진행한다. BERT와 마찬가지로 사전 학습된 BART를 사요하고 여러 다운스트림 태스크에 맞추 ㅓ파인튜닝할 수 있다. BART는 텍스트 생성에 가장 적합하다. 또한 언어 번역 및 이해와 같은 다른 태스크에도 사용된다. BART 아키텍쳐 BART는 본질적으로 이놐더와 디코더가 있는 트랜스포머 모델이다. 손상된 텍스트를 인코더에 입력하고 인코더는 주어진 텍슽의 표현을 학습시키고 그 표현을 디코더로 보낸다. 디코더는 인코더가 생성한 표현을 가져와 손상되지 않은 원본 텍스트를 재구성 ..
XLM-BERT
·
딥러닝/NLP
XLM(cross-lingual language model) 다국어를 목표로 사전 학습 시킨 BERT를 교차 언어 모델(XLM)이라고 한다. XLM은 단일 언어 및 병렬 데이터셋을 사용해 사전 학습된다. 병렬 데이터셋은 언어 쌍의 텍스트로 구성된다. 즉 ,2개의 다른 언어로 된 동일한 텍스트로 구성된다. 예를 들어 영어 문장이 있다고 가정하면 프랑스어처럼 다른 언어로 된 문장이 동시에 있다. 이 병렬 데이터셋을 교차 언어 데이터셋이라고 한다. 또한 XLM은 바이트 쌍 인코딩(BPE)를 사용하고 모든 언어에서 공유된 어휘를 사용한다. XLM의 사전 학습 전략 XLM은 다음을 사용해 사전 학습한다. 인과 언어 모델링(CLM) 마스크 언어 모델링(MLM) 번역 언어 모델링(TLM) CLM(causal lang..
bertsum
·
딥러닝/NLP
BERTSUM BERTSUM이란 텍스트 요약에 맞춰 파인 튜닝된 BERT 모델이다. 텍스트 요약 텍스트 요약에는 2가지 유형이 있다. 추출 요약 생성 요약 추출 요약 추출 요약은 주어진 텍스트에서 중요한 문장만 추출해 요약하는 과정을 의미한다. 즉, 많은 문장이 포함된 긴 문서에서 문서의 본질적인 의미를 담고 있는 중요한 문장만 추출해 문서의 요약을 생성하는 것이다. BERT를 활용한 추출 요약 busan is beautiful city.와 i love korea라는 문장이 있다고 가정해보자. 입력 문장을 토큰 형태로 변경 첫 문장의 시작 부분에만 [CLS] 토큰 추가 문장의 마지막 부분에 [SEP] 토큰 추가 이것을 토큰 임베딩, 세그먼트 임베딩, 위치 임베딩 이렇게 3개의 임베딩 레이어 형태로 변환한..
ROUGE 이해하기
·
딥러닝/NLP
ROUGE 평가 지표 이해하기 텍스트 요약 태스크를 평가하는 데는 ROUGE(Recall-Oriented Understudy for Gisting Evaluation)를 이용한다. ROUGE는 5개의 평가 지표가 있다. ROUGE-N ROUGE-L ROUGE-W ROUGE-S ROUGE-SU 자주 쓰이는 ROUGE-N과 ROUGE-L에 대해 알아보자. ROUGE-N 메트릭 이해하기 ROUGE-N은 예측한 요약문과 실제 요약문 간의 n-gram의 recall이다. 재현율은 예측한 요약 결과와 실제 요약 사이의 서로 겹치는 n-gram의 총 수와 실제 요약의 n-gram의 총 수의 비율로 정의 된다. $재현율 = \frac{서로 겹치는 n-gram수}{참조 요약의 n-gram 수}$ ROUGE-1 ROUGE..
ariz1623
'딥러닝/NLP' 카테고리의 글 목록