SpanBERT
·
딥러닝/NLP
SpanBERT SpanBert는 텍스트 범위를 예측하는 질문-응답과 같은 태스크에 주로 사용된다. SpanBERT의 아키텍처를 통해서 어떠한 원리로 작동하는지 확인해보자. SpanBERT의 아키텍처 예제를 통해 SpanBERT의 아키텍처를 이해해 보자. sentence = 'you are expected to know the laws of your country' # sentence를 토큰화 tokens = [you, are, expected, to, know, the, laws, of, your, country] # SpanBERT에서는 토큰을 무작위로 마스킹하는 대신에, 다음과 같이 토큰의 연속 범위를 무작위로 마스킹함. tokens = [you, are, [MASK], [MASK], [MASK],..
bertsum
·
딥러닝/NLP
BERTSUM BERTSUM이란 텍스트 요약에 맞춰 파인 튜닝된 BERT 모델이다. 텍스트 요약 텍스트 요약에는 2가지 유형이 있다. 추출 요약 생성 요약 추출 요약 추출 요약은 주어진 텍스트에서 중요한 문장만 추출해 요약하는 과정을 의미한다. 즉, 많은 문장이 포함된 긴 문서에서 문서의 본질적인 의미를 담고 있는 중요한 문장만 추출해 문서의 요약을 생성하는 것이다. BERT를 활용한 추출 요약 busan is beautiful city.와 i love korea라는 문장이 있다고 가정해보자. 입력 문장을 토큰 형태로 변경 첫 문장의 시작 부분에만 [CLS] 토큰 추가 문장의 마지막 부분에 [SEP] 토큰 추가 이것을 토큰 임베딩, 세그먼트 임베딩, 위치 임베딩 이렇게 3개의 임베딩 레이어 형태로 변환한..
ELECTRA
·
딥러닝/NLP
ELECTRA(Efficiently Learning an Encoder that Classifies Token Replacments Accurately) ECECTRA는 BERT의 파생 모델 중 하나이다. BERT의 경우 MLM과 NSP 태스크를 사용해 사전 학습을 진행한다. MLM 태스크는 전체 토큰의 15%를 무작위로 마스킹한 후 해당 토큰을 예측하는 방식으로 진행한다. MLM 태스크를 사전 학습에 사용하는 대신 ELECTRA는 replaced toekn detection라는 태스크를 사용해 학습을 진행한다. replaced toekn detection는 마스킹 대상인 토큰을 다른 토큰으로 변경한 후 이 토큰이 실제 토큰인지 아니면 교체한 토큰인지를 판별하는 형태로 학습을 진행한다. 그렇다면 MLM ..
RoBERTa
·
딥러닝/NLP
Roberta(Robustly Optimized Bert pre-training Approach) Roberta는 bert의 파생 모델 중 하나다. RoBERTa는 기본적으로 BERT와 동일하며, 사전 학습 시 아래 항목을 변경하였다. MLM 태스크에서 정적 마스킹이 아닌 동적 마스킹 방법 적용 NSP태스크를 제거하고 MLM 태스크만 학습에 사용 배치 크기를 증가해 학습 토크나이저로 BBPE(byte-level BPE) 사용 위 내용에 대해 자세히 알아보자 정적 마스크 대신 동적 마스크 사용 BERT의 MLM 태스크는 주어진 토큰의 15% 확률로 무작위로 마스크된 토큰으로 변경한 후 모델에서 해당 토큰을 예측한다. 예를들어 '우리는 아침 6시에 출근을 한다` 라는 문장이 있을때, 토크나이징 적용후 [CL..
ALBERT
·
딥러닝/NLP
ALBERT BERT의 주요 문제점 중 하나는 수백만개의 변수로 구성되어 있다는 점이다. BERT-base는 1억 1천만 개의 변수로 구성되어 있어서 모델 학습이 어렵고 추론 시 시간이 많이 걸린다. 모델 크기를 늘리면 성능은 좋아지지만, 계산 시 리소스가 많이 소모된다. 이 문제를 해결하기 위해 ALBERT를 도입하였다. ALBERT는 다음 두 가지 방법을 사용해 BERT와 대비해 변수를 적게 사용하게 되었고, 모델의 학습 시간과 추론 시간을 줄였다. cross-layer parameter sharing factorized embedding layer parameterization cross-layer parameter sharing bert는 N개의 인코더로 구성되어 있다. 예를 들어 BERT-bas..
BERT
·
딥러닝/NLP
BERT(Bidirectional Encoder Represenation from Transformer) 이해하기 BERT는 다양한 자연어 처리 태스크 분야에서 높은 성능을 보이며, 자연어 처리가 전반적으로 발전하는데 영향을 끼쳤다. BERT는 구글에서 발표한 임베딩 모델이다. BERT는 문맥이 없는 WORD2VEC와 같은 다른 임베딩 모델과 달리 문맥을 고려한 임베딩이다. 문맥을 고려하는게 왜 중요하냐면, 동음이의어나 여러가지 의미를 가진 단어에 유연하게 대응할 수 있기 때문이다. bert는 transformer에서 파생된 구조이기 때문에 transformer내용을 먼저 살펴보고 오자 -> 링크 BERT의 동작 방식 bert는 이름에서 알 수 있듯이 트랜스포머 모델을 기반으로 하며, 인코더-디코더가 있..
ariz1623
'bert' 태그의 글 목록