ALBERT
·
딥러닝/NLP
ALBERT BERT의 주요 문제점 중 하나는 수백만개의 변수로 구성되어 있다는 점이다. BERT-base는 1억 1천만 개의 변수로 구성되어 있어서 모델 학습이 어렵고 추론 시 시간이 많이 걸린다. 모델 크기를 늘리면 성능은 좋아지지만, 계산 시 리소스가 많이 소모된다. 이 문제를 해결하기 위해 ALBERT를 도입하였다. ALBERT는 다음 두 가지 방법을 사용해 BERT와 대비해 변수를 적게 사용하게 되었고, 모델의 학습 시간과 추론 시간을 줄였다. cross-layer parameter sharing factorized embedding layer parameterization cross-layer parameter sharing bert는 N개의 인코더로 구성되어 있다. 예를 들어 BERT-bas..
ariz1623
'factorized embedding layer parameterization' 태그의 글 목록