LLM을 활용한 지식 증류: sLLM 성능 최적화 실험
·
딥러닝/LLM
본 글은 유튜브 테디노트에 출연한 이승유 님의 경험 공유와 관련된 영상에 나왔던 내용을 바탕으로 작성된 글입니다.  Open Ko(한국어) LLM 리더보드 최장기간 1위 모델 개발...  서론 대형 언어 모델(LLM)은 다양한 task에서 놀라운 성능을 제공하지만, 이를 실제 서비스나 업무 환경에 도입하기 위해서는 현실적인 제약을 고려해야 합니다.특히, Llama3.1-70B, gemma2-27B와 같이 파라미터수가 많은 모델은 높은 성능을 발휘할 수 있지만, 이를 그대로 활용하려면 대량의 GPU 자원이 필요합니다. 예를 들어, 70B 모델을 활용하려면 최소 2~3개의 80GB vram을가지는 GPU가 필요하며, 학습 과정에서는 그 이상이 요구될 수 있습니다.  따라서 실제 운영을 고려하면 파라미터 수가..
LLM의 양자화가 한국어에 미치는 영향
·
딥러닝/LLM
본 글은 이전 글에서 알아본 How Does Quantization Affect Multilingual LLMs? 논문에서 언급된 LLM 양자화가 라틴 계열 언어(영어, 프랑스어 등) 보다 비 라틴 계열 언어(한국어, 일본어, 중국어 등)에 더 큰 영향을 미친다는 연구 결과를 바탕으로 작성하게 된 글입니다.   실제 LLM 모델을 사용하면서 양자화를 적용하는 경우가 대부분이었고, 어느 정도 성능이 저하되는지 궁금하기도 하여 직접 모델에 양자화를 적용해 보고 생성 결과의 품질에 대해 평가해 보았습니다.  현재 주목받고 있는 모델 중 하나인 gemma2-9b-it 모델을 양자화해보고 한국어에 대해서 얼마나 성능 저하가 일어나는지 알아보겠습니다.     모델 양자화란?  일반적으로 딥러닝 모델은 가중치를 16..
[논문리뷰] How Does Quantization Affect Multilingual LLMs?
·
딥러닝/LLM
본 글은 "How Does Quantization Affect Multilingual LLMs?"라는 논문을 읽고 내용을 리뷰하는 글입니다.    서론 해당 논문의 주 내용은 모델 양자화(Quantization)가 다국어 LLM의 미치는 영향을 분석하는 내용이 주를 이룹니다. 양자화는 모델의 추론 속도를 향상시키고 배포를 용이하게 하기 위해 널리 사용되는 기법입니다. 그러나 대부분의 기존 연구는 영어 작업에 미치는 영향만을 다루고 있으며, 다국어에 미치는 영향에 대한 연구는 거의 없었습니다. 이 논문의 주요 포인트는 다음과 같습니다:  1. 양자화가 다국어 모델에 미치는 영향: 연구는 다국어 LLM에서 양자화가 어떻게 성능에 영향을 미치는지, 특히 다양한 언어와 규모에서의 성능 변화를 분석합니다. 논문에..
Supervised Fine-tuning: customizing LLMs
·
딥러닝/LLM
서론LLM은 인간과 유사한 자연어 처리 능력을 가지지만, 특정 도메인이나 작업에 최적화된 성능을 발휘하기 위해서는 추가적인 학습이 필요합니다.이때 사용되는 기법이 SFT(Supervised Fine-Tuning)입니다. SFT는 방대한 양의 테스트 데이터를 기반으로 비지도 학습된 Base LLM이 가지는 언어 이해 능력을 특정 작업에 활용할 수 있도록 특화시켜 줍니다. SFT를 통해 모델을 처음부터 학습시키는 것보다 훨씬 적은 데이터와 계산 자원으로도 만족할 만한 결과를 얻을 수 있습니다. 특히 gpt와 같은 LLM의 경우, 전체 데이터를 사용하여야 재학습하는 것은 계산적으로 비효율적이기 때문에 fine-tuning 기법은 매우 중요합니다. SFT의 필요성 사전 훈련된 모델은 일반적인 언어 이해와 생성 ..
Gemma 2 (9B & 27B) Evaluation vs. Open/Closed-Source LLMs
·
딥러닝/LLM
해당 글은 링크의 내용을 바탕으로 작성된 글입니다.다소 번역이 부드럽지 못한 부분이 있을 수 있습니다.   2024년 6월 27일, 구글 딥마인드는 90억 개(9B) 및 270억 개(27B) 파라미터 크기로 제공되는 Gemma 2의 공식 출시를 발표했습니다.이 모델은 chat-gpt 같은 Closed-source LLM을 사용해야만 달성할 수 있었던 높은 성능과 효율성을 제공하며, 이는 AI 기술의 비약적인 발전을 의미합니다. 이 글은 최신 open source 및 closed-source LLM과 비교하여 Gemma 2(9B)와 Gemma 2(27B)의 다국어 이해도를 비교 분석 한 글입니다.   Official Statements from Google 구글 딥마인드 연구원들은 공식 블로그를 통해 Ge..
Pretraining LLMs
·
딥러닝/LLM
해당 글은 DeepLearning.AI 사이트에 있는 Pretraining LLMs 강의 내용 일부를 요약 한 글입니다. 해당 강의에는 본 글에 작성된 내용 외에도 실습 내용이 포함되어 있습니다. 강의 링크   Introduction 해당 강의는 대규모 언어 모델(LLM)을 사전 학습하는 과정에 대한 상세한 설명을 제공합니다. 핵심 내용은 다음과 같습니다. Pre-training의 개념: LLM을 방대한 양의 텍스트 데이터로 학습시켜 언어의 패턴과 구조를 이해하게 하는 과정입니다. 이를 통해 모델은 새로운 텍스트를 생성하거나 이해하는 능력을 갖추게 됩니다. Pre-training의 중요성: LLM의 기반이 되고, 특정 작업에 맞게 모델을 미세 조정하기 전 필수 단계입니다.Pre-training의 어려움:..
ariz1623
'llm' 태그의 글 목록