효율적인 LLM 서빙: vLLM과 Triton Inference Server 활용하기
·
딥러닝/LLM
개요 ChatGPT가 세상에 나온 이후로 정말 눈 깜짝할 새에 빠르고 정확하고, 심지어 이미지나 음성까지 다루는 멀티모달 모델들이 쏟아져 나오고 있습니다. 특히 2024년에는 상용 LLM(ex. chatgpt)과 오픈소스 LLM(ex. llama)이 서로 경쟁하면서 정말 놀라운 발전을 보여주고 있습니다.하지만 이렇게 뛰어난 LLM을 실제 서비스에 활용하려면 넘어야 할 산이 있습니다. 그중 하나가 바로 '속도' 문제입니다. gemma2 9B처럼 중간 크기의 LLM도 일반적인 환경에서는 응답을 받는 데 수십 초씩 걸릴 정도로 느립니다. 이렇게 느린 속도는 사용자 경험에 부정적인 영향을 미칠 수 있기 때문에 LLM을 효율적으로 서비스하는 기술이 매우 중요해졌습니다. 그래서 이 글에서는 vLLM과 Triton ..
LLM 효율성을 높이는 양자화 기법 탐구 및 성능 분석
·
딥러닝/LLM
서론최근 AI 모델의 발전으로 인해 대규모 언어 모델(LLM)이 다양한 산업과 응용 분야에서 활용되고 있습니다.하지만 LLM은 고용량 GPU 메모리와 높은 연산 자원을 요구하며, 이러한 자원 소모는 실무 및 서비스에 적용할 때 큰 제약으로 작용합니다. 이 문제를 해결하기 위해 양자화(Quantization)는 중요한 해결책으로 주목받고 있습니다.양자화는 모델의 성능 저하를 최소화하면서 메모리 사용량을 줄이고 추론 속도를 높이는 데 기여합니다.본 글에서는 양자화가 모델 성능에 미치는 영향을 심층적으로 탐구하고, Bitsandbytes, AWQ, GPTQ의 세 가지 대표적인 양자화 기법을 비교 분석합니다.  모델 양자화란 무엇인가?양자화는 모델의 파라미터를 고정밀도의 부동소수점(FP16 또는 FP32)에서 ..
RoPE scaling for LLM
·
딥러닝/LLM
서론최근(?) 출시된 LLM을 보면 input text를  128K를 지원하는 경우를 심심치 않게 볼 수 있습니다.불과 몇달전만 하더라도 4K ~ 8K가 고작이었던 것 같은데 어떻게 이렇게 비약적으로 상승할 수 있게 되었는지 궁금증을 가지게 되었습니다. 그러던 중, Qwen2.5 모델을 활용하기 위해 Hugging Face의 레포지토리를 읽다 보니, 긴 텍스트에 대한 처리가 필요하다는 언급이 있었습니다. 이 과정에서 RoPE Scaling이라는 개념을 접하게 되었고, 이에 대해 더 깊이 알아보며 이 글을 작성하게 되었습니다.   What is RoPE Scaling? RoPE Scaling은 LLM이 입력된 텍스트의 순서를 이해할 수 있도록 위치 정보를 임베딩에 추가하는 Positional Encodin..
RAG(Relevance-Augmented Generation): LLM의 한계를 넘는 새로운 접근
·
딥러닝/LLM
서론우리는 ChatGPT나 Gemini와 같은 서비스를 통해 LLM과 대화할 수 있습니다. 이러한 LLM들은 방대한 인터넷 데이터를 학습하여 사용자가 질문하는 거의 모든 질문에 답할 수 있습니다.그러나, 이러한 모델에도 한계가 있습니다. 바로 학습한 이후의 최신 정보나 특정 도메인에 대한 지식이 부족하다는 점입니다. 이 문제를 해결하기 위한 기술로 RAG가 등장하게 되었습니다.  RAG란 무엇인가?RAG는 Retrieval-Augmented Generation의 약자로, LLM의 성능을 향상하기 위해 외부 데이터를 검색하고 결합하는 방식을 의미합니다. 이 방식은 사용자가 묻는 질문에 대해 관련된 문서나 데이터를 검색하여, LLM에게 새롭고 다양한 정보(context)를 제공함으로써 답변의 정확성과 신뢰성..
LLM을 활용한 지식 증류: sLLM 성능 최적화 실험
·
딥러닝/LLM
본 글은 유튜브 테디노트에 출연한 이승유 님의 경험 공유와 관련된 영상에 나왔던 내용을 바탕으로 작성된 글입니다.  Open Ko(한국어) LLM 리더보드 최장기간 1위 모델 개발...  서론 대형 언어 모델(LLM)은 다양한 task에서 놀라운 성능을 제공하지만, 이를 실제 서비스나 업무 환경에 도입하기 위해서는 현실적인 제약을 고려해야 합니다.특히, Llama3.1-70B, gemma2-27B와 같이 파라미터수가 많은 모델은 높은 성능을 발휘할 수 있지만, 이를 그대로 활용하려면 대량의 GPU 자원이 필요합니다. 예를 들어, 70B 모델을 활용하려면 최소 2~3개의 80GB vram을가지는 GPU가 필요하며, 학습 과정에서는 그 이상이 요구될 수 있습니다.  따라서 실제 운영을 고려하면 파라미터 수가..
LLM의 양자화가 한국어에 미치는 영향
·
딥러닝/LLM
본 글은 이전 글에서 알아본 How Does Quantization Affect Multilingual LLMs? 논문에서 언급된 LLM 양자화가 라틴 계열 언어(영어, 프랑스어 등) 보다 비 라틴 계열 언어(한국어, 일본어, 중국어 등)에 더 큰 영향을 미친다는 연구 결과를 바탕으로 작성하게 된 글입니다.   실제 LLM 모델을 사용하면서 양자화를 적용하는 경우가 대부분이었고, 어느 정도 성능이 저하되는지 궁금하기도 하여 직접 모델에 양자화를 적용해 보고 생성 결과의 품질에 대해 평가해 보았습니다.  현재 주목받고 있는 모델 중 하나인 gemma2-9b-it 모델을 양자화해보고 한국어에 대해서 얼마나 성능 저하가 일어나는지 알아보겠습니다.     모델 양자화란?  일반적으로 딥러닝 모델은 가중치를 16..
ariz1623
'llm' 태그의 글 목록