LLM을 서빙하는 프레임워크, vLLM 사용법
·
딥러닝/LLM
개요최근 대형 언어 모델(LLM)을 실제 서비스에 적용하려는 수요가 증가하면서, LLM을 효율적으로 서빙하는 기술의 중요성도 커지고 있습니다. 대표적인 서빙 프레임워크로는 SGLang, TensorRT-LLM, vLLM 등이 있으며, 이들 각각은 성능 특성에 차이를 보입니다. 이 중 vLLM은 초기부터 속도와 메모리 효율성 면에서 안정적인 구조를 갖춘 프레임워크로 주목을 받았고, 현재 가장 널리 활용되고 있는 LLM 서빙 솔루션 중 하나입니다 vLLM의 특징PagedAttention: 기존 시퀀스 기반 Attention 방식 대신 페이지 기반의 유연한 메모리 할당 전략을 도입하여 배치 효율 극대화비동기 엔진 구조: 추론 요청을 효율적으로 처리하기 위한 비동기 처리 구조로 높은 처리량 유지OpenAI 호환..
sLM 한국어 성능 비교: Kanana, HyperCLOVA, Qwen
·
딥러닝/LLM
서론최근 LLM은 자연어 처리뿐만 아니라 코드 생성, 에이전트 구성 등 다양한 분야에서 활발히 활용되고 있습니다.하지만 한국어를 잘 처리하는 LLM은 그리 많지 않았습니다. Gemini, ChatGPT, Claude 등 대표적인 챗봇 서비스들은 한국어에 잘 응답하지만, 오픈소스 모델들 중 특히 작은 크기(3B 이하)의 모델에서는 한국어 성능이 뛰어난 모델을 찾기가 어렵습니다.그런데 최근 한국의 IT 대기업인 카카오와 네이버가 소형 LLM(sLM)을 공개하면서, 이들의 실제 성능에 대한 궁금증이 생겼습니다. 이에 더해, 최근 공개된 Qwen3 모델과 비교하여 한국어를 지원하는 LLM들의 성능을 분석해보려 합니다. 모델 개요이번 글에서 비교할 모델은 다음 세 가지입니다. 모두 파라미터 수가 2.1B 미만인..
리뷰 분석 모델(sLM) 학습 및 테스트 (1)
·
딥러닝/LLM
개요리뷰 분석은 사용자 리뷰 데이터를 분석해 감정, 의도, 혹은 특정 패턴을 추출하는 태스크입니다. 이번 글에서는 sLM의 학습 데이터 구축, 모델 학슴 및 테스트에대해 다루고 다음 글에서 추론 아키텍처를 비교하도록 하겠습니다. 학습 및 평가 데이터 구축sLM의 학습과 평가를 위해서는 고품질의 데이터셋이 필수적입니다. 이를 위해 대규모 언어 모델(LLM)을 활용하여 합성 데이터를 생성했습니다. 데이터 생성 프로세스LLM에 리뷰 데이터 생성을 위한 프롬프트를 제공하여, 전자제품, 영화, 음식점 등 다양한 도메인의 리뷰를 생성하였습니다.각 리뷰에는 감정 레이블(매우 긍정, 긍정, 중립, 부정, 매우 부정)과 함께 세부 속성(예: 제품 품질, 서비스 만족도 등)을 포함하였습니다.약 1만 개의 리뷰 데이터를..
효율적인 LLM 서빙: vLLM과 Triton Inference Server 활용하기
·
딥러닝/LLM
개요 ChatGPT가 세상에 나온 이후로 정말 눈 깜짝할 새에 빠르고 정확하고, 심지어 이미지나 음성까지 다루는 멀티모달 모델들이 쏟아져 나오고 있습니다. 특히 2024년에는 상용 LLM(ex. chatgpt)과 오픈소스 LLM(ex. llama)이 서로 경쟁하면서 정말 놀라운 발전을 보여주고 있습니다.하지만 이렇게 뛰어난 LLM을 실제 서비스에 활용하려면 넘어야 할 산이 있습니다. 그중 하나가 바로 '속도' 문제입니다. gemma2 9B처럼 중간 크기의 LLM도 일반적인 환경에서는 응답을 받는 데 수십 초씩 걸릴 정도로 느립니다. 이렇게 느린 속도는 사용자 경험에 부정적인 영향을 미칠 수 있기 때문에 LLM을 효율적으로 서비스하는 기술이 매우 중요해졌습니다. 그래서 이 글에서는 vLLM과 Triton ..
LLM 효율성을 높이는 양자화 기법 탐구 및 성능 분석
·
딥러닝/LLM
서론최근 AI 모델의 발전으로 인해 대규모 언어 모델(LLM)이 다양한 산업과 응용 분야에서 활용되고 있습니다.하지만 LLM은 고용량 GPU 메모리와 높은 연산 자원을 요구하며, 이러한 자원 소모는 실무 및 서비스에 적용할 때 큰 제약으로 작용합니다. 이 문제를 해결하기 위해 양자화(Quantization)는 중요한 해결책으로 주목받고 있습니다.양자화는 모델의 성능 저하를 최소화하면서 메모리 사용량을 줄이고 추론 속도를 높이는 데 기여합니다.본 글에서는 양자화가 모델 성능에 미치는 영향을 심층적으로 탐구하고, Bitsandbytes, AWQ, GPTQ의 세 가지 대표적인 양자화 기법을 비교 분석합니다.  모델 양자화란 무엇인가?양자화는 모델의 파라미터를 고정밀도의 부동소수점(FP16 또는 FP32)에서 ..
All you need to know about RAG
·
딥러닝/LLM
서론본 글은 LinkedIn에 AWS GenAI Lead인 Eduardo Ordax가 공유한 글을 기반으로 작성된 글입니다.글의 내용이 많기 때문에 기술 설명에 필요한 추가 설명은 최소한으로 하였습니다.글의 순서는 다음과 같습니다.Why RAG? Explanation of Naive RAG and Chunking StrategiesAdvance RAG TechniquesRAG GenerationRAG EvaluationWhy RAG? Explanation of Naive RAG and Chunking Strategies Why RAG ?왜 RAG를 사용해야 할까요? 그 이유는 LLM에서 생성된 답변이 다음과 같은 이유로 부정확할 수 있기 때문입니다.LLM은 환각을 겪을 수 있습니다.관련 정보가 LLM의 ..
ariz1623
'딥러닝' 카테고리의 글 목록