LLM 효율성을 높이는 양자화 기법 탐구 및 성능 분석
·
딥러닝/LLM
서론최근 AI 모델의 발전으로 인해 대규모 언어 모델(LLM)이 다양한 산업과 응용 분야에서 활용되고 있습니다.하지만 LLM은 고용량 GPU 메모리와 높은 연산 자원을 요구하며, 이러한 자원 소모는 실무 및 서비스에 적용할 때 큰 제약으로 작용합니다. 이 문제를 해결하기 위해 양자화(Quantization)는 중요한 해결책으로 주목받고 있습니다.양자화는 모델의 성능 저하를 최소화하면서 메모리 사용량을 줄이고 추론 속도를 높이는 데 기여합니다.본 글에서는 양자화가 모델 성능에 미치는 영향을 심층적으로 탐구하고, Bitsandbytes, AWQ, GPTQ의 세 가지 대표적인 양자화 기법을 비교 분석합니다.  모델 양자화란 무엇인가?양자화는 모델의 파라미터를 고정밀도의 부동소수점(FP16 또는 FP32)에서 ..
RoPE scaling for LLM
·
딥러닝/LLM
서론최근(?) 출시된 LLM을 보면 input text를  128K를 지원하는 경우를 심심치 않게 볼 수 있습니다.불과 몇달전만 하더라도 4K ~ 8K가 고작이었던 것 같은데 어떻게 이렇게 비약적으로 상승할 수 있게 되었는지 궁금증을 가지게 되었습니다. 그러던 중, Qwen2.5 모델을 활용하기 위해 Hugging Face의 레포지토리를 읽다 보니, 긴 텍스트에 대한 처리가 필요하다는 언급이 있었습니다. 이 과정에서 RoPE Scaling이라는 개념을 접하게 되었고, 이에 대해 더 깊이 알아보며 이 글을 작성하게 되었습니다.   What is RoPE Scaling? RoPE Scaling은 LLM이 입력된 텍스트의 순서를 이해할 수 있도록 위치 정보를 임베딩에 추가하는 Positional Encodin..
All you need to know about RAG
·
딥러닝/LLM
서론본 글은 LinkedIn에 AWS GenAI Lead인 Eduardo Ordax가 공유한 글을 기반으로 작성된 글입니다.글의 내용이 많기 때문에 기술 설명에 필요한 추가 설명은 최소한으로 하였습니다.글의 순서는 다음과 같습니다.Why RAG? Explanation of Naive RAG and Chunking StrategiesAdvance RAG TechniquesRAG GenerationRAG EvaluationWhy RAG? Explanation of Naive RAG and Chunking Strategies Why RAG ?왜 RAG를 사용해야 할까요? 그 이유는 LLM에서 생성된 답변이 다음과 같은 이유로 부정확할 수 있기 때문입니다.LLM은 환각을 겪을 수 있습니다.관련 정보가 LLM의 ..
RAG(Relevance-Augmented Generation): LLM의 한계를 넘는 새로운 접근
·
딥러닝/LLM
서론우리는 ChatGPT나 Gemini와 같은 서비스를 통해 LLM과 대화할 수 있습니다. 이러한 LLM들은 방대한 인터넷 데이터를 학습하여 사용자가 질문하는 거의 모든 질문에 답할 수 있습니다.그러나, 이러한 모델에도 한계가 있습니다. 바로 학습한 이후의 최신 정보나 특정 도메인에 대한 지식이 부족하다는 점입니다. 이 문제를 해결하기 위한 기술로 RAG가 등장하게 되었습니다.  RAG란 무엇인가?RAG는 Retrieval-Augmented Generation의 약자로, LLM의 성능을 향상하기 위해 외부 데이터를 검색하고 결합하는 방식을 의미합니다. 이 방식은 사용자가 묻는 질문에 대해 관련된 문서나 데이터를 검색하여, LLM에게 새롭고 다양한 정보(context)를 제공함으로써 답변의 정확성과 신뢰성..
코드트리 - 포탑 부수기
·
파이썬/코드트리
문제https://www.codetree.ai/training-field/frequent-problems/problems/destroy-the-turret/explanation?page=3&pageSize=5 코드트리 | 코딩테스트 준비를 위한 알고리즘 정석국가대표가 만든 코딩 공부의 가이드북 코딩 왕초보부터 꿈의 직장 코테 합격까지, 국가대표가 엄선한 커리큘럼으로 준비해보세요.www.codetree.ai  N x M 격자가 있고, 모든 위치에는 포탑이 존재 한다. (즉, 포탑의 개수는 NM개)  각 포탑에는 공격력이 존재하고, 상황에 따라 공격력이 줄거나 늘수 있다. 0 이하가 된다면 , 포탑은 부서진다(공격기능 x)  하나의 턴은 다음 4가지 액션을 순서대로 수형하며, 총 K번 반복한다. 1. 공격자..
[python] 코드트리 - 코드트리 빵
·
파이썬/코드트리
문제https://www.codetree.ai/training-field/frequent-problems/problems/codetree-mon-bread 코드트리 | 코딩테스트 준비를 위한 알고리즘 정석국가대표가 만든 코딩 공부의 가이드북 코딩 왕초보부터 꿈의 직장 코테 합격까지, 국가대표가 엄선한 커리큘럼으로 준비해보세요.www.codetree.ai  빵을 구하고자 하는 m명의 사람이 있는데, 1번 사람은 정확히 1분에, 2번 사람은 정확히 2분에, ..., m번 사람은 정확히 m 분에 각자의 베이스캠프에서 출발하여 편의점으로 이동하기 시작합니다. 좌표에서 1로 표시된 곳이 베이스캠프 후보입니다.  각 사람 별 베이스 캠프는 자신이 가야하는 편의점 까지 최단 거리로 도달 할 수 있는 베이스 캠프 중 ..
ariz1623
코딩의 숲