리트코드 - Letter Combinations of a Phone Number
·
파이썬
문제https://leetcode.com/explore/interview/card/top-interview-questions-medium/109/backtracking/793/ 문제 설명주어진 문자열 digits는 2부터 9까지의 숫자로 이루어져 있으며, 숫자는 전화기 버튼에 대응하는 문자로 매핑됩니다.문자열 digits가 나타낼 수 있는 모든 문자 조합을 반환하세요.  반환되는 순서는 상관없습니다. 예시예제 1입력: digits = "23"출력: ["ad", "ae", "af", "bd", "be", "bf", "cd", "ce", "cf"]예제 2입력: digits = ""출력: []예제 3입력: digits = "2"출력: ["a", "b", "c"]  풀이해당 문제는 백트래킹(Backtrackin..
리트코드 - Group Anagrams
·
파이썬
문제https://leetcode.com/explore/interview/card/top-interview-questions-medium/103/array-and-strings/778/ 문제 설명문자열 배열 strs가 주어질 때, 애너그램(anagram) 들을 그룹으로 묶어서 반환하세요. 반환되는 결과의 순서는 상관없습니다.애너그램이란?애너그램은 주어진 문자열의 문자를 재배열하여 다른 문자열을 만들 수 있는 경우를 말합니다.예를 들어:"eat", "tea", "ate"는 서로 애너그램입니다."tan"과 "nat"도 서로 애너그램입니다."bat"는 애너그램이 없는 단독 그룹입니다. 예제입력 및 출력 예시예제 1:입력: strs = ["eat", "tea", "tan", "ate", "nat", "bat"]..
리트코드 - 3Sum
·
파이썬
문제https://leetcode.com/explore/interview/card/top-interview-questions-medium/103/array-and-strings/776/문제 설명정수 배열 nums가 주어질 때, 다음 조건을 만족하는 모든 세 숫자 조합 [nums[i], nums[j], nums[k]]을 반환하세요i != j, i != k, j != k (즉, 세 숫자의 인덱스가 모두 달라야 합니다.)nums[i] + nums[j] + nums[k] = 0 (세 숫자의 합이 0이어야 합니다.)주의: 결과 집합에는 중복된 세 숫자 조합이 포함되지 않아야 합니다.예제예제 1:입력: nums = [-1, 0, 1, 2, -1, -4]출력: [[-1, -1, 2], [-1, 0, 1]]설명:( n..
효율적인 LLM 서빙: vLLM과 Triton Inference Server 활용하기
·
딥러닝/LLM
개요 ChatGPT가 세상에 나온 이후로 정말 눈 깜짝할 새에 빠르고 정확하고, 심지어 이미지나 음성까지 다루는 멀티모달 모델들이 쏟아져 나오고 있습니다. 특히 2024년에는 상용 LLM(ex. chatgpt)과 오픈소스 LLM(ex. llama)이 서로 경쟁하면서 정말 놀라운 발전을 보여주고 있습니다.하지만 이렇게 뛰어난 LLM을 실제 서비스에 활용하려면 넘어야 할 산이 있습니다. 그중 하나가 바로 '속도' 문제입니다. gemma2 9B처럼 중간 크기의 LLM도 일반적인 환경에서는 응답을 받는 데 수십 초씩 걸릴 정도로 느립니다. 이렇게 느린 속도는 사용자 경험에 부정적인 영향을 미칠 수 있기 때문에 LLM을 효율적으로 서비스하는 기술이 매우 중요해졌습니다. 그래서 이 글에서는 vLLM과 Triton ..
LLM 효율성을 높이는 양자화 기법 탐구 및 성능 분석
·
딥러닝/LLM
서론최근 AI 모델의 발전으로 인해 대규모 언어 모델(LLM)이 다양한 산업과 응용 분야에서 활용되고 있습니다.하지만 LLM은 고용량 GPU 메모리와 높은 연산 자원을 요구하며, 이러한 자원 소모는 실무 및 서비스에 적용할 때 큰 제약으로 작용합니다. 이 문제를 해결하기 위해 양자화(Quantization)는 중요한 해결책으로 주목받고 있습니다.양자화는 모델의 성능 저하를 최소화하면서 메모리 사용량을 줄이고 추론 속도를 높이는 데 기여합니다.본 글에서는 양자화가 모델 성능에 미치는 영향을 심층적으로 탐구하고, Bitsandbytes, AWQ, GPTQ의 세 가지 대표적인 양자화 기법을 비교 분석합니다.  모델 양자화란 무엇인가?양자화는 모델의 파라미터를 고정밀도의 부동소수점(FP16 또는 FP32)에서 ..
RoPE scaling for LLM
·
딥러닝/LLM
서론최근(?) 출시된 LLM을 보면 input text를  128K를 지원하는 경우를 심심치 않게 볼 수 있습니다.불과 몇달전만 하더라도 4K ~ 8K가 고작이었던 것 같은데 어떻게 이렇게 비약적으로 상승할 수 있게 되었는지 궁금증을 가지게 되었습니다. 그러던 중, Qwen2.5 모델을 활용하기 위해 Hugging Face의 레포지토리를 읽다 보니, 긴 텍스트에 대한 처리가 필요하다는 언급이 있었습니다. 이 과정에서 RoPE Scaling이라는 개념을 접하게 되었고, 이에 대해 더 깊이 알아보며 이 글을 작성하게 되었습니다.   What is RoPE Scaling? RoPE Scaling은 LLM이 입력된 텍스트의 순서를 이해할 수 있도록 위치 정보를 임베딩에 추가하는 Positional Encodin..
ariz1623
'분류 전체보기' 카테고리의 글 목록