LLM은 진짜 100K 토큰을 전부 다 볼까?
·
AI/LLM
들어가며최근 공개되는 오픈소스 언어모델들의 스펙 시트를 살펴보면, 입력 토큰의 최대 길이가 128k에서 256k에 달하는 경우를 흔히 목격하게 됩니다. 하지만 30B 이하의 매개변수를 가진 경량 모델들이 과연 해당 길이에서 유의미한 정보 처리 능력을 갖추고 있는지에 대해서는 늘 의구심이 뒤따랐습니다. 특히 한국어 환경에서의 실효성은 검증된 바가 적기에, 개인적인 궁금증을 해소하고자 시중의 모델들을 대상으로 직접 실험을 수행하였습니다. 테스트 설계 및 대상테스트는 아래 github repo를 참고하였으며, 데이터셋은 한국어로 새로 생성하였고, 코드 일부를 수정하여 테스트를 진행하였습니다. LLMTest_NeedleInAHaystack GitHub - gkamradt/LLMTest_NeedleInA..
RAG #1
·
AI
Retrieval Augmented Generation 이 글을 쓰게 된 이유는 올해가 가기 전에 마지막으로 RAG를 정리하고, 잠시 내려놓고 싶은 생각에 글을 쓰게되었다.2023년 즈음부터 RAG는 정말 많이 회자됐다.논문, 블로그, 컨퍼런스, 그리고 회사 프로젝트까지 어디를 가든 RAG 이야기가 빠지지 않았다.나 역시 예외는 아니어서, 회사에서 여러 LLM 프로젝트를 진행하며 RAG를 꽤 깊게 다뤄보게 됐다. 돌이켜보면, 내가 RAG라는 개념을 처음 접한 건 Kaggle이었다. Kaggle - LLM Science Exam 후기 그때는 지금처럼 생성형 LLM과 함께 쓰는 구조가 아니었고, DeBERTa 계열 모델로 4지선다 문제를 푸는 태스크를 다루고 있었다.사람들은 Discussion에서 “con..
Context Engineering
·
AI/LLM
들어가며최근 들어 Context Engineering이라는 단어를 자주 접하게 됩니다.겉으로 보기에는 Prompt Engineering과 비슷해 보이지만, 실제로 어떤 차이가 있는지, 그리고 왜 이러한 용어가 부각되는지 궁금해졌습니다. 그 배경을 이해하려면, 인공지능의 빠른 발전 속에서 Context Engineering이 어떤 의미를 갖게 되었는지를 살펴볼 필요가 있습니다.Context Engineering은 정교하고 유연한 AI 에이전트를 설계하기 위한 핵심 역량으로 떠오르고 있습니다. 전통적인 소프트웨어가 고정된 로직에 따라 일관된 방식으로 동작하는 반면, LLM 기반 AI 에이전트는 주어진 맥락(context)에 따라 의사결정, 추론, 작업 수행 방식이 동적으로 달라집니다. 이번 글에서는 Cont..
'페르소나 벡터': AI 성격 제어의 시작
·
기타
들어가며.. 최근 앤트로픽은 LLM의 성격 특성을 좌우하는 패턴들을 찾아내었다고 발표하였습니다. 해당 패턴을 '페르소나 벡터'라 부르며, 이는 마치 사람이 특정 기분이나 태도를 가질때 뇌의 일부 영역이 활성화되는것과 비슷한 개념이라고 소개하였습니다.앤트로픽의 연구진은 모델이 특정 성격 특성을 보일 때와 그렇지 않을 때의 내부 활성화 상태를 비교하여 이 벡터를 자동으로 추출하는 방법을 개발했습니다.페르소나 벡터의 주요 활용 분야는 세 가지입니다. 모니터링: 대화 중이나 훈련 과정에서 모델의 성격 변화를 실시간으로 추적하여 바람직하지 않은 변화가 나타나면 조기 경보를 울릴 수 있습니다.완화: '예방적 조종(preventative steering)'이라는 독특한 방법을 사용합니다. 훈련 중에 의도적으로 바람직..
리뷰 분석 모델(sLM) 학습 및 테스트 (1)
·
AI/LLM
개요리뷰 분석은 사용자 리뷰 데이터를 분석해 감정, 의도, 혹은 특정 패턴을 추출하는 태스크입니다. 이번 글에서는 sLM의 학습 데이터 구축, 모델 학슴 및 테스트에대해 다루고 다음 글에서 추론 아키텍처를 비교하도록 하겠습니다. 학습 및 평가 데이터 구축sLM의 학습과 평가를 위해서는 고품질의 데이터셋이 필수적입니다. 이를 위해 대규모 언어 모델(LLM)을 활용하여 합성 데이터를 생성했습니다. 데이터 생성 프로세스LLM에 리뷰 데이터 생성을 위한 프롬프트를 제공하여, 전자제품, 영화, 음식점 등 다양한 도메인의 리뷰를 생성하였습니다.각 리뷰에는 감정 레이블(매우 긍정, 긍정, 중립, 부정, 매우 부정)과 함께 세부 속성(예: 제품 품질, 서비스 만족도 등)을 포함하였습니다.약 1만 개의 리뷰 데이터를..
효율적인 LLM 서빙: vLLM과 Triton Inference Server 활용하기
·
AI/LLM
개요 ChatGPT가 세상에 나온 이후로 정말 눈 깜짝할 새에 빠르고 정확하고, 심지어 이미지나 음성까지 다루는 멀티모달 모델들이 쏟아져 나오고 있습니다. 특히 2024년에는 상용 LLM(ex. chatgpt)과 오픈소스 LLM(ex. llama)이 서로 경쟁하면서 정말 놀라운 발전을 보여주고 있습니다.하지만 이렇게 뛰어난 LLM을 실제 서비스에 활용하려면 넘어야 할 산이 있습니다. 그중 하나가 바로 '속도' 문제입니다. gemma2 9B처럼 중간 크기의 LLM도 일반적인 환경에서는 응답을 받는 데 수십 초씩 걸릴 정도로 느립니다. 이렇게 느린 속도는 사용자 경험에 부정적인 영향을 미칠 수 있기 때문에 LLM을 효율적으로 서비스하는 기술이 매우 중요해졌습니다. 그래서 이 글에서는 vLLM과 Triton ..
ariz1623
'llm' 태그의 글 목록