'llm' 태그의 글 목록 (2 Page)

Supervised Fine-tuning: customizing LLMs

2024.08.06·

딥러닝/LLM

서론LLM은 인간과 유사한 자연어 처리 능력을 가지지만, 특정 도메인이나 작업에 최적화된 성능을 발휘하기 위해서는 추가적인 학습이 필요합니다.이때 사용되는 기법이 SFT(Supervised Fine-Tuning)입니다. SFT는 방대한 양의 테스트 데이터를 기반으로 비지도 학습된 Base LLM이 가지는 언어 이해 능력을 특정 작업에 활용할 수 있도록 특화시켜 줍니다. SFT를 통해 모델을 처음부터 학습시키는 것보다 훨씬 적은 데이터와 계산 자원으로도 만족할 만한 결과를 얻을 수 있습니다. 특히 gpt와 같은 LLM의 경우, 전체 데이터를 사용하여야 재학습하는 것은 계산적으로 비효율적이기 때문에 fine-tuning 기법은 매우 중요합니다. SFT의 필요성사전 훈련된 모델은 일반적인 언어 이해와 생성 능..

Gemma 2 (9B & 27B) Evaluation vs. Open/Closed-Source LLMs

2024.08.01·

딥러닝/LLM

해당 글은 링크의 내용을 바탕으로 작성된 글입니다.다소 번역이 부드럽지 못한 부분이 있을 수 있습니다. 2024년 6월 27일, 구글 딥마인드는 90억 개(9B) 및 270억 개(27B) 파라미터 크기로 제공되는 Gemma 2의 공식 출시를 발표했습니다.이 모델은 chat-gpt 같은 Closed-source LLM을 사용해야만 달성할 수 있었던 높은 성능과 효율성을 제공하며, 이는 AI 기술의 비약적인 발전을 의미합니다. 이 글은 최신 open source 및 closed-source LLM과 비교하여 Gemma 2(9B)와 Gemma 2(27B)의 다국어 이해도를 비교 분석 한 글입니다. Official Statements from Google 구글 딥마인드 연구원들은 공식 블로그를 통해 Ge..

Pretraining LLMs

2024.07.31·

딥러닝/LLM

해당 글은 DeepLearning.AI 사이트에 있는 Pretraining LLMs 강의 내용 일부를 요약 한 글입니다. 해당 강의에는 본 글에 작성된 내용 외에도 실습 내용이 포함되어 있습니다. 강의 링크 Introduction 해당 강의는 대규모 언어 모델(LLM)을 사전 학습하는 과정에 대한 상세한 설명을 제공합니다. 핵심 내용은 다음과 같습니다. Pre-training의 개념: LLM을 방대한 양의 텍스트 데이터로 학습시켜 언어의 패턴과 구조를 이해하게 하는 과정입니다. 이를 통해 모델은 새로운 텍스트를 생성하거나 이해하는 능력을 갖추게 됩니다. Pre-training의 중요성: LLM의 기반이 되고, 특정 작업에 맞게 모델을 미세 조정하기 전 필수 단계입니다.Pre-training의 어려움:..

데이콘 - 도배 하자 질의 응답 처리 후기

2024.05.05·

딥러닝/LLM

본 글은 데이콘에서 주관한 도배 하자 질의응답 처리 대회 참여 후기이다. 팀원 1명을 포함해 2명이서 대회에 참가했고, 대회 시작은 1월부터였지만, 제대로 참여한 건 3월 쯔음부터 시작한 거 같다. 대회 개요 해당 대회는 한솔데코에서 주최한 대회로, NLP(자연어 처리) 기반의 QA (질문-응답) 시스템을 통해 도배하자와 관련된 깊이 있는 질의응답 처리 능력을 갖춘 AI 모델 개발을 목표로 하고 있다. 아래 사이트에서 활용하는 LLM을 개발하고자 하는 것 같았다.소소하자 lab Chat UI Screen마감재 하자 (벽지, 마루, 타일, 시트지!!) 관련해서 뭐든지 물어보세요!sosohajalab.pages.dev 데이터 train데이터와 test 데이터를 살펴보면 train 데이터는 데이터 ..

Kaggle - LLM Science Exam 후기

2023.10.23·

딥러닝/LLM

본 글은 Kaggle - LLM Science Exam 후기 글입니다. 대회 개요 Kaggle - LLM Science Exam은 약 3개월(2023.07.12 ~ 2023.10.11 )의 기간 동안 진행된 QA task의 대회이다.질문(prompt)과 객관식 답(A~E)이 input으로 들어가고 질문에 대한 적절한 답을 추론하는 모델을 개발하는 것이 목적이다. 평가 지표 평가 지표는 MAP@3 이다. 평가 지표에 대해 간략히 설명하면 모델은 정답일 것 같은 답을 확신이 높은 순서로 3개 출력한다. 예를 들어 1번 문제에 대해 A, B, C를 순서대로 답변으로 출력하였고, 정답이 A 면 해당 문제에 대한 점수는 1, 정답이 B라면 해당 문제에 대한 점수는 1/2 이런 식으로 점수가 계산된..

LLM과 LangChain

2023.05.23·

딥러닝/LLM

LLM(Large Language Model) LLM 즉, 대규모 언어 모델은 사람들끼리 대화하듯 자연스러운 답변을 AI가 생성할 수 있도록 방대한 양의 텍스트 데이터에 대해 훈련된 AI 모델이다. 방대한 양의 데이터를 제대로 학습하기 위해 모델의 크기가 커질 수밖에 없으며 대략적으로 LLM 모델의 파라미터 개수는 100억 개를 넘는다. 일반적인 AI 모델의 파라미터 개수가 수백만~수억 개인 것에 비하면 상당히 많은 것을 알 수 있다. 파라미터 갯수가 중요한 이유는 파라미터 갯수가 많을수록 AI 모델을 학습하는데 오랜 시간이 소요되기 때문이다. 당연히 모델을 최적화하는 것도 오랜 시간이 걸리며 고사양의 GPU가 요구된다. 일반인들이 쉽게 LLM 모델을 학습하지 못하는 이유가 그것 때문이다. ..

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

llm

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역