Supervised Fine-tuning: customizing LLMs
·
딥러닝/LLM
서론LLM은 인간과 유사한 자연어 처리 능력을 가지지만, 특정 도메인이나 작업에 최적화된 성능을 발휘하기 위해서는 추가적인 학습이 필요합니다.이때 사용되는 기법이 SFT(Supervised Fine-Tuning)입니다. SFT는 방대한 양의 테스트 데이터를 기반으로 비지도 학습된 Base LLM이 가지는 언어 이해 능력을 특정 작업에 활용할 수 있도록 특화시켜 줍니다. SFT를 통해 모델을 처음부터 학습시키는 것보다 훨씬 적은 데이터와 계산 자원으로도 만족할 만한 결과를 얻을 수 있습니다. 특히 gpt와 같은 LLM의 경우, 전체 데이터를 사용하여야 재학습하는 것은 계산적으로 비효율적이기 때문에 fine-tuning 기법은 매우 중요합니다. SFT의 필요성사전 훈련된 모델은 일반적인 언어 이해와 생성 능..
Gemma 2 (9B & 27B) Evaluation vs. Open/Closed-Source LLMs
·
딥러닝/LLM
해당 글은 링크의 내용을 바탕으로 작성된 글입니다.다소 번역이 부드럽지 못한 부분이 있을 수 있습니다.   2024년 6월 27일, 구글 딥마인드는 90억 개(9B) 및 270억 개(27B) 파라미터 크기로 제공되는 Gemma 2의 공식 출시를 발표했습니다.이 모델은 chat-gpt 같은 Closed-source LLM을 사용해야만 달성할 수 있었던 높은 성능과 효율성을 제공하며, 이는 AI 기술의 비약적인 발전을 의미합니다. 이 글은 최신 open source 및 closed-source LLM과 비교하여 Gemma 2(9B)와 Gemma 2(27B)의 다국어 이해도를 비교 분석 한 글입니다.   Official Statements from Google 구글 딥마인드 연구원들은 공식 블로그를 통해 Ge..
Pretraining LLMs
·
딥러닝/LLM
해당 글은 DeepLearning.AI 사이트에 있는 Pretraining LLMs 강의 내용 일부를 요약 한 글입니다. 해당 강의에는 본 글에 작성된 내용 외에도 실습 내용이 포함되어 있습니다. 강의 링크   Introduction 해당 강의는 대규모 언어 모델(LLM)을 사전 학습하는 과정에 대한 상세한 설명을 제공합니다. 핵심 내용은 다음과 같습니다. Pre-training의 개념: LLM을 방대한 양의 텍스트 데이터로 학습시켜 언어의 패턴과 구조를 이해하게 하는 과정입니다. 이를 통해 모델은 새로운 텍스트를 생성하거나 이해하는 능력을 갖추게 됩니다. Pre-training의 중요성: LLM의 기반이 되고, 특정 작업에 맞게 모델을 미세 조정하기 전 필수 단계입니다.Pre-training의 어려움:..
데이콘 - 도배 하자 질의 응답 처리 후기
·
딥러닝/LLM
본 글은 데이콘에서 주관한 도배 하자 질의응답 처리 대회 참여 후기이다. 팀원 1명을 포함해 2명이서 대회에 참가했고, 대회 시작은 1월부터였지만, 제대로 참여한 건 3월 쯔음부터 시작한 거 같다.     대회 개요 해당 대회는 한솔데코에서 주최한 대회로, NLP(자연어 처리) 기반의 QA (질문-응답) 시스템을 통해 도배하자와 관련된 깊이 있는 질의응답 처리 능력을 갖춘 AI 모델 개발을 목표로 하고 있다. 아래 사이트에서 활용하는 LLM을 개발하고자 하는 것 같았다.소소하자 lab Chat UI Screen마감재 하자 (벽지, 마루, 타일, 시트지!!) 관련해서 뭐든지 물어보세요!sosohajalab.pages.dev   데이터 train데이터와 test 데이터를 살펴보면 train 데이터는 데이터 ..
주어니 머신러닝 엔지니어의 이직기 (4)
·
기타/일상
이번에 적을 내용은 면접과 관련된 내용이고 아마도 이번글이 시리즈의 마지막 글이 될 꺼같다. 올해 안에 다 적을 수 있을지 걱정이 많았는데, 올해 안에 꼭 마무리를 하고 싶어서 연휴를 틈타 열심히 글을 적고 있다.   기술 면접 - 1차  기술 면접은 신입과 경력이 차이가 많이 나는 것 같다. 신입의 경우 이렇다 할 프로젝트를 할 경험이 많지 않기 때문에 아무래도 기초 지식 위주로 많이 물어봤던 거 같고, 경력은 진행했던 프로젝트 위주로 질문을 많이 받았던 거 같다.  요즘은 신입 지원자들도 여러 가지 프로젝트를 많이 하는데, 사실 수박 겉핥기식으로 프로젝트를 진행한 것보다는 기본기를 더 다져가는 게 도움이 될 꺼 같다.  화려한 프로젝트로 이력서를 포장해서 면접을 갔다고 한들 기본적인 내용을 제대로 답..
주니어 머신러닝 엔지니어의 이직기 (3)
·
기타/일상
이번에 작성할 내용은 코딩 테스트, 과제 테스트 등 면접 전 과정에 대한 글이다.구직 활동을 하면서 코딩 테스트는 거의 열에 아홉은 본 거 같고, 과제 테스트는 10번 중 2번 정도 진행한 것 같다.요즘 워낙 코딩테스트 플랫폼이 잘 되어있기 때문에, 기업 입장에서 상황만 좋다면 코딩 테스트 전형을 추가하지 않을 이유가 없다고 생각한다.    코딩 테스트 나는 파이썬으로 코딩 테스트를 준비했다. 코딩 테스트 준비는 몇 년 전부터 계속했었기 때문에 크게 어렵지는 않았다. 처음 코딩테스트를 준비할 때는 백준에서 풀었었다. 그 당시만 해도 프로그래머스에 그렇게 많은 수의 문제가 없었기 때문에 백준을 대체할 만한 국내 사이트는 없었다.  요즘은 백준보다는 프로그래머스를 많이 활용하는데 그 이유는 편하기 때문이다...
ariz1623
코딩의 숲