LLM은 진짜 100K 토큰을 전부 다 볼까?
·
AI/LLM
들어가며최근 공개되는 오픈소스 언어모델들의 스펙 시트를 살펴보면, 입력 토큰의 최대 길이가 128k에서 256k에 달하는 경우를 흔히 목격하게 됩니다. 하지만 30B 이하의 매개변수를 가진 경량 모델들이 과연 해당 길이에서 유의미한 정보 처리 능력을 갖추고 있는지에 대해서는 늘 의구심이 뒤따랐습니다. 특히 한국어 환경에서의 실효성은 검증된 바가 적기에, 개인적인 궁금증을 해소하고자 시중의 모델들을 대상으로 직접 실험을 수행하였습니다. 테스트 설계 및 대상테스트는 아래 github repo를 참고하였으며, 데이터셋은 한국어로 새로 생성하였고, 코드 일부를 수정하여 테스트를 진행하였습니다. LLMTest_NeedleInAHaystack GitHub - gkamradt/LLMTest_NeedleInA..