Inference

·LLM
요즘 챗GPT 같은 대규모 언어 모델(LLM)의 능력을 보면 똑똑하다는 생각이 들다가도, 가끔 답변이 너무 느리게 나와 답답할 때가 많다. LLM, 성능은 좋은데 왜 이렇게 느린 걸까? 이 속도로는 실시간 서비스는 어림도 없겠다는 생각이 든다. 이런 고민을 해결해 줄 기술이 바로 Speculative Decoding이다. 큰 LLM의 성능은 그대로 유지하면서 추론 속도만 빠르게 만드는 방법이다. 심지어 모델을 추가로 학습시킬 필요도 없다. 이번 포스팅에서는 Speculative Decoding이 무엇인지, 어떤 원리로 속도 문제를 해결하는지 찾아본 내용들을 정리해보려 한다. 문제점 1: LLM은 왜 느릴까? - 한 글자 한 글자 생성하는 구조LLM이 텍스트를 생성하는 방식을 보면 그 이유를 알 수 있다...
Joy Shin
'Inference' 태그의 글 목록