llama.cpp 를 활용해 sLLM 테스트 하기

느린 LLM을 위한 해법, Speculative Decoding (1)	2025.05.28

인자	설명	추천 값	이유 및 결정 기준
-ngl N	GPU 레이어 수 (Number of GPU Layers)	99 또는 -1	Qwen3-4B 모델의 레이어 전체를 VRAM (GPU 메모리)에 올려서 실행 속도를 극대화합니다. 99(혹은 -1)는 "가능한 모든 레이어"를 의미합니다. 가장 중요한 성능 인자입니다.
-c N	컨텍스트 크기 (Context Size)	4096	Qwen3-4B 모델이 공식적으로 지원하는 최대 컨텍스트 길이는 32K이지만, 이 값을 설정하면 KV 캐시가 그만큼 커지므로 VRAM/RAM 사용량이 증가합니다. 따라서 기본적으로 4096 정도의 크기로 설정해놓고 시작했습니다.
-t N	CPU 스레드 수 (Number of Threads)	8	모델의 나머지 계산이나 CPU 영역 처리에 사용할 스레드 수입니다. 일반적으로 시스템의 논리 코어 수의 절반이나 전체 수를 설정합니다. (예: 8코어 CPU라면 8 또는 16)
--port N	서버 포트 번호	8080	서버가 리스닝할 포트 번호입니다.

티스토리툴바