·LLM
sLLM을 로컬에서 테스트 해볼 때, 사용해볼 수 있는 도구들이 꽤 다양하단 걸 이번 기회에 알게 되었다. (ollama, llama-cpp, lm studio,...)기존에 ollama를 사용해 embedding model을 사용했던터라, 기존에 설치 되어있던 ollama를 그대로 이번 테스트에 사용해보려고 했는데, 처리 속도가 생각보다 너무 느렸기에 대안이 필요했다!STT로 전사된 텍스트를 LLM을 사용해 후처리로 실시간 수정하는 것을 목표로 , 어느 sLLM 모델을 사용해야할지 찾아보는 테스트였기 때문에, 추론 비용(속도, 메모리 사용량 등)이 중요한 이슈였다.ollama가 llama.cpp를 래핑한 도구이기에 같은 모델을 로컬에서 돌리더라도, llama.cpp는 ollama보다 추론이 훨씬 빠르다..