*본 글은 인공지능으로 작성하지 않았습니다.
sLLM 이 지속적으로 출시되고 있습니다. GPT를 쓰다보면 생기는 생각은, 비용이 조금만 더 싸면 좋을 텐데.. 라는 부분입니다.
무료로 LLM 을 쓸 수 있는 방법이 있을까? 는 국내외적으로도 계속 연구되고 있는 부분인 것 같고, 현재로서는 ollama 와 OpenWebUI를 사용한 방법이 그나마 LLM을 로컬에서 사용하는 현실적인 방법인 것 같습니다.
제 환경은 윈도우, 16GB RAM 입니다. (*그래픽카드 없는 노트북)
1. ollama 설치
https://ollama.com/download/windows
ollama 를 설치하고, 모델을 다운로드, 설치합니다. (Windows Desktop 버전의 ollama 는 exe 파일로 설치 가능합니다.)
이후 cmd(명령 프롬프트)에서 원하는 모델을 설치합니다.
ollama run '원하는 모델명:파라미터, 예: llama3.2:1b'
ollama 에서 설치 가능한 모델 목록은 https://ollama.com/library 에서 확인하실 수 있습니다.
추가적으로, qwen2.5:0.5b 는 GPT 4o 구동 속도보다 빠릅니다. (응답만 빠를 뿐입니다)
2. openWebUI 설치
https://github.com/open-webui/open-webui
openWebUI 를 설치합니다. (24.10 기준 Python 11 을 미리 설치하세요.)
pip install open-webui
pip 로 설치가 완료되면, cmd(명령 프롬프트)에서 serve 로 open-webui 를 실행합니다. (*ollama Desktop 이 계속 실행중인지 확인하세요.)
open-webui serve
3. openWebUI 로컬 웹페이지에서 LLM 모델 선택, 실행 테스트하기
openWebUI 를 터미널에서 실행하면, http://localhost:8080/ 로 웹사이트를 접속할 수 있습니다.
회원가입을 진행한 후, 로그인합니다. (*온라인이 아닌 로컬에만 회원가입하는 형태입니다)
모델을 선택할 때, 좌측 상단 Select a model 에서 모델을 고를 수 있습니다.
4. 결론 및 추후 개선 필요사항
- 첨부한 파일을 읽고 요약하는 기초적인 기능을 제대로 수행하지 못합니다. 파일 첨부 기능의 api 가 문제가 있는 것인지, 모델 성능 자체가 낮기 때문인지 확실하지 않습니다.
- 파라미터가 작은 sLLM 들은 GPT 4o 혹은 GPT 3.5 와 같은 수준의 기능을 작동하지 못합니다. 이 부분은 프롬프트의 구체화로 해결할 수 있을 것 같으나, 연구가 필요합니다.
- sLLM 에 파인튜닝 시 성능 향상을 일으킬 수 있는지 확인이 필요합니다.
- llama3.* 및 qwen2.* 모델들은 한국어로 실행할 시 정상적으로 명령에 대한 답변을 하지 못합니다. 이 이유는 주된 학습 데이터 언어가 영어 및 중국어이기 때문으로 보입니다.