본문 바로가기
ai

[AI] Ollama로 로컬 LLM 실행하기

by bamsik 2026. 2. 3.
반응형

server computer technology

 


Ollama로 로컬 LLM 실행하기 - 내 컴퓨터에서 ChatGPT급 AI 돌리기

요약: Ollama를 사용해 Llama, Mistral 등 오픈소스 LLM을 로컬에서 무료로 실행하는 방법입니다.


1. Ollama란?

Ollama는 오픈소스 LLM을 쉽게 로컬에서 실행할 수 있게 해주는 도구입니다. Docker처럼 간단한 명령어로 AI 모델을 다운로드하고 실행할 수 있습니다.

장점:

  • 완전 무료
  • 인터넷 없이 오프라인 사용
  • 데이터 프라이버시 보장
  • API 호출 비용 없음
  • 다양한 모델 선택 가능

2. 설치하기

macOS:

brew install ollama

Windows:

  1. ollama.com/download 에서 설치파일 다운로드
  2. 설치 후 자동 실행

Linux:

curl -fsSL https://ollama.com/install.sh | sh

3. 모델 다운로드 및 실행

기본 명령어:

# 모델 다운로드 및 실행
ollama run llama3.2

# 모델만 다운로드
ollama pull llama3.2

# 설치된 모델 목록
ollama list

# 모델 삭제
ollama rm llama3.2

인기 모델:

  • llama3.2 (3B): 가벼움, 일반 대화용 (2GB)
  • llama3.1 (8B): 균형잡힌 성능 (4.7GB)
  • mistral (7B): 빠르고 똑똑함 (4.1GB)
  • codellama (7B): 코딩 특화 (3.8GB)
  • llama3.1 (70B): 최고 성능 (40GB, 고사양 필요)

4. 대화하기

터미널에서:

ollama run llama3.2

>>> 안녕? 넌 누구야?
저는 Llama입니다. 무엇을 도와드릴까요?

>>> 파이썬으로 피보나치 함수 만들어줘
def fibonacci(n):
    if n <= 1:
        return n
    return fibonacci(n-1) + fibonacci(n-2)

>>> /bye  # 종료

5. API 서버로 사용하기

서버 실행 (자동 실행됨):

ollama serve

API 호출 (curl):

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "왜 하늘은 파란색이야?",
  "stream": false
}'

Python에서 사용:

import requests

response = requests.post('http://localhost:11434/api/generate', 
    json={
        "model": "llama3.2",
        "prompt": "인공지능이란?",
        "stream": False
    }
)
print(response.json()['response'])

6. Open WebUI 연동

ChatGPT 같은 웹 인터페이스를 사용할 수 있습니다:

# Docker로 Open WebUI 설치
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

# http://localhost:3000 접속

7. 커스텀 모델 만들기

Modelfile 작성:

FROM llama3.2
SYSTEM "너는 친절한 한국어 비서야. 항상 존댓말을 사용해."
PARAMETER temperature 0.7

모델 생성:

ollama create my-assistant -f Modelfile
ollama run my-assistant

8. 성능 최적화

GPU 가속:

  • NVIDIA: 자동 감지 (CUDA 필요)
  • Apple Silicon: 자동 Metal 가속
  • AMD: ROCm 지원

메모리 부족 시:

  • 더 작은 모델 사용 (3B, 7B)
  • quantized 버전 사용 (q4_0, q4_1)

9. 실제 활용 사례

  • 로컬 챗봇 구축
  • 문서 요약/분석
  • 코드 리뷰
  • 번역
  • 글쓰기 도우미

마무리

Ollama로 API 비용 걱정 없이 AI를 활용해보세요. 작은 모델도 생각보다 똑똑합니다!

관련 키워드: Ollama, 로컬 LLM, Llama, 오픈소스 AI

반응형