본문 바로가기
ai

Ollama 완벽 가이드 2026 — 로컬 AI 모델 무료 실행·OpenAI 호환 API·RAG 완전 정복

by bamsik 2026. 3. 8.
반응형

Ollama란? — 로컬에서 AI를 실행하는 가장 쉬운 방법

Ollama는 LLaMA, Mistral, Gemma, Qwen, DeepSeek 같은 오픈소스 대형 언어 모델(LLM)을 인터넷 연결 없이 내 컴퓨터에서 무료로 실행할 수 있게 해주는 오픈소스 도구입니다. 2026년 현재 로컬 AI 생태계의 사실상 표준(de facto standard)으로 자리잡았습니다.

ChatGPT나 Claude를 사용하면 데이터가 서버로 전송됩니다. 반면 Ollama는 모든 처리가 내 기기 안에서만 이루어집니다. 민감한 기업 문서, 개인 정보, 코드 등을 안심하고 AI와 함께 다룰 수 있습니다.

Ollama 2026 — 무엇이 달라졌나?

OpenAI Codex CLI와의 통합 (2026년 1월)

OpenAI가 Codex CLI를 오픈소스로 공개하면서 Ollama와의 통합을 공식 지원했습니다. 이제 gpt-oss:20b, gpt-oss:120b 같은 오픈 모델로 로컬에서 Codex 워크플로우를 실행할 수 있습니다.

지원 모델 대폭 확대

2026년 3월 기준, Ollama 라이브러리에는 500개 이상의 모델이 등록되어 있습니다. 주요 모델로는 Llama 3.3 (70B), DeepSeek-R2, Qwen 3, Gemma 3, Phi-4 등이 있습니다.

Ollama 설치 방법 — macOS, Windows, Linux 완벽 가이드

macOS / Windows 설치

# macOS (Homebrew)
brew install ollama

# macOS / Windows: 공식 설치 프로그램
# https://ollama.com/download 에서 다운로드

설치 후 백그라운드 서비스가 자동으로 시작됩니다. (http://localhost:11434 에서 API 서버 실행)

Linux 설치

curl -fsSL https://ollama.com/install.sh | sh

스크립트 하나로 설치 완료. NVIDIA, AMD GPU 자동 감지 및 가속화를 지원합니다.

첫 번째 AI 모델 실행하기

모델 다운로드 & 실행

# Llama 3.2 (3B, 경량형, 2GB)
ollama run llama3.2

# DeepSeek-R2 추론 모델 (7B, 4.7GB)
ollama run deepseek-r2:7b

# Gemma 3 (12B, 8.1GB)
ollama run gemma3:12b

# Qwen 2.5 코딩 특화 (7B)
ollama run qwen2.5-coder:7b

처음 실행 시 모델을 자동 다운로드하고, 이후에는 로컬에서 즉시 실행됩니다.

대화 예시

$ ollama run llama3.2
>>> 파이썬으로 피보나치 수열을 출력하는 함수를 작성해줘

def fibonacci(n):
    if n <= 1:
        return n
    a, b = 0, 1
    for _ in range(2, n + 1):
        a, b = b, a + b
    return b
...

Ollama 모델 관리 명령어 완전 정리

명령어 설명
ollama list 설치된 모델 목록 확인
ollama pull llama3.2 모델 다운로드 (실행 없이)
ollama run llama3.2 모델 실행 (없으면 자동 다운로드)
ollama rm llama3.2 모델 삭제
ollama show llama3.2 모델 상세 정보 확인
ollama ps 현재 실행 중인 모델 확인
ollama serve API 서버 수동 시작

REST API로 앱에 통합하기

Ollama는 localhost:11434에서 OpenAI 호환 REST API를 제공합니다. 기존 OpenAI SDK 코드를 거의 수정 없이 사용할 수 있습니다.

Python으로 Ollama API 호출

from ollama import Client

client = Client()

response = client.chat(
    model='llama3.2',
    messages=[
        {'role': 'user', 'content': '머신러닝과 딥러닝의 차이를 설명해줘'}
    ]
)

print(response['message']['content'])

OpenAI SDK 호환 모드 (기존 코드 재활용)

from openai import OpenAI

client = OpenAI(
    base_url='http://localhost:11434/v1',
    api_key='ollama',  # 아무 값이나 사용 가능
)

response = client.chat.completions.create(
    model='qwen2.5-coder:7b',
    messages=[{'role': 'user', 'content': 'React 컴포넌트 예시 작성'}]
)
print(response.choices[0].message.content)

2026년 추천 모델 선택 가이드

용도별 추천 모델

용도 추천 모델 크기 최소 RAM
일반 대화 (경량) llama3.2:3b 2.0 GB 8 GB
일반 대화 (고성능) llama3.3:70b 43 GB 64 GB
코딩 특화 qwen2.5-coder:7b 4.7 GB 16 GB
추론/수학 deepseek-r2:7b 4.7 GB 16 GB
멀티모달(이미지) llava:13b 8.0 GB 16 GB
임베딩 생성 nomic-embed-text 274 MB 8 GB

Open WebUI — ChatGPT 같은 웹 인터페이스 연결

CLI 대신 ChatGPT처럼 웹 브라우저에서 Ollama를 사용하고 싶다면 Open WebUI를 설치하세요.

# Docker로 Open WebUI 설치 (Ollama 자동 연결)
docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

설치 후 http://localhost:3000에 접속하면 ChatGPT와 동일한 인터페이스로 로컬 AI를 사용할 수 있습니다. 대화 기록 저장, 파일 업로드, RAG(문서 기반 Q&A) 기능까지 포함되어 있습니다.

로컬 RAG(Retrieval-Augmented Generation) 구축하기

자체 문서를 학습시켜 사내 AI 어시스턴트를 만들 수 있습니다.

# 필요 패키지
pip install ollama langchain-community chromadb

# 기본 RAG 파이프라인
from langchain_community.llms import Ollama
from langchain_community.embeddings import OllamaEmbeddings
from langchain.vectorstores import Chroma

# 임베딩 모델로 문서 벡터화
embeddings = OllamaEmbeddings(model="nomic-embed-text")
vectorstore = Chroma.from_documents(docs, embeddings)

# 로컬 LLM으로 질답
llm = Ollama(model="llama3.2")
retriever = vectorstore.as_retriever()

마치며 — 로컬 AI 시대의 핵심 도구

Ollama는 2026년 AI 개발 환경의 필수 도구가 되었습니다. 개인 정보 보호, 비용 절감, 오프라인 동작이라는 세 가지 장점이 클라우드 AI의 한계를 보완합니다. Mac의 Apple Silicon부터 Windows PC, Linux 서버까지 어디서든 강력한 AI를 내 손에 쥘 수 있습니다.

처음 시작한다면 ollama run llama3.2 한 줄로 지금 바로 로컬 AI를 경험해보세요.


📎 참고 자료

반응형