
Ollama란? — 로컬에서 AI를 실행하는 가장 쉬운 방법
Ollama는 LLaMA, Mistral, Gemma, Qwen, DeepSeek 같은 오픈소스 대형 언어 모델(LLM)을 인터넷 연결 없이 내 컴퓨터에서 무료로 실행할 수 있게 해주는 오픈소스 도구입니다. 2026년 현재 로컬 AI 생태계의 사실상 표준(de facto standard)으로 자리잡았습니다.
ChatGPT나 Claude를 사용하면 데이터가 서버로 전송됩니다. 반면 Ollama는 모든 처리가 내 기기 안에서만 이루어집니다. 민감한 기업 문서, 개인 정보, 코드 등을 안심하고 AI와 함께 다룰 수 있습니다.

Ollama 2026 — 무엇이 달라졌나?

OpenAI Codex CLI와의 통합 (2026년 1월)
OpenAI가 Codex CLI를 오픈소스로 공개하면서 Ollama와의 통합을 공식 지원했습니다. 이제 gpt-oss:20b, gpt-oss:120b 같은 오픈 모델로 로컬에서 Codex 워크플로우를 실행할 수 있습니다.

지원 모델 대폭 확대
2026년 3월 기준, Ollama 라이브러리에는 500개 이상의 모델이 등록되어 있습니다. 주요 모델로는 Llama 3.3 (70B), DeepSeek-R2, Qwen 3, Gemma 3, Phi-4 등이 있습니다.
Ollama 설치 방법 — macOS, Windows, Linux 완벽 가이드
macOS / Windows 설치
# macOS (Homebrew)
brew install ollama
# macOS / Windows: 공식 설치 프로그램
# https://ollama.com/download 에서 다운로드
설치 후 백그라운드 서비스가 자동으로 시작됩니다. (http://localhost:11434 에서 API 서버 실행)
Linux 설치
curl -fsSL https://ollama.com/install.sh | sh
스크립트 하나로 설치 완료. NVIDIA, AMD GPU 자동 감지 및 가속화를 지원합니다.
첫 번째 AI 모델 실행하기
모델 다운로드 & 실행
# Llama 3.2 (3B, 경량형, 2GB)
ollama run llama3.2
# DeepSeek-R2 추론 모델 (7B, 4.7GB)
ollama run deepseek-r2:7b
# Gemma 3 (12B, 8.1GB)
ollama run gemma3:12b
# Qwen 2.5 코딩 특화 (7B)
ollama run qwen2.5-coder:7b
처음 실행 시 모델을 자동 다운로드하고, 이후에는 로컬에서 즉시 실행됩니다.
대화 예시
$ ollama run llama3.2
>>> 파이썬으로 피보나치 수열을 출력하는 함수를 작성해줘
def fibonacci(n):
if n <= 1:
return n
a, b = 0, 1
for _ in range(2, n + 1):
a, b = b, a + b
return b
...
Ollama 모델 관리 명령어 완전 정리
| 명령어 | 설명 |
|---|---|
ollama list |
설치된 모델 목록 확인 |
ollama pull llama3.2 |
모델 다운로드 (실행 없이) |
ollama run llama3.2 |
모델 실행 (없으면 자동 다운로드) |
ollama rm llama3.2 |
모델 삭제 |
ollama show llama3.2 |
모델 상세 정보 확인 |
ollama ps |
현재 실행 중인 모델 확인 |
ollama serve |
API 서버 수동 시작 |
REST API로 앱에 통합하기
Ollama는 localhost:11434에서 OpenAI 호환 REST API를 제공합니다. 기존 OpenAI SDK 코드를 거의 수정 없이 사용할 수 있습니다.
Python으로 Ollama API 호출
from ollama import Client
client = Client()
response = client.chat(
model='llama3.2',
messages=[
{'role': 'user', 'content': '머신러닝과 딥러닝의 차이를 설명해줘'}
]
)
print(response['message']['content'])
OpenAI SDK 호환 모드 (기존 코드 재활용)
from openai import OpenAI
client = OpenAI(
base_url='http://localhost:11434/v1',
api_key='ollama', # 아무 값이나 사용 가능
)
response = client.chat.completions.create(
model='qwen2.5-coder:7b',
messages=[{'role': 'user', 'content': 'React 컴포넌트 예시 작성'}]
)
print(response.choices[0].message.content)
2026년 추천 모델 선택 가이드
용도별 추천 모델
| 용도 | 추천 모델 | 크기 | 최소 RAM |
|---|---|---|---|
| 일반 대화 (경량) | llama3.2:3b | 2.0 GB | 8 GB |
| 일반 대화 (고성능) | llama3.3:70b | 43 GB | 64 GB |
| 코딩 특화 | qwen2.5-coder:7b | 4.7 GB | 16 GB |
| 추론/수학 | deepseek-r2:7b | 4.7 GB | 16 GB |
| 멀티모달(이미지) | llava:13b | 8.0 GB | 16 GB |
| 임베딩 생성 | nomic-embed-text | 274 MB | 8 GB |
Open WebUI — ChatGPT 같은 웹 인터페이스 연결
CLI 대신 ChatGPT처럼 웹 브라우저에서 Ollama를 사용하고 싶다면 Open WebUI를 설치하세요.
# Docker로 Open WebUI 설치 (Ollama 자동 연결)
docker run -d \
-p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
설치 후 http://localhost:3000에 접속하면 ChatGPT와 동일한 인터페이스로 로컬 AI를 사용할 수 있습니다. 대화 기록 저장, 파일 업로드, RAG(문서 기반 Q&A) 기능까지 포함되어 있습니다.
로컬 RAG(Retrieval-Augmented Generation) 구축하기
자체 문서를 학습시켜 사내 AI 어시스턴트를 만들 수 있습니다.
# 필요 패키지
pip install ollama langchain-community chromadb
# 기본 RAG 파이프라인
from langchain_community.llms import Ollama
from langchain_community.embeddings import OllamaEmbeddings
from langchain.vectorstores import Chroma
# 임베딩 모델로 문서 벡터화
embeddings = OllamaEmbeddings(model="nomic-embed-text")
vectorstore = Chroma.from_documents(docs, embeddings)
# 로컬 LLM으로 질답
llm = Ollama(model="llama3.2")
retriever = vectorstore.as_retriever()
마치며 — 로컬 AI 시대의 핵심 도구
Ollama는 2026년 AI 개발 환경의 필수 도구가 되었습니다. 개인 정보 보호, 비용 절감, 오프라인 동작이라는 세 가지 장점이 클라우드 AI의 한계를 보완합니다. Mac의 Apple Silicon부터 Windows PC, Linux 서버까지 어디서든 강력한 AI를 내 손에 쥘 수 있습니다.
처음 시작한다면 ollama run llama3.2 한 줄로 지금 바로 로컬 AI를 경험해보세요.
📎 참고 자료
'ai' 카테고리의 다른 글
| OlmoHybrid 완벽 가이드 2026 — Ai2 하이브리드 LLM으로 데이터 효율 2배·트랜스포머+RNN 결합 완전 정복 (0) | 2026.03.09 |
|---|---|
| VFX 실전 팁 2026 — 크리에이터가 반드시 알아야 할 AI 핵심 도구 5가지 (0) | 2026.03.08 |
| Cursor Automations 완벽 가이드 2026 — 트리거 기반 자동 에이전트·Bugbot·PagerDuty로 코딩 완전 자동화 (0) | 2026.03.08 |
| GPT-5.4 완벽 가이드 2026 — 추론·코딩·에이전트 통합 OpenAI 플래그십 모델 완전 정복 (0) | 2026.03.08 |
| GitHub Copilot Agent HQ 완벽 가이드 2026 — Claude·Codex 멀티에이전트로 코딩 자동화 완전 정복 (0) | 2026.03.08 |