본문 바로가기
unity C#

Cloudflare Workers AI 완벽 가이드 2026 - 서버리스 엣지 AI 추론·GLM-4.7-Flash·AI Gateway 실전 배포

by bamsik 2026. 2. 26.
반응형

Cloudflare Workers AI란?

AI를 서비스에 통합하려면 보통 별도의 GPU 서버나 외부 API가 필요합니다. Cloudflare Workers AI는 이 문제를 해결합니다. Cloudflare의 글로벌 엣지 네트워크 위에서 AI 추론을 직접 실행할 수 있어, 서버 없이도 전 세계 어디서나 빠른 AI 응답을 제공할 수 있습니다. 2026년 2월 기준, 최신 업데이트로 AI 에이전트 풀스택 개발이 가능한 플랫폼으로 진화했습니다.

2026년 2월 주요 업데이트

GLM-4.7-Flash 모델 탑재 (2026년 2월 13일)

Cloudflare Workers AI에 GLM-4.7-Flash(모델 ID: @cf/zai-org/glm-4.7-flash)가 추가되었습니다. ZAI.org가 개발한 이 모델의 핵심 스펙:

  • 131,072 토큰 컨텍스트 윈도우 — 장문 문서, 복잡한 추론 작업에 적합
  • 다국어 지원 — 한국어 포함 멀티링구얼 대화 및 콘텐츠 생성
  • 멀티턴 도구 호출(Tool Calling) — AI 에이전트 구축에 필수
  • Vercel AI SDK 완전 호환 — 기존 프로젝트에 빠르게 통합

@cloudflare/tanstack-ai 패키지 출시

TanStack(TanStack Query, Router 등을 만든 팀)과 협력하여 @cloudflare/tanstack-ai 패키지를 공개했습니다. Workers AI와 TanStack AI를 결합해 에지에서 실행되는 AI 에이전트를 더 쉽게 구축할 수 있습니다.

npm install @cloudflare/tanstack-ai

AI 대시보드 경험 개선 (2026년 2월 19일)

Workers AI와 AI Gateway 대시보드가 대폭 개선되었습니다:

  • 빠른 시작 가이드 강화 — 처음 시작하는 개발자도 5분 내 첫 AI 요청 완료
  • AI 워크로드 모니터링 시각화 — 요청 수, 토큰 사용량, 지연시간 한눈에 확인
  • 모델 카탈로그 업데이트 — 새로운 모델 발견과 테스트가 쉬워짐

Workers AI 핵심 구성 요소

Workers AI — 엣지 AI 추론

텍스트 생성, 이미지 분류, 번역, 임베딩 등 다양한 AI 작업을 Cloudflare Workers 함수 안에서 직접 실행합니다. 별도 서버 없이 Cloudflare의 전 세계 300+ 데이터센터에서 AI를 실행합니다.

// Workers AI 기본 사용 예제
export default {
  async fetch(request, env) {
    const response = await env.AI.run('@cf/meta/llama-3.1-8b-instruct', {
      messages: [
        { role: 'user', content: '안녕하세요! 자기소개 해주세요.' }
      ]
    });
    return new Response(JSON.stringify(response));
  }
};

AI Gateway — AI 요청 관리 허브

외부 AI API(OpenAI, Anthropic, Google AI 등)와 Workers AI를 통합 관리하는 프록시 레이어입니다. 주요 기능:

  • 캐싱: 동일 요청 반복 시 비용·지연 절감
  • Rate Limiting: API 남용 방지
  • 로깅 및 모니터링: 모든 AI 요청 추적
  • 폴백(Fallback): 특정 모델 오류 시 자동으로 다른 모델로 전환

Vectorize — 벡터 데이터베이스

AI 임베딩을 저장하고 의미론적 검색을 수행하는 전용 벡터 DB입니다. RAG(Retrieval-Augmented Generation) 구현에 필수적입니다. Workers와 네이티브 통합되어 별도 네트워크 비용 없이 고속 벡터 검색이 가능합니다.

Cloudflare에서 AI 에이전트 풀스택 구축하기

2026년 2월 현재, Cloudflare 플랫폼 하나로 AI 에이전트 전체 스택을 구성할 수 있습니다:

레이어 Cloudflare 서비스 역할
AI 추론 Workers AI + GLM-4.7-Flash 에이전트 두뇌
벡터 검색 Vectorize 장기 기억 (RAG)
상태 저장 Durable Objects / KV 에이전트 상태 관리
DB D1 (서버리스 SQLite) 구조화 데이터
API 관리 AI Gateway 모니터링·캐싱

요금: Workers AI 무료 한도

Workers AI는 무료 티어가 넉넉합니다:

  • Neurons(추론 단위): 매일 10,000 Neurons 무료
  • LLM 텍스트 생성 기준 약 수십만 토큰/일 처리 가능
  • 초과 시 $0.011 per 1,000 Neurons 과금
  • Workers 무료 플랜: 하루 100,000 요청 무료

시작하기: 5분 퀵스타트

  1. Cloudflare 계정 생성 → dash.cloudflare.com
  2. Wrangler CLI 설치: npm install -g wrangler
  3. 새 Workers 프로젝트 생성: wrangler init my-ai-app
  4. wrangler.toml에 AI 바인딩 추가: [ai] binding = "AI"
  5. 코드 작성 후 배포: wrangler deploy

마무리

Cloudflare Workers AI는 서버 관리 없이 전 세계 엣지에서 AI를 실행할 수 있는 가장 빠른 방법입니다. GLM-4.7-Flash의 131K 토큰 컨텍스트와 멀티링구얼 지원, @cloudflare/tanstack-ai의 편리한 통합, AI Gateway의 통합 관리까지 — 2026년 2월 업데이트로 더욱 강력해진 Cloudflare AI 플랫폼을 지금 바로 무료로 시작해보세요.


📎 참고 자료

반응형