본문 바로가기
tip

Copilot CLI에 내 모델 연결하거나 로컬 모델 쓸 수 있게 됐다

by bamsik 2026. 4. 8.
반응형

Copilot CLI에 내 모델 연결하거나 로컬 모델 쓸 수 있게 됐다

GitHub Copilot CLI를 쓰다 보면 가끔 불편한 게 있었다. 모델은 무조건 GitHub이 라우팅해주는 걸 써야 했고, 사내 보안 정책 때문에 코드를 외부로 못 보내는 팀은 쓰기가 어려웠다. 그게 이번에 바뀌었다.

4월 GitHub Changelog에서 Copilot CLI BYOK(Bring Your Own Key)와 로컬 모델 지원이 추가됐다. 자기 OpenAI API 키를 쓰거나, 아예 Ollama 같은 걸로 로컬에서 돌리는 모델을 연결할 수 있게 된 거다.

실제로 어떻게 쓰나

설정 방식은 비교적 단순하다. ~/.config/github-copilot/settings.json 같은 파일에서 모델 provider를 지정하는 방식이다. OpenAI compatible API면 대부분 붙는다.

{
  "modelProvider": "local",
  "modelEndpoint": "http://localhost:11434/v1",
  "modelName": "qwen2.5-coder:7b"
}

이런 식으로 설정하면 터미널에서 gh copilot suggestgh copilot explain 할 때 로컬 모델이 응답하는 구조다.

써보고 느낀 점

직접 Ollama + Qwen2.5 Coder 7B로 연결해봤는데, 응답 품질은 당연히 GitHub 기본 모델보다 떨어진다. 간단한 명령 설명이나 쉘 스크립트 제안은 충분한데, 복잡한 리팩토링 설명 같은 건 좀 약하다.

근데 목적에 따라 선택지가 생겼다는 게 의미 있다. 인터넷 안 되는 환경, 보안 이슈, 비용 절감 목적으로는 충분히 쓸 만하다.

언제 쓰면 좋을까

솔직히 일반적인 개인 개발자한테는 기본 설정이 더 편하다. 모델 품질이 좋고 설정도 없으니까. BYOK나 로컬 모델이 의미 있는 케이스는 이런 상황이다.

보안 정책이 엄격해서 코드를 외부 서버로 보낼 수 없는 팀, OpenAI API를 이미 구독하고 있어서 GitHub 별도 비용이 부담인 경우, 특정 fine-tuned 모델을 Copilot 인터페이스로 쓰고 싶은 경우. 이런 케이스에선 실질적인 선택지가 생긴 거다.

한 가지 주의할 점

로컬 모델은 속도가 느릴 수 있다. 터미널에서 gh copilot suggest하고 20초 기다리면 그냥 직접 치는 게 낫다. 충분한 스펙의 머신이거나 GPU 가속이 되는 환경이 아니면 답답할 수 있다.


📎 참고 자료

반응형