본문 바로가기
AI.IT

마이크로소프트 AI 모델 써봤더니, OpenAI랑 이런 게 달랐다

by bamsik 2026. 4. 4.
반응형

솔직히 "마이크로소프트 AI"라고 하면 그냥 Copilot이 전부인 줄 알았다.

ChatGPT 쓰다가 API 비용이 부담스러워서 Azure도 한번 살펴봤는데, 그때만 해도 "결국 OpenAI 모델 빌려다 쓰는 거잖아" 싶어서 그냥 넘겼거든. 근데 최근에 마이크로소프트가 자체 AI 모델을 세 개나 한꺼번에 공개했다는 소식 보고 다시 들여다봤더니, 생각보다 꽤 실용적인 부분이 있었다.

뭐가 나왔냐면

마이크로소프트 자체 AI 연구팀(MAI)이 만든 세 가지 모델이다.

  • MAI-Transcribe-1 — 음성 인식. 25개 언어 지원, 기존 Azure Fast 대비 2.5배 빠름
  • MAI-Voice-1 — 음성 합성. 60초 분량 오디오를 1초 안에 생성, 커스텀 보이스 지원
  • MAI-Image-2 — 이미지 생성. DALL-E 같은 포지션

셋 다 Azure AI Foundry(옛날에 Azure AI Studio였던 곳)에서 API로 쓸 수 있다. 요금은 OpenAI 대비 저렴하다고 강조하고 있고.

실무에서 어디에 쓸 수 있을까

이미지 생성은 솔직히 경쟁이 워낙 치열해서 제쳐두고, 음성 쪽이 더 눈에 들어왔다.

자막/회의록 자동화에 MAI-Transcribe-1

회사에서 회의 녹음을 텍스트로 변환하거나, 유튜브 영상에 자막 달 때 Whisper 쓰는 경우 많잖아. 근데 Whisper API는 파일 크기 25MB 제한에 긴 영상은 잘라야 하는 번거로움이 있다. MAI-Transcribe-1이 Whisper-large-v3 대비 25개 언어 전부에서 더 낫다고 벤치마크에서 나왔는데 — 물론 마이크로소프트 자체 측정이라 반쯤만 믿어야 하지만 — 한국어 포함이면 한번 테스트해볼 만하다.

Azure AI Foundry 들어가면 이런 식으로 API 호출할 수 있다:

POST https://your-resource.cognitiveservices.azure.com/openai/deployments/mai-transcribe-1/audio/transcriptions
Authorization: Bearer {API_KEY}
Content-Type: multipart/form-data

file: 녹음파일.mp3
language: ko

실제 요금은 분당 계산이고 Azure 포탈에서 계정 만들면 한 달 무료 크레딧도 준다.

콘텐츠 내레이션에 MAI-Voice-1

커스텀 보이스 기능이 흥미로웠다. 짧은 샘플 오디오를 올리면 그 목소리로 텍스트를 읽어주는 방식인데, 유튜브 숏츠나 사내 영상 제작할 때 매번 녹음 안 해도 된다. 60초를 1초에 생성한다는 속도는 실시간 응용(예: 챗봇이 텍스트 응답을 음성으로 바꿔주는 것)에도 쓸 수 있는 수준이다.

그래서 OpenAI 대신 써야 하나?

개인이 ChatGPT 쓰는 거라면 굳이 바꿀 이유는 없다. 근데 기업에서 API로 직접 붙여 쓰는 상황이라면 좀 다르다.

Azure는 이미 기업들이 많이 쓰는 인프라고, 거기에 음성/이미지 모델이 추가됐으니 별도로 OpenAI, ElevenLabs 계약 없이 Azure 하나로 묶을 수 있다는 게 실제 메리트다. 특히 데이터 보안이 중요한 산업군(금융, 의료)은 Azure의 컴플라이언스 체계가 이미 잡혀있으니 모델만 갈아끼우는 개념으로 쓸 수 있다.

아쉬운 점도 있다. 아직 한국어 특화 테스트 결과가 부족하고, MAI-Image-2는 Midjourney나 Flux 수준인지 직접 비교 자료가 없다. 일단 베타 느낌이 강한 건 사실이다.

써보려면 어디서 시작하나

  1. ai.azure.com 접속 → 무료 계정 생성
  2. 프로젝트 만들기 → 모델 카탈로그에서 "MAI" 검색
  3. Deploy 클릭 → API 엔드포인트 자동 생성됨
  4. Playground에서 먼저 테스트한 다음 코드에 붙이면 됨

처음엔 나도 Azure 설정이 복잡할 것 같아서 미뤘는데, AI Foundry는 생각보다 UI가 많이 개선됐다. OpenAI Playground랑 크게 다르지 않았다.

음성 쪽 API가 필요한 프로젝트 있으면 한번 비교해보는 게 나쁘지 않을 것 같다.


📎 참고 자료

반응형