솔직히 "마이크로소프트 AI"라고 하면 그냥 Copilot이 전부인 줄 알았다.
ChatGPT 쓰다가 API 비용이 부담스러워서 Azure도 한번 살펴봤는데, 그때만 해도 "결국 OpenAI 모델 빌려다 쓰는 거잖아" 싶어서 그냥 넘겼거든. 근데 최근에 마이크로소프트가 자체 AI 모델을 세 개나 한꺼번에 공개했다는 소식 보고 다시 들여다봤더니, 생각보다 꽤 실용적인 부분이 있었다.

뭐가 나왔냐면
마이크로소프트 자체 AI 연구팀(MAI)이 만든 세 가지 모델이다.
- MAI-Transcribe-1 — 음성 인식. 25개 언어 지원, 기존 Azure Fast 대비 2.5배 빠름
- MAI-Voice-1 — 음성 합성. 60초 분량 오디오를 1초 안에 생성, 커스텀 보이스 지원
- MAI-Image-2 — 이미지 생성. DALL-E 같은 포지션
셋 다 Azure AI Foundry(옛날에 Azure AI Studio였던 곳)에서 API로 쓸 수 있다. 요금은 OpenAI 대비 저렴하다고 강조하고 있고.

실무에서 어디에 쓸 수 있을까
이미지 생성은 솔직히 경쟁이 워낙 치열해서 제쳐두고, 음성 쪽이 더 눈에 들어왔다.
자막/회의록 자동화에 MAI-Transcribe-1
회사에서 회의 녹음을 텍스트로 변환하거나, 유튜브 영상에 자막 달 때 Whisper 쓰는 경우 많잖아. 근데 Whisper API는 파일 크기 25MB 제한에 긴 영상은 잘라야 하는 번거로움이 있다. MAI-Transcribe-1이 Whisper-large-v3 대비 25개 언어 전부에서 더 낫다고 벤치마크에서 나왔는데 — 물론 마이크로소프트 자체 측정이라 반쯤만 믿어야 하지만 — 한국어 포함이면 한번 테스트해볼 만하다.
Azure AI Foundry 들어가면 이런 식으로 API 호출할 수 있다:
POST https://your-resource.cognitiveservices.azure.com/openai/deployments/mai-transcribe-1/audio/transcriptions
Authorization: Bearer {API_KEY}
Content-Type: multipart/form-data
file: 녹음파일.mp3
language: ko
실제 요금은 분당 계산이고 Azure 포탈에서 계정 만들면 한 달 무료 크레딧도 준다.
콘텐츠 내레이션에 MAI-Voice-1
커스텀 보이스 기능이 흥미로웠다. 짧은 샘플 오디오를 올리면 그 목소리로 텍스트를 읽어주는 방식인데, 유튜브 숏츠나 사내 영상 제작할 때 매번 녹음 안 해도 된다. 60초를 1초에 생성한다는 속도는 실시간 응용(예: 챗봇이 텍스트 응답을 음성으로 바꿔주는 것)에도 쓸 수 있는 수준이다.

그래서 OpenAI 대신 써야 하나?
개인이 ChatGPT 쓰는 거라면 굳이 바꿀 이유는 없다. 근데 기업에서 API로 직접 붙여 쓰는 상황이라면 좀 다르다.
Azure는 이미 기업들이 많이 쓰는 인프라고, 거기에 음성/이미지 모델이 추가됐으니 별도로 OpenAI, ElevenLabs 계약 없이 Azure 하나로 묶을 수 있다는 게 실제 메리트다. 특히 데이터 보안이 중요한 산업군(금융, 의료)은 Azure의 컴플라이언스 체계가 이미 잡혀있으니 모델만 갈아끼우는 개념으로 쓸 수 있다.
아쉬운 점도 있다. 아직 한국어 특화 테스트 결과가 부족하고, MAI-Image-2는 Midjourney나 Flux 수준인지 직접 비교 자료가 없다. 일단 베타 느낌이 강한 건 사실이다.

써보려면 어디서 시작하나
- ai.azure.com 접속 → 무료 계정 생성
- 프로젝트 만들기 → 모델 카탈로그에서 "MAI" 검색
- Deploy 클릭 → API 엔드포인트 자동 생성됨
- Playground에서 먼저 테스트한 다음 코드에 붙이면 됨
처음엔 나도 Azure 설정이 복잡할 것 같아서 미뤘는데, AI Foundry는 생각보다 UI가 많이 개선됐다. OpenAI Playground랑 크게 다르지 않았다.
음성 쪽 API가 필요한 프로젝트 있으면 한번 비교해보는 게 나쁘지 않을 것 같다.
📎 참고 자료
'AI.IT' 카테고리의 다른 글
| Openai, 써보고 나서 생각이 바뀌었다 (0) | 2026.04.05 |
|---|---|
| Llama 4 나왔는데, 오픈소스 AI가 GPT-5.4랑 싸워도 된다고? (0) | 2026.04.05 |
| AI 에이전트, 실제로 어디까지 쓸 수 있나 (0) | 2026.04.04 |
| Gemma 4 써봤는데, 오픈소스 AI가 이 정도까지 올라왔다 (0) | 2026.04.04 |
| Microsoft가 자체 AI 모델 3종을 냈다, OpenAI 있는데 왜? (0) | 2026.04.04 |