
AI 제로데이 해킹 코드, 실전에서 처음으로 포착됐다
"AI가 해킹에 쓰일 수 있다"는 가설이 마침내 증거로 확인된 날. 코드 주석에 박혀 있던 세 가지 흔적이 LLM의 손길을 그대로 드러냈다.
처음엔 그냥 소문인 줄 알았다
AI가 해킹에 쓰일 수 있다는 얘기는 몇 년 전부터 나왔다. 그런데 막상 "실제로 일어났다"는 건 확인된 적이 없었다. 그래서 2026년 5월 11일 구글 GTIG(Threat Intelligence Group)의 보고서[1]가 나왔을 때 충격이었다. AI가 만든 제로데이 익스플로잇이 처음으로 실전 공격에 쓰인 것이 확인됐다는 내용이었다.
제로데이(Zero-day)는 소프트웨어에 아직 아무도 모르는 취약점이 존재할 때 그것을 악용하는 공격이다. 피해자 입장에서는 "0일의 대응 시간"밖에 없다고 해서 제로데이라 부른다. 방어 자체가 불가능한 상태에서 당하는 공격인 셈이다.
"AI 무기화는 가설이 아니라 운영 단계로 넘어갔다. 우리가 잡은 건 빙산의 일각이다."
AI가 해킹 코드를 직접 짰다는 증거
구글 연구팀이 이 코드를 AI 작성이라고 확신한 이유는 코드 자체에 흔적이 남아 있었기 때문이다.
문제의 코드는 Python으로 작성된 익스플로잇으로, 오픈소스 웹 관리 도구의 2단계 인증(2FA)을 우회하는 기능을 담고 있었다. GTIG가 보고서에서 지목한 AI 흔적은 다음 세 가지다[1].
기술적으로도 흥미로운 부분이 있다. 이 취약점은 메모리 오염이나 단순 입력 검증 실패 같은 종류가 아니라, 개발자가 인증 로직에 "신뢰 가정"을 하드코딩한 논리적 결함이었다. AI가 코드의 맥락을 읽고 2FA 강제 로직과 하드코딩된 예외 사이의 모순을 찾아낸 것이다. 이런 류의 고수준 논리 오류는 전통적인 정적 스캐너로는 잡기 어렵고, AI의 문맥 추론 능력이 특히 강하게 작용하는 영역이다.
범인은 누구이고, 규모는 어땠나
구글은 피해 도구 이름과 해킹 그룹 이름을 공개하지 않았다. 다만 GTIG는 해당 그룹이 "대규모 대량 익스플로잇 캠페인"을 계획하고 있었다고 밝혔다[1]. 구글이 먼저 발견해 취약점 패치를 유도한 덕분에 대규모 공격이 막혔다.
사용된 AI 모델 역시 공개되지 않았다. 구글은 Gemini는 아니라고 못 박았고, Anthropic의 Claude 계열도 아닌 것으로 추정된다고 설명했다. GPT 계열 혹은 비공개 모델일 가능성이 남아 있다.
특히 APT45는 취약점을 재귀적으로 분석하고 PoC(개념 증명 코드)를 검증하기 위해 수천 개의 반복 프롬프트를 AI에 던지고 있다고 한다. AI 없이는 운영 자체가 불가능한 규모의 공격 무기 개발이 이뤄지고 있다는 것이다.
솔직히 이게 더 무섭다
이번 사건 자체보다 더 걱정되는 건 GTIG 수석 분석가 John Hultquist의 발언이었다. "이건 빙산의 일각이고, 앞으로 훨씬 큰 문제가 될 것"이라는 진단이다. AI 기반 제로데이 하나를 잡아냈지만, 지금 이 순간에도 수면 아래에서 같은 방식의 공격이 작동 중일 가능성이 높다는 의미다.
짚을 한계도 있다. 구글은 이번 익스플로잇을 어떻게 발견했는지 구체적인 경위는 공개하지 않았다. "발견하고 막았다"는 결론은 있지만 탐지 과정은 불투명하다. 수비 측이 AI 해킹을 얼마나 조기에 탐지할 수 있는지에 대한 질문은 여전히 남아 있다.
- → 논리적 결함을 문맥으로 추론
- → 수천 회 반복 프롬프트로 PoC 검증
- → 2FA 우회 같은 인증 로직 결함 발굴
- → 대량 캠페인 자동화 시도
- → 구글 Big Sleep, 사전 취약점 탐지
- → 마이크로소프트 MDASH 멀티에이전트
- → Patch Tuesday에서 Windows 취약점 16개 선제 발견
- → AI 흔적 기반 코드 포렌식
방어 측에서는 구글이 자체 AI 기반 취약점 탐지 도구 Big Sleep를 운영 중이고, 마이크로소프트는 MDASH라는 멀티에이전트 보안 시스템으로 이번 Patch Tuesday에서 Windows 취약점 16개를 AI로 먼저 찾아냈다[2]. AI 해킹 대 AI 방어의 구도가 이미 시작된 셈이다.
2FA를 사용하고 있다고 안심할 수 없다는 것, 오픈소스 관리 도구도 1순위 공격 대상이 된다는 것, 그리고 AI는 이제 전문 해커가 아니어도 복잡한 공격 코드를 만들 수 있게 해준다는 것. 이 세 가지가 이번 사건이 남긴 핵심이다.
객관적인 분석 결과를 정리하면, 이번 GTIG 발표는 단일 사건의 폭로라기보다 "AI 무기화 시대의 시작점"으로 기록될 가능성이 높다. 방어 측이 같은 도구로 얼마나 빠르게 격차를 줄이느냐가 향후 12개월의 관전 포인트가 될 것이다.
- [1] Google Threat Intelligence Group (GTIG), "AI-Generated Exploit Activity: First Confirmed In-the-Wild Case", 2026.05.11.
- [2] Microsoft Security Response Center, "MDASH Multi-Agent Findings — May Patch Tuesday 2026", 2026.05.
- [3] Google Project Zero, "Big Sleep: AI-Assisted Vulnerability Discovery", 운영 현황 발표.
📌 함께 보면 좋은 글
'AI.IT' 카테고리의 다른 글
| 하네스 엔지니어링 — AI 코딩 시대, 결과물을 통제하는 진짜 기술 (0) | 2026.05.13 |
|---|---|
| NotebookLM 활용법, 3개월 쓰고 살아남은 워크플로우 4가지 (0) | 2026.05.13 |
| CrewAI 실전 구성하다 막혔던 3가지, 공식 예제엔 없던 문제들 (0) | 2026.05.13 |
| Dify 워크플로우를 n8n 옆에 뒀더니, 어디에 쓰는 건지 비로소 알았다 (0) | 2026.05.12 |
| LangGraph 실전 배포, MemorySaver 쓰다 크래시 맞고 나서야 알게 된 것 (0) | 2026.05.12 |