GTIG REPORT / 2026.05.11 ● ZERO-DAY CONFIRMED

A I  ·  I T  ·  T R E N D

AI가 직접 쓴
해킹 코드,
실전에서 잡혔다

구글 GTIG가 공개한 첫 AI 제로데이 익스플로잇.
코드 주석에 남은 세 가지 흔적이 모든 걸 말해줬다.

FILED UNDER
SECURITY / AI WEAPONIZATION
ISSUE
VOL.026 · NO.05

AI

AI/IT 트렌드 데스크

생성형 AI · 보안 · 인프라 동향 큐레이션

2026.05.13 · 읽기 6분

AI 제로데이 해킹 코드, 실전에서 처음으로 포착됐다

"AI가 해킹에 쓰일 수 있다"는 가설이 마침내 증거로 확인된 날. 코드 주석에 박혀 있던 세 가지 흔적이 LLM의 손길을 그대로 드러냈다.

처음엔 그냥 소문인 줄 알았다

AI가 해킹에 쓰일 수 있다는 얘기는 몇 년 전부터 나왔다. 그런데 막상 "실제로 일어났다"는 건 확인된 적이 없었다. 그래서 2026년 5월 11일 구글 GTIG(Threat Intelligence Group)의 보고서^[1]가 나왔을 때 충격이었다. AI가 만든 제로데이 익스플로잇이 처음으로 실전 공격에 쓰인 것이 확인됐다는 내용이었다.

제로데이(Zero-day)는 소프트웨어에 아직 아무도 모르는 취약점이 존재할 때 그것을 악용하는 공격이다. 피해자 입장에서는 "0일의 대응 시간"밖에 없다고 해서 제로데이라 부른다. 방어 자체가 불가능한 상태에서 당하는 공격인 셈이다.

FIG.01 · 사건의 핵심 명제

"AI 무기화는 가설이 아니라 운영 단계로 넘어갔다. 우리가 잡은 건 빙산의 일각이다."

— John Hultquist · GTIG 수석 분석가

[출처: Google GTIG 2026.05.11]

AI가 해킹 코드를 직접 짰다는 증거

구글 연구팀이 이 코드를 AI 작성이라고 확신한 이유는 코드 자체에 흔적이 남아 있었기 때문이다.

문제의 코드는 Python으로 작성된 익스플로잇으로, 오픈소스 웹 관리 도구의 2단계 인증(2FA)을 우회하는 기능을 담고 있었다. GTIG가 보고서에서 지목한 AI 흔적은 다음 세 가지다^[1].

FIG.02 · 코드에 남은 LLM의 지문 3종

01

Hallucinated CVSS Score

실제로 존재하지 않는 취약점 심각도 점수가 코드 주석에 박혀 있었다. LLM이 "그럴 듯한" 숫자를 만들어낸 흔적.

02

교과서 같은 Python

실제 해커의 익스플로잇은 보통 지저분하다. 이 코드는 PEP-8 스타일에 상세 help 메뉴까지 갖춘 학습 데이터 같은 형태였다.

03

교육용 Docstring

함수마다 "이 함수는 ~를 합니다" 식의 친절한 설명. 공격용 코드를 짜는 사람이 굳이 남길 이유가 없는 흔적이다.

사람이 짠 익스플로잇과 LLM이 짠 익스플로잇을 가르는 세 지점.

기술적으로도 흥미로운 부분이 있다. 이 취약점은 메모리 오염이나 단순 입력 검증 실패 같은 종류가 아니라, 개발자가 인증 로직에 "신뢰 가정"을 하드코딩한 논리적 결함이었다. AI가 코드의 맥락을 읽고 2FA 강제 로직과 하드코딩된 예외 사이의 모순을 찾아낸 것이다. 이런 류의 고수준 논리 오류는 전통적인 정적 스캐너로는 잡기 어렵고, AI의 문맥 추론 능력이 특히 강하게 작용하는 영역이다.

범인은 누구이고, 규모는 어땠나

구글은 피해 도구 이름과 해킹 그룹 이름을 공개하지 않았다. 다만 GTIG는 해당 그룹이 "대규모 대량 익스플로잇 캠페인"을 계획하고 있었다고 밝혔다^[1]. 구글이 먼저 발견해 취약점 패치를 유도한 덕분에 대규모 공격이 막혔다.

사용된 AI 모델 역시 공개되지 않았다. 구글은 Gemini는 아니라고 못 박았고, Anthropic의 Claude 계열도 아닌 것으로 추정된다고 설명했다. GPT 계열 혹은 비공개 모델일 가능성이 남아 있다.

FIG.03 · 보고서가 지목한 국가 연계 위협 행위자

CORE FINDING

국가 연계 그룹의 AI 활용 가속

APT27

중국 연계

취약점 연구에 AI 적극 활용

APT45

북한 연계

PoC 재귀 분석에 수천 회 프롬프트 반복

UNC2814

미분류 클러스터

AI 보조 익스플로잇 개발 정황

미상 그룹

이번 사건 주체

2FA 우회 Python 익스플로잇 운용

GTIG 보고서가 추적 중인 AI 활용 행위자 클러스터 [출처: Google GTIG 2026.05.11].

특히 APT45는 취약점을 재귀적으로 분석하고 PoC(개념 증명 코드)를 검증하기 위해 수천 개의 반복 프롬프트를 AI에 던지고 있다고 한다. AI 없이는 운영 자체가 불가능한 규모의 공격 무기 개발이 이뤄지고 있다는 것이다.

솔직히 이게 더 무섭다

이번 사건 자체보다 더 걱정되는 건 GTIG 수석 분석가 John Hultquist의 발언이었다. "이건 빙산의 일각이고, 앞으로 훨씬 큰 문제가 될 것"이라는 진단이다. AI 기반 제로데이 하나를 잡아냈지만, 지금 이 순간에도 수면 아래에서 같은 방식의 공격이 작동 중일 가능성이 높다는 의미다.

짚을 한계도 있다. 구글은 이번 익스플로잇을 어떻게 발견했는지 구체적인 경위는 공개하지 않았다. "발견하고 막았다"는 결론은 있지만 탐지 과정은 불투명하다. 수비 측이 AI 해킹을 얼마나 조기에 탐지할 수 있는지에 대한 질문은 여전히 남아 있다.

FIG.04 · 공격 AI 대 방어 AI의 대치

OFFENSE

AI를 무기화하는 쪽

→ 논리적 결함을 문맥으로 추론
→ 수천 회 반복 프롬프트로 PoC 검증
→ 2FA 우회 같은 인증 로직 결함 발굴
→ 대량 캠페인 자동화 시도

DEFENSE

AI로 방어하는 쪽

→ 구글 Big Sleep, 사전 취약점 탐지
→ 마이크로소프트 MDASH 멀티에이전트
→ Patch Tuesday에서 Windows 취약점 16개 선제 발견
→ AI 흔적 기반 코드 포렌식

두 진영 모두 같은 기술을 쓴다 — 차이는 누가 먼저 찾아내느냐다.

방어 측에서는 구글이 자체 AI 기반 취약점 탐지 도구 Big Sleep를 운영 중이고, 마이크로소프트는 MDASH라는 멀티에이전트 보안 시스템으로 이번 Patch Tuesday에서 Windows 취약점 16개를 AI로 먼저 찾아냈다^[2]. AI 해킹 대 AI 방어의 구도가 이미 시작된 셈이다.

FIG.05 · 이번 사건이 남긴 세 가지 인식 전환

01

2FA는 이제 절대 안전장치가 아니다

인증 로직의 논리적 모순까지 AI가 추론한다. "2FA 켜놨으니 안심"은 끝났다.

02

오픈소스 관리 도구가 1순위 표적이다

코드가 공개되어 있다는 건 LLM이 학습·분석하기에 가장 좋은 표적이라는 뜻이기도 하다.

03

"전문 해커"의 정의 자체가 흔들린다

AI는 비전문가에게도 복잡한 공격 코드를 생성해 준다. 위협 행위자의 진입장벽이 무너지는 중.

방어 전략을 다시 짜야 할 세 가지 명제.

2FA를 사용하고 있다고 안심할 수 없다는 것, 오픈소스 관리 도구도 1순위 공격 대상이 된다는 것, 그리고 AI는 이제 전문 해커가 아니어도 복잡한 공격 코드를 만들 수 있게 해준다는 것. 이 세 가지가 이번 사건이 남긴 핵심이다.

객관적인 분석 결과를 정리하면, 이번 GTIG 발표는 단일 사건의 폭로라기보다 "AI 무기화 시대의 시작점"으로 기록될 가능성이 높다. 방어 측이 같은 도구로 얼마나 빠르게 격차를 줄이느냐가 향후 12개월의 관전 포인트가 될 것이다.

REFERENCES

[1] Google Threat Intelligence Group (GTIG), "AI-Generated Exploit Activity: First Confirmed In-the-Wild Case", 2026.05.11.
[2] Microsoft Security Response Center, "MDASH Multi-Agent Findings — May Patch Tuesday 2026", 2026.05.
[3] Google Project Zero, "Big Sleep: AI-Assisted Vulnerability Discovery", 운영 현황 발표.

※ 본 글에 인용된 그룹명(APT27 / APT45 / UNC2814) 및 통계는 GTIG 보고서의 공개 분류 체계를 따른다. 피해 도구·공격 그룹의 구체적 신원은 GTIG가 공식 비공개로 유지하고 있다.

📌 함께 보면 좋은 글

저작자표시 비영리 변경금지 (새창열림)

'AI.IT' 카테고리의 다른 글

하네스 엔지니어링 — AI 코딩 시대, 결과물을 통제하는 진짜 기술 (0)	2026.05.13
NotebookLM 활용법, 3개월 쓰고 살아남은 워크플로우 4가지 (0)	2026.05.13
CrewAI 실전 구성하다 막혔던 3가지, 공식 예제엔 없던 문제들 (0)	2026.05.13
Dify 워크플로우를 n8n 옆에 뒀더니, 어디에 쓰는 건지 비로소 알았다 (0)	2026.05.12
LangGraph 실전 배포, MemorySaver 쓰다 크래시 맞고 나서야 알게 된 것 (0)	2026.05.12

KnightK

AI 제로데이 해킹 코드, 실전에서 처음으로 포착됐다

AI가 직접 쓴
해킹 코드,
실전에서 잡혔다

AI 제로데이 해킹 코드, 실전에서 처음으로 포착됐다

처음엔 그냥 소문인 줄 알았다

AI가 해킹 코드를 직접 짰다는 증거

범인은 누구이고, 규모는 어땠나

솔직히 이게 더 무섭다

📌 함께 보면 좋은 글

'AI.IT' 카테고리의 다른 글

티스토리툴바

AI 제로데이 해킹 코드, 실전에서 처음으로 포착됐다

AI가 직접 쓴해킹 코드,실전에서 잡혔다

AI 제로데이 해킹 코드, 실전에서 처음으로 포착됐다

처음엔 그냥 소문인 줄 알았다

AI가 해킹 코드를 직접 짰다는 증거

범인은 누구이고, 규모는 어땠나

솔직히 이게 더 무섭다

📌 함께 보면 좋은 글

'AI.IT' 카테고리의 다른 글

관련글

티스토리툴바

AI가 직접 쓴
해킹 코드,
실전에서 잡혔다