AI가 쓴 글인지 구별할 수 있을까? 직접 실험해봤습니다

학교 과제, 블로그 글, 기업 보고서까지 AI가 쓴 글이 넘쳐나는 시대입니다. 이에 따라 AI 생성 텍스트를 감지하는 도구들도 쏟아지고 있습니다. 하지만 이 도구들이 실제로 얼마나 정확할까요? 딸깍AI에서 Claude, ChatGPT(GPT-4), Gemini로 각각 생성한 글과 사람이 직접 쓴 글을 섞어 6가지 감지 도구로 테스트해봤습니다.

테스트 방법

테스트는 다음과 같은 방식으로 진행했습니다.

샘플 글 준비: "재택근무의 장단점"이라는 주제로 Claude, GPT-4, Gemini가 각각 500자 내외 글을 생성. 동일 주제로 사람이 직접 작성한 글 3편도 준비.
테스트 도구: Copyleaks AI Detector, Originality.ai, GPTZero, ZeroGPT, Writer AI Detector, Sapling AI Detector
평가 기준: 각 도구의 "AI 생성 확률" 수치를 기준으로 정확도 평가 (실제 AI 글을 AI로, 사람 글을 사람으로 올바르게 분류한 비율)

결과

결과는 예상보다 들쑥날쑥했습니다. 전반적으로 AI 생성 글 중 특히 Claude가 쓴 글이 "사람이 쓴 것"으로 오분류되는 빈도가 높았습니다. GPT-4 글은 상대적으로 탐지율이 높은 편이었지만, 한국어 글에서는 영어 대비 정확도가 크게 떨어졌습니다.

Copyleaks

영어 탐지 우수, 한국어 미흡. 오탐(사람 글을 AI로) 비율이 낮아 신뢰성 있음.

정확도 중간

Originality.ai

영어 전용에 가까움. 한국어 샘플 다수에서 "확인 불가" 반환.

한국어 미지원

GPTZero

GPT 계열 탐지에 특화. 문장 단위 하이라이팅 기능 유용함.

정확도 중간

ZeroGPT

무료이지만 오탐 비율이 높음. 사람 글도 AI로 분류하는 경우 잦음.

낮은 신뢰도

Writer AI

간단하고 빠름. 정확도는 Copyleaks보다 낮으나 무료 접근성 좋음.

정확도 낮음

Sapling

문장 수준 퍼플렉시티 분석 제공. 한국어 샘플에서도 어느 정도 작동.

정확도 중간

결론 및 시사점

이번 실험에서 가장 명확하게 드러난 사실은 어떤 AI 감지 도구도 100% 신뢰할 수 없다는 것입니다. 평균 정확도가 65~75% 수준이었으며, 특히 한국어 콘텐츠에서는 더 낮았습니다. 사람이 쓴 글이 AI 글로 잘못 판별되는 오탐 사례도 적지 않았습니다.

AI 감지 도구는 인간의 직관을 완전히 대체하기보다는 보조 수단으로 활용해야 합니다. 글의 맥락 일관성, 구체적 경험의 포함 여부, 사실 확인 가능한 세부 사항 등은 사람이 직접 검토하는 것이 여전히 중요합니다. 도구의 결과를 참고하되 그것을 유일한 판단 기준으로 삼지 마세요.

📌 딸깍 한 줄 요약: AI 감지 도구의 정확도는 생각보다 낮습니다. 믿고 쓰기보다 참고 수준으로만 쓰세요.

딸

딸깍이

어려운 AI를 쉽게 전하는 사람. AI 뉴스, 생성형 AI 활용법, 실전 자동화 팁을 매주 뉴스레터로 보내드립니다.

딸깍AI 뉴스레터를 구독하세요

매주 꼭 알아야 할 AI 소식만 골라 이메일로 보내드립니다. 스팸 없음 · 무료

테스트 방법

결과

결론 및 시사점

AI 뉴스,놓치지 마세요

AI 뉴스,
놓치지 마세요