학교 과제, 블로그 글, 기업 보고서까지 AI가 쓴 글이 넘쳐나는 시대입니다. 이에 따라 AI 생성 텍스트를 감지하는 도구들도 쏟아지고 있습니다. 하지만 이 도구들이 실제로 얼마나 정확할까요? 딸깍AI에서 Claude, ChatGPT(GPT-4), Gemini로 각각 생성한 글과 사람이 직접 쓴 글을 섞어 6가지 감지 도구로 테스트해봤습니다.
테스트 방법
테스트는 다음과 같은 방식으로 진행했습니다.
- 샘플 글 준비: "재택근무의 장단점"이라는 주제로 Claude, GPT-4, Gemini가 각각 500자 내외 글을 생성. 동일 주제로 사람이 직접 작성한 글 3편도 준비.
- 테스트 도구: Copyleaks AI Detector, Originality.ai, GPTZero, ZeroGPT, Writer AI Detector, Sapling AI Detector
- 평가 기준: 각 도구의 "AI 생성 확률" 수치를 기준으로 정확도 평가 (실제 AI 글을 AI로, 사람 글을 사람으로 올바르게 분류한 비율)
결과
결과는 예상보다 들쑥날쑥했습니다. 전반적으로 AI 생성 글 중 특히 Claude가 쓴 글이 "사람이 쓴 것"으로 오분류되는 빈도가 높았습니다. GPT-4 글은 상대적으로 탐지율이 높은 편이었지만, 한국어 글에서는 영어 대비 정확도가 크게 떨어졌습니다.
결론 및 시사점
이번 실험에서 가장 명확하게 드러난 사실은 어떤 AI 감지 도구도 100% 신뢰할 수 없다는 것입니다. 평균 정확도가 65~75% 수준이었으며, 특히 한국어 콘텐츠에서는 더 낮았습니다. 사람이 쓴 글이 AI 글로 잘못 판별되는 오탐 사례도 적지 않았습니다.
AI 감지 도구는 인간의 직관을 완전히 대체하기보다는 보조 수단으로 활용해야 합니다. 글의 맥락 일관성, 구체적 경험의 포함 여부, 사실 확인 가능한 세부 사항 등은 사람이 직접 검토하는 것이 여전히 중요합니다. 도구의 결과를 참고하되 그것을 유일한 판단 기준으로 삼지 마세요.
📌 딸깍 한 줄 요약: AI 감지 도구의 정확도는 생각보다 낮습니다. 믿고 쓰기보다 참고 수준으로만 쓰세요.
딸깍AI 뉴스레터를 구독하세요
매주 꼭 알아야 할 AI 소식만 골라 이메일로 보내드립니다. 스팸 없음 · 무료