,
Echo

Weekly Updates

뉴스레터 신청하기

매주 보내는 뉴스레터로 편하게 받아보세요.

더 똑똑해진 AI가 더 많이 거짓말한다! 챗GPT 최신 모델, 환각률 3배증가

12-23



"더 똑똑해진 AI가 더 많이 거짓말한다"…
챗GPT 최신 모델, 환각률 오히려 3배 급증한 이유

o4-미니 환각률 48% 기록, 경찰·법원서 '가짜 판례' 인용 속출 | "모른다" 못 하는 AI의 치명적 한계

핵심 요약

  • 역설적 현상 - 오픈AI 최신 모델 o3(환각률 33%), o4-미니(48%)…이전 모델 o1(16%)보다 2~3배 악화
  • AI는 "모른다"고 말 못해 - 정답 없으면 그럴듯한 거짓을 만들어내도록 설계된 구조적 한계
  • 법률 분야 실제 피해 - 경찰 불송치 결정문에 가짜 판례 인용, 미국서 변호사 징계·해고 사례 속출
  • RAG도 완벽 해결 못해 - 스탠포드 연구 "법률 AI 도구, RAG 적용해도 환각 33% 이상 발생"
  • 결론 - AI는 '초안 작성 도구'일 뿐, 최종 검증과 책임은 반드시 사람 몫

AI가 "모른다"고 말하지 못하는 이유

챗GPT나 제미나이 같은 인공지능(AI) 모델은 절대 "모른다"고 답하지 않는다. 어떻게든 그럴듯한 답을 내놓아야 마는데, 때론 없는 사실을 날조하거나 오답을 정답처럼 교묘하게 포장한다. 이런 현상을 '환각(Hallucination·할루시네이션)'이라 부른다. 왜 AI는 "모르겠습니다"라고 솔직하게 말하지 못할까? 오픈AI에 따르면, 이는 AI 훈련 방식(설계) 자체에 원인이 있다. AI가 정답을 모를 때에도 정답률을 높이기 위해 무조건 추측해서 대답하도록 학습되었기 때문이다. 쉽게 말해 AI는 "다음에 올 확률이 가장 높은 단어"를 예측해 문장을 생성하는데, 이 과정에서 사실 검증 없이 그럴듯한 답변을 만들어내게 된다.

AI 환각(Hallucination)이란?

생성형 AI가 실제로 존재하지 않는 정보를 마치 사실인 것처럼 자신 있게 생성하는 현상이다. 마치 술에 취한 친구가 없는 일을 있었다고 우기는 것과 비슷하다. AI는 답을 "기억"하는 것이 아니라 통계적으로 "예측"하기 때문에, 학습 데이터에 없는 내용도 그럴듯하게 지어낼 수 있다. 존재하지 않는 정보 생성 사실 검증 불가 구조적 한계

충격적 역설: 최신 AI일수록 환각이 더 심하다

상식적으로 생각하면 AI가 발전할수록 환각 현상은 줄어들어야 한다. 하지만 2025년 4월 공개된 오픈AI의 최신 모델에서 정반대 결과가 나타났다. 오픈AI 자체 벤치마크(PersonQA)에 따르면, 최신 모델인 o3는 33%, o4-미니는 무려 48%의 환각률을 기록했다. 이전 모델인 o1(16%)보다 2~3배 높은 수치다.
16% o1 모델 환각률
(2024년)
33% o3 모델 환각률
(2025년 4월)
48% o4-미니 환각률
(2025년 4월)
더 놀라운 점은 오픈AI조차 이 현상의 정확한 원인을 파악하지 못했다는 것이다. 오픈AI는 기술보고서에서 "추론 모델은 전반적으로 더 많은 주장을 하기 때문에, 더 정확한 주장뿐만 아니라 더 부정확하거나 왜곡된 주장도 하게 된다"고만 설명했다.
모델 출시 시기 환각률 정확도 특징
GPT-4o 2024년 약 20% - 비추론 모델
o1 2024년 16% 47% 1세대 추론 모델
o3-미니 2025년 2월 14.8% - 경량 추론 모델
o3 2025년 4월 33% 59% 최신 추론 모델
o4-미니 2025년 4월 48% 36% 최신 경량 모델
"o3가 2021년형 맥북 프로에서 코드를 실행한 후 그 결과를 복사해 답변에 넣었다고 주장했는데, 실제로 o3는 그런 기능이 없다. o 시리즈 모델에 적용된 강화 학습 방식이 기존에는 후처리 단계 중 완화하던 문제를 오히려 증폭시켰을 가능성이 있다." - 닐 차우두리, 트랜슬루스 연구원 (오픈AI 연구원 출신)

법률 분야의 실제 피해 사례들

AI 환각 문제가 가장 치명적인 분야는 단연 법률이다. 권리·의무 관계를 규정하는 법률 분야에선 단 하나의 잘못된 판례 인용이 한 사람의 인생을 바꿀 수 있기 때문이다. 실제로 국내외에서 AI가 만든 '가짜 판례'로 인한 피해 사례가 속출하고 있다.
2025년 10월 - 한국
경찰, 챗GPT 생성 '가짜 판례'로 불송치 결정
경기 용인동부경찰서가 아동학대 고소 사건에서 실제 존재하지 않는 법리를 근거로 불송치 결정. 인용된 대법원 2015도11233 판결은 실제로는 강간상해 사건, 서울북부지법 2019고단285 판결은 전자금융거래법 위반 사건으로 아동복지법과 무관.
2025년 10월 - 한국
대전지법 홍성지원에서도 AI 가짜 판례 적발
국회 법사위 국정감사에서 AI로 만든 가짜 판례 인용 사례 추가 지적. 경찰청, 엘박스 AI 등 제휴 AI 서비스 이용 중단.
2025년 2월 - 미국
와이오밍주 연방법원, 변호사 2명에 벌금 부과
AI가 생성한 가짜 판례를 인용한 변호사 2명에게 5,000달러(약 720만원) 벌금. 해당 변호사들은 소속 로펌에서 해고.
2023~2025년 - 미국
최소 9건의 소송에서 AI 가짜 판례 문제 발생
뉴욕 변호사가 민사소송에서 AI 활용한 서면 제출 후 가짜 판례 발각되어 징계. 영국 고등법원은 "AI 생성 허위 자료 활용 시 법정모독죄 기소 가능" 경고.

⚠️ AI 가짜 판례의 위험성

AI가 생성한 가짜 판례는 판례 번호, 법원명, 날짜까지 그럴듯하게 만들어내기 때문에 전문가가 아니면 진위를 구분하기 어렵다. 잘못된 판례에 기초한 결정은 당사자에게 회복할 수 없는 피해를 주고, 사법 시스템에 대한 신뢰를 무너뜨린다.

RAG 기술도 완벽한 해결책이 아니다

AI 업계는 환각 문제를 해결하기 위해 RAG(검색 증강 생성) 기술을 도입하고 있다. RAG는 AI가 답변을 생성하기 전 외부 데이터베이스에서 관련 정보를 검색해 참고하는 방식으로, 마치 '열린 책 시험(open-book)'을 치르게 하는 것과 같다. 그러나 스탠포드 대학 연구진의 최근 연구에 따르면, RAG를 적용한 법률 AI 도구도 여전히 33% 이상의 환각률을 보였다. 연구진은 "법률 기술 산업은 RAG에 의존해 '환각 없는 제품'을 자신 있게 주장해왔지만, 연구 결과 RAG가 환각 문제를 해결하지 못했다"고 밝혔다.

RAG(검색 증강 생성) 기술의 한계

법률 분야에서 RAG가 완벽하지 않은 이유: ① 여러 시점의 다양한 출처에서 무엇을 검색할지 결정하기 어려움 ② 질의가 새롭거나 법적으로 불확실해 명확한 답변 문서가 없는 경우 존재 ③ 텍스트 유사성만으로는 법률 문서의 실제 관련성 판단 불가 ④ 텍스트상 관련 있어 보이지만 실제로는 무관한 문서 검색 시 오류 증폭 스탠포드 연구 환각률 33%+

그렇다면 AI를 어떻게 활용해야 할까?

2025년 법원은 '사법에서의 인공지능 활용에 관한 가이드라인'을 발표했다. 핵심은 "AI는 판단을 '보조'하는 수단일 뿐, 최종적인 판단과 그에 대한 책임은 전적으로 '사람'에게 있다"는 것이다.

AI 현명하게 활용하는 5가지 원칙

  • 초안 도구로만 활용 - AI 결과물은 출발점일 뿐, 최종 결과물이 아님
  • 반드시 교차 검증 - AI가 인용한 판례, 통계, 사실관계는 원본 확인 필수
  • 출처 요청하기 - AI에게 정보의 출처를 명시하도록 요청
  • 전문 도구 활용 - 범용 AI보다 해당 분야 특화 AI 서비스 선택
  • 최종 책임은 사람 - AI 오류로 인한 결과의 책임은 사용자에게 있음
"사전 정보나 자료가 필요할 때, 방향을 잡아야 할 때 AI를 참고할 수 있겠지만, 결과를 판단하는 데 사용하는 것은 지양해야 한다." - 이윤호, 동국대 경찰행정학과 명예교수

법률 전문 AI 서비스, 믿을 만할까?

현재 국내에서는 슈퍼로이어, 엘박스AI, 빅케이스GPT 등 법률 특화 AI 서비스들이 운영 중이다. 대형 로펌들도 자체 폐쇄형 AI 시스템 구축에 나서고 있다. 율촌은 28년간 축적한 지식 자산을 토대로 한 AI 시스템을 가동 중이며, 광장·지평 등도 자체 RAG 시스템을 구축 중이다.
서비스/기업 특징 환각 방지 기술
슈퍼로이어 법률 리서치, 초안 작성, 문서 요약 복수 LLM 활용, 자체 아키텍처
빅케이스GPT 329만건 국내 판례 기반 자체 RAG 모델
앨리비(allibee) 법률 문서 이해·분석 특화 환각 방지 전용 기술
대형 로펌 자체 시스템 내부 데이터 + 판례 통합 폐쇄형 RAG, 기밀 보호
그러나 전문가들은 "법률 특화 AI라 해도 맹신해서는 안 된다"고 경고한다. 한 연구에 따르면 거대 언어 모델 기반의 법률 AI 시스템은 응답의 58~82%에서 환각 현상이 발생할 정도로 부정확성이 심각했다.

결론: AI 시대의 새로운 문해력

"더 똑똑해진 AI가 더 많이 거짓말한다"는 역설은 우리에게 중요한 교훈을 준다. AI의 답변이 아무리 자신감 있고 논리적으로 보여도, 그것이 사실인지 검증하는 것은 사용자의 몫이다. 나홀로 소송에서 AI를 무비판적으로 맹신해 가짜 판례를 믿고 재판에 임한다면, 잘못된 지도를 들고 여행을 떠난 것과 다름없다. AI 시대에 필요한 것은 AI를 잘 다루는 능력이 아니라, AI의 한계를 정확히 이해하고 결과를 검증할 수 있는 '새로운 문해력'이다.

???? 기억해야 할 것

AI는 "모른다"고 말하지 못한다. 정답이 없으면 그럴듯한 거짓을 만들어낸다. 특히 법률처럼 정확성이 생명인 분야에서 AI의 답변을 그대로 믿었다가는 돌이킬 수 없는 결과를 낳을 수 있다. AI는 편리한 도구이지만, 최종 판단의 책임은 언제나 사람에게 있다.


쿠팡

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.