단순히 질문에 대답만 하는 챗봇을 넘어, 복잡한 자료를 분석해 전문가 수준의 보고서를 작성해 주는 'AI 에이전트' 경쟁이 새로운 국면을 맞이했습니다. 오하이오주립대학교와 아마존 연구진이 공개한 새로운 AI 평가 무대인 'MMDR-벤치'에서 구글의 '제미나이 3' 모델군이 압도적인 성적으로 상위권을 휩쓸며 기술 격차를 증명했습니다.
이번 벤치마크는 텍스트는 물론 이미지, 도표, 수식 등 다양한 형태의 정보를 동시에 이해하는 '멀티모달(Multimodal)' 능력을 검증하는 데 초점을 맞췄습니다.
기존의 AI 평가가 짧은 질의응답 위주였다면, MMDR-벤치는 실제 연구원처럼 논문을 쓰고 보고서를 작성하는 능력을 봅니다. 평가 결과, '제미나이 딥 리서치'가 49.41점으로 1위를 차지했고, 그 뒤를 '제미나이 3 프로'와 '플래시'가 이으며 1~3위를 모두 석권했습니다. 반면 경쟁자인 '딥시크-V3.2'와 'GPT-5 미니'는 각각 4위와 5위에 머물렀습니다.
이번 평가의 핵심 기준은 화려한 문장력이 아닌 '신뢰성'이었습니다. 연구진은 AI가 작성한 보고서에서 인용된 정보가 실제 근거와 정확히 연결되는지를 확인하는 'TRACE' 지표에 가장 높은 배점을 부여했습니다.
그러나 AI의 한계점도 명확히 드러났습니다. AI의 시각 인식 기능을 켜면 전체적인 맥락 파악 능력은 좋아지지만, 오히려 표 안의 작은 숫자나 세부적인 수치를 잘못 읽어내는 오류가 증가했습니다. 또한, 보고서 작성 시간이 길어질수록 초반에 잘 찾았던 정보를 엉뚱한 출처와 연결하는 현상도 발견되었습니다. 연구진은 이번 벤치마크가 AI를 단순한 검색 도구가 아닌, 과학적 발견을 돕는 신뢰할 수 있는 연구 파트너로 발전시키는 이정표가 될 것이라고 설명했습니다.

