AI

"AI가 돋보기를 들었다?" 구글 제미나이 3, 소름 돋는 '시각 추론' 기능 탑재

'쓱' 보고 답하지 않는다... '생각-행동-관찰'의 루프 혁명

건축 도면부터 미세한 표식까지... 파이썬이 눈이 되다

환각 줄이고 신뢰 높였다... '추측'이 아닌 '검증'하는 AI

김형식 기자 ·
"AI가 돋보기를 들었다?" 구글 제미나이 3, 소름 돋는 '시각 추론' 기능 탑재

구글이 자사의 최신 멀티모달 AI 모델인 ‘제미나이 3 플래시(Gemini 3 Flash)’에 획기적인 시각 이해 기능을 탑재하며 다시 한번 기술 격차 벌리기에 나섰다. 

단순히 이미지를 인식하는 단계를 넘어, AI가 스스로 코드를 짜고 이미지를 조작하며 정답을 찾아가는 ‘에이전틱 비전(Agentic Vision)’ 기능이 그 주인공이다. 이는 AI가 이미지를 ‘보는(Seeing)’ 수동적 주체에서 ‘조사하는(Investigating)’ 능동적 에이전트로 진화했음을 의미한다.

'쓱' 보고 답하지 않는다... '생각-행동-관찰'의 루프 혁명

4일(현지시간) 구글이 발표한 에이전틱 비전의 핵심은 AI가 인간처럼 사고하며 이미지를 분석한다는 점이다. 기존의 멀티모달 모델들은 고해상도 이미지를 입력받더라도 이를 한 번에 통으로 처리(End-to-End)하는 방식을 사용했다. 이 과정에서 이미지 구석에 있는 작은 일련번호나 복잡한 도표의 미세한 수치를 놓치는 경우가 빈번했고, 보이지 않는 부분을 억지로 추측하다 보니 없는 사실을 지어내는 ‘환각(Hallucination)’ 현상이 발생하기도 했다.

구글은 이 문제를 해결하기 위해 '생각-행동-관찰(Think-Act-Observe)'이라는 독창적인 루프 시스템을 도입했다. AI는 이미지를 받으면 먼저 "이 질문에 답하려면 이미지의 우측 상단을 확대해야겠군"이라고 생각(Think)한다. 

그다음 파이썬(Python) 코드를 스스로 생성해 이미지를 실제로 자르거나(Crop), 회전시키거나, 확대하는 행동(Act)을 수행한다. 마지막으로 변형된 이미지를 다시 자세히 들여다보며 정보를 **관찰(Observe)**하고, 이 과정을 필요한 만큼 반복해 최종 답변을 내놓는다. 즉, AI에게 '디지털 돋보기'와 '계산기'를 쥐여준 셈이다.

건축 도면부터 미세한 표식까지... 파이썬이 눈이 되다

이 기술의 백미는 ‘코드 실행(Code Execution)’ 능력과의 결합이다. 제미나이 3 플래시는 시각적 데이터를 분석할 때 파이썬 라이브러리를 적극 활용한다. 

예를 들어, 복잡한 건축 도면을 검증하는 플랫폼 '플랜체크솔버(PlanCheckSolver)'는 이 기술을 도입해 검증 정확도를 약 5% 끌어올렸다.AI가 대형 도면 전체를 대충 훑는 대신, 코드를 실행해 규정 준수 여부가 필요한 특정 구역만 정밀하게 잘라내고 분석했기 때문이다.

데이터 분석 분야에서도 강점은 뚜렷하다. 수치가 빽빽한 표 이미지가 주어지면, AI는 이를 텍스트로 읽어내는 데 그치지 않는다. 파이썬의 매트플롯립(Matplotlib) 라이브러리를 호출해 데이터를 정규화하고, 직접 그래프를 그려 시각화까지 해낸다. 또한, 이미지 속 사물(예: 손가락 개수)을 셀 때도 단순히 눈대중으로 세는 것이 아니라, 각 대상 위에 코드로 '바운딩 박스(테두리)'와 '숫자 라벨'을 직접 그려가며 검토한다. 

환각 줄이고 신뢰 높였다... '추측'이 아닌 '검증'하는 AI

구글 측 데이터에 따르면, 에이전틱 비전 기능을 활성화할 경우 대부분의 시각 인식 벤치마크 테스트에서 성능이 5~10%가량 향상된 것으로 나타났다. 

이는 단순한 수치 개선을 넘어, AI가 내놓은 답의 '근거'를 사용자가 신뢰할 수 있게 되었다는 점에서 큰 의미를 갖는다. AI가 어떤 코드를 실행해 어떤 부분을 확대해 보았는지 과정이 투명하게 드러나기 때문이다.

현재 에이전틱 비전은 구글 AI 스튜디오와 버텍스 AI(Vertex AI)를 통해 개발자들에게 제공되고 있으며, 제미나이 앱의 ‘싱킹(Thinking)’ 모델 선택을 통해서도 경험할 수 있다. 

구글은 향후 이미지 회전이나 복잡한 시각적 수학 계산 등을 별도의 지시 없이도 AI가 알아서 수행하는 '암묵적 행동' 기능을 확대하고, 웹 검색이나 역 이미지 검색 도구까지 결합해 AI의 조사 능력을 극대화할 계획이다. '보는 AI'에서 '연구하는 AI'로의 전환, 제미나이 3 플래시가 그 시작을 알렸다.

👤

김형식 기자

trendit_news@naver.com

#구글제미나이 #에이전틱비전 #Gemini3Flash #멀티모달AI #파이썬코딩 #AI시각인식 #AgenticVision #생성형AI #구글AI스튜디오 #IT기술트렌드

관련기사

댓글 쓰기 비회원도 작성 가능 (익명)

전체 댓글

0

등록된 댓글이 없습니다. 첫 번째 댓글을 남겨주세요!

저작권자 © 트렌드IT 무단전재 및 재배포, AI학습 및 활용 금지