엔비디아 '블랙웰' 발열 이슈, AI 공급망 강타... 빅테크 인프라 전략 '수정 불가피'

인공지능(AI) 반도체 시장의 절대 강자 엔비디아(NVIDIA)가 뜻밖의 복병을 만났다.

'괴물 칩'으로 불리며 기대를 한 몸에 받았던 차세대 AI 가속기 '블랙웰(Blackwell)' 시리즈가 심각한 발열 문제에 직면했기 때문이다. 이로 인해 구글, 메타(Meta), 마이크로소프트 등 주요 고객사들의 데이터센터 구축 일정에 차질이 빚어지고 있으며, 이는 AI 서비스 상용화 속도 전반에 제동을 걸 수 있다는 우려를 낳고 있다.

"서버가 녹는다"... 고성능의 역설, 발목 잡힌 '블랙웰'

엔비디아 젠슨황

9일 업계와 주요 외신에 따르면, 엔비디아의 최신 블랙웰 GPU가 대규모 서버 랙(Rack)에 설치되었을 때 과도한 열을 발생시키는 문제가 지속적으로 보고되고 있다. 특히 문제가 되는 모델은 최대 72개의 칩을 하나의 랙으로 연결해 슈퍼컴퓨터처럼 작동하게 하는 'NVL72' 시스템이다.

기술적으로 볼 때, 블랙웰은 전작인 '호퍼(Hopper)' 대비 트랜지스터 집적도를 극한으로 끌어올린 제품이다. 성능은 비약적으로 향상됐지만, 그만큼 칩 하나당 소모하는 전력(TDP)과 발열량도 기하급수적으로 늘어났다.

엔비디아는 이를 해결하기 위해 고압의 냉각수를 순환시키는 '액체 냉각(Liquid Cooling)' 방식을 도입했으나, 랙 내부의 고밀도 설계로 인해 열 배출이 원활하지 않거나 냉각 시스템 자체의 누수 위험이 제기되는 등 기술적 난관에 부딪혔다.

과열은 반도체의 성능 저하(Throttling)를 유발할 뿐만 아니라, 영구적인 하드웨어 손상으로 이어질 수 있어 데이터센터 운영에 치명적이다.

설계 변경만 수차례... 구글·메타 로드맵 '비상등' 켜졌다

엔비디아는 발열 문제를 잡기 위해 서버 랙의 설계를 수차례 변경하고 있는 것으로 알려졌다. 냉각 효율을 높이기 위해 칩 간의 간격을 조정하거나, 히트싱크(Heat Sink) 구조를 개선하는 등의 조치를 취하고 있지만, 이는 필연적으로 납품 지연을 초래한다.

발등에 불이 떨어진 건 엔비디아의 칩을 목빠지게 기다리던 빅테크 기업들이다. 구글과 메타는 블랙웰 칩 도입을 전제로 차세대 거대언어모델(LLM) 학습 및 추론 인프라 계획을 세워둔 상태다.

하지만 하드웨어 공급이 늦어지면서 데이터센터 가동 시점 조정이 불가피해졌다. 업계 관계자는 "빅테크들이 수조 원을 들여 준비한 데이터센터가 칩이 없어 텅 비어있는 상황이 발생할 수도 있다"며 "이는 단순한 일정 지연을 넘어, 경쟁사보다 먼저 AI 서비스를 고도화하려던 전략 수정으로 이어질 것"이라고 분석했다.

하드웨어 병목이 소프트웨어 수익성 갉아먹나... AI 생태계의 나비효과

엔비디아

이번 사태는 AI 산업 전반에 걸친 '비용 상승' 압박으로 작용할 전망이다. 발열 문제를 해결하기 위해 데이터센터의 냉각 인프라를 재설계하거나 더 비싼 냉각 솔루션을 도입해야 하기 때문이다. 또한, 공급 부족으로 인해 칩 가격이나 클라우드 서비스 이용료가 상승할 가능성도 배제할 수 없다.

결국 하드웨어의 병목 현상은 소프트웨어 기업들의 수익성 악화로 연결된다. AI 모델을 개발하고 서비스하는 기업들은 인프라 비용 증가로 인해 마진율이 떨어질 수 있으며, 이는 최근 시장에서 제기되는 'AI 수익성 회의론'을 부채질할 수 있다. 엔비디아가 이 기술적 난제를 얼마나 빠르게 해결하느냐에 따라 2026년 상반기 AI 시장의 기상도가 달라질 것으로 보인다.

엔비디아 '블랙웰' 발열 이슈, AI 공급망 강타... 빅테크 인프라 전략 '수정 불가피'

박상혁 기자

관련기사

댓글 쓰기 비회원도 작성 가능 (익명)

전체 댓글