구글, 에이전트 시대를 위한 두 가지 새로운 TPU 공개

2개월 전7분 읽기

구글의 Cloud Next 2026 행사에서 AI 인프라 전장의 의도적인 재조정을 알리는 주요 하드웨어 전환이 발표되었습니다. 구글은 훈련용과 추론용으로 각각 설계된 두 가지 새로운 텐서 처리 장치(TPU)를 공개했으며, 이는 모델이 단순히 텍스트를 생성하는 것을 넘어 실시간으로 추론하고, 계획하며, 외부 도구를 조작하는 소위 '에이전트 시대'를 위해 명시적으로 설계되었습니다.이는 가속기 시장에서 엔비디아의 독점에 대한 직접적인 도전이며, 성능뿐만 아니라 경제성에 관한 문제입니다. 에이전트 워크로드에 엔비디아 기반 클러스터를 운영하는 비용이 천문학적으로 증가했으며, 구글은 마블과 협력하여 제조된 추론 전용 칩이 클라우드 고객에게 더 나은 총소유비용(TCO)을 제공할 수 있다고 확신합니다.arXiv 논문을 읽는 사람으로서 흥미로운 점은 아키텍처 분할입니다: 훈련과 추론 실리콘을 분리하는 선택은 모델을 구축하는 것과 반응형 도구 호출 환경에서 배포하는 것의 서로 다른 컴퓨트 프로필을 인정하는 것입니다. 에이전트 시스템은 원시 FLOP보다 지연 시간과 메모리 대역폭에 의해 훨씬 더 병목 현상이 발생하므로, 동적 그래프와 긴 컨텍스트 추론을 처리할 수 있는 추론 최적화 TPU는 진정한 차별화 요소가 될 수 있습니다.구글은 자체 Gemini 모델을 구동할 뿐만 아니라 해당 실리콘을 타사에도 제공할 예정이며, 이는 AWS Nitro 전략을 재현하려는 시도입니다—단순히 컴퓨트를 판매하는 것이 아니라 마이그레이션을 고착화하는 수직적 스택을 구축하는 것입니다. 엔비디아는 여전히 소프트웨어 생태계와 광범위한 모델 지원에서 큰 우위를 점하고 있지만, 구글의 움직임은 장기적인 헤지로서 시장을 분열시키고 엔비디아가 단순한 무차별 성능 이상으로 경쟁하도록 강제할 수 있습니다.에이전트 전환은 현실입니다—LangChain 채택, OpenAI의 함수 호출, Anthropic의 도구 사용—그리고 승리하는 하드웨어는 이러한 루프의 마찰을 최소화하는 하드웨어가 될 것입니다. 이것은 AI 칩 전쟁의 두 번째 전선에서 발사된 첫 번째 포탄이며, 테라플롭스가 아닌 지연 시간과 비용을 둘러싼 싸움입니다.

#TPU

#Google

#AI chips

#hardware

#Nvidia

#inference

#training

#custom silicon

#cloud computing

#AI agents

#editorial picks

정보를 얻고. 똑똑하게 행동하세요.