AI의 과대광고로 데이터센터 GPU 가격이 하늘 높이 치솟을 것
업데이트됨많은 HPC 및 AI 시스템 빌더와 마찬가지로 우리도 AMD의 "Antares" Instinct MI300A 하이브리드 CPU-GPU 시스템 온 칩이 성능과 가격 측면에서 어떤 모습일지 무척 궁금합니다.
그리고 ISC 2023 슈퍼컴퓨팅 컨퍼런스가 몇 주 앞으로 다가옴에 따라 로렌스 리버모어 국립 연구소의 최고 기술 책임자인 Bronis de Supinski가 행사에서 주력 머신이 될 미래의 "El Capitan" 엑사스케일 시스템에 대해 강연할 예정입니다. Antares GPU의 MI300A 변형에 대해서는 우리 마음속에 있습니다.
그래서 재미로 우리는 신뢰 Excel 스프레드시트를 꺼내서 MI300 및 MI300A GPU의 피드와 속도를 추정해 보았습니다. MI300A GPU는 El Capitan 시스템의 핵심이 될 것입니다. 예, AMD가 ISC 2023 이상에서 MI300 GPU 시리즈에 대해 좀 더 이야기할 가능성이 높고 결국 이 컴퓨팅 엔진이 어떻게 설계되었는지 정확하게 알게 될 것이라는 점을 고려하면 이는 아마도 어리석은 일입니다. 그러나 꽤 많은 사람들이 MI300 시리즈가 Nvidia "Hopper" H100 GPU 가속기와 경쟁할 수 있는지, 그리고 아마도 더 중요한 것은 Hopper에 단단히 묶인 72코어 "Grace" Arm CPU의 조합과 경쟁할 수 있는지 계속 묻고 있습니다. H100 GPU는 El Capitan에 배포될 MI300A 및 HPC 및 AI 워크로드를 실행하는 다른 하이브리드 CPU-GPU 시스템과 정면으로 맞설 결합된 Grace-Hopper 하이브리드 CPU-GPU 복합체를 생성합니다. 나란히.
그리고 대규모 언어 모델을 기반으로 한 생성적 AI 애플리케이션을 위한 AI 훈련의 폭발적인 증가로 인한 GPU 컴퓨팅에 대한 강렬한 수요와 GPU를 활용한 AI 훈련에서 더 많은 역할을 하려는 AMD의 열망을 고려하면 수요가 Nvidia를 능가할 것으로 생각됩니다. 이는 Nvidia AI 소프트웨어 스택이 AMD에 비해 엄청난 이점을 갖고 있음에도 불구하고 AMD의 GPU가 일부 AI 공급에서 승리할 것임을 의미합니다. 이전 "Aldebaran" GPU는 이미 AMD를 위한 인상적인 HPC 설계 승리를 거두었습니다. 특히 Oak Ridge National Laboratory의 "Frontier" 엑사스케일 시스템에서 이러한 듀얼 칩 GPU 중 4개가 맞춤형 "Trento" Epyc CPU에 연결되어 보다 느슨하게 결합된 하이브리드 컴퓨팅 엔진. (다른 것도 있습니다.) 그리고 우리는 AI 워크로드를 위한 Nvidia GPU에 대한 강렬한 수요가 실제로 수요가 공급을 초과함에 따라 AMD가 일부 거래를 성사시킬 수 있는 기회를 남겨둘 것이라고 생각합니다.
사람들은 1990년대 후반과 2000년대 초반에 웹 인프라를 추가하여 애플리케이션을 현대화하고 인터넷에 인터페이스를 배포하기 위해 워크로드에 생성 AI를 추가하는 데 더 이상 인내심을 갖지 않을 것입니다. 이번에 차이점은 데이터 센터가 범용 X86 컴퓨팅 기판으로 변모하는 것이 아니라 오히려 비용 대비 전반적으로 가능한 최고의 효과를 제공하기 위해 함께 짜여진 경쟁적이고 보완적인 아키텍처의 생태계로 점점 더 변모하고 있다는 것입니다. 더욱 다양한 워크로드에 걸쳐.
우리는 아직 MI300 시리즈에 대해 많이 알지 못하지만, 1월 AMD는 여기서 다룬 장치에 대해 조금 이야기했습니다. 우리는 장치 중 하나의 이미지를 가지고 있으며 그 중 하나는 Frontier 시스템에 사용되는 기존 MI250X GPU 가속기보다 AI 성능이 8배, 와트당 AI 성능이 5배 향상될 것이라는 것을 알고 있습니다. 우리는 MI300 시리즈 중 하나가 9개의 칩렛에 걸쳐 1,460억 개의 트랜지스터를 가지고 있다는 것을 알고 있습니다. 트랜지스터 수의 큰 부분은 인피니티 캐시가 에칭된 CPU와 GPU 컴퓨팅 요소를 상호 연결하는 4개의 6나노미터 타일로 구현된 것으로 생각됩니다. 이 캐시가 얼마나 많은 트랜지스터를 사용하는지 말하기는 어렵지만 알아낼 수 있기를 기대합니다.
그런데 우리는 MI300A를 AMD의 주력 병렬 컴퓨팅 엔진의 APU 버전(단일 패키지에 CPU와 GPU 코어의 조합을 의미)으로 지정하기 위해 그렇게 부르는 것으로 생각합니다. 이는 APU가 아닌 GPU 전용 버전의 Antares GPU가 있을 것임을 의미합니다. 아마도 MI300A라고 생각되는 아래 그림과 같이 4개의 상호 연결 및 캐시 칩 위에 최대 8개의 GPU 칩렛이 탑재될 것입니다.