인텔은 하이브리드 CPU를 경시합니다
Intel이 2022년 2월 단일 소켓 내에서 CPU와 GPU 용량을 독립적으로 확장할 수 있는 하이브리드 CPU-GPU 컴퓨팅 엔진을 구축하는 "Falcon Shores" 프로젝트를 발표했을 때 칩 제조업체는 경쟁사인 Nvidia를 상대할 준비를 하고 있는 것처럼 보였습니다. AMD는 Intel이 XPU라고 부르고, AMD가 APU라고 부르는 하이브리드 컴퓨팅 모터를 사용하고 있습니다. Nvidia는 "슈퍼칩"이 무엇인지, 무엇이 아닌지에 대해 엄격하게 구분하고 싶지 않습니다.
당시 지적했듯이, CPU와 GPU 칩렛의 변경 가능한 혼합을 문자 그대로 동일한 메인 메모리와 칩렛 간의 대기 시간이 매우 짧은 Xeon SP 소켓에 배치하는 이 "소켓 안의 오로라" 접근 방식은 더 복잡한 작업을 허용합니다. Xeon SP의 AMX 매트릭스 수학 장치보다 AI 추론은 고객이 Max 시리즈 라인이나 실제로 더 높은 지연 시간, 개별 GPU에 의존하지 않고도 AVX-512 벡터 장치에서 가능한 것보다 더 많은 HPC 부동 소수점 처리를 처리할 수 있습니다. Nvidia 또는 AMD의 개별 GPU.
올해 3월 Koduri가 Intel을 떠난 후 중단된 Intel의 가속 컴퓨팅 시스템 및 그래픽 사업부 총괄 관리자였던 Raja Koduri가 발표했을 때 Intel은 Falcon Shores가 5배 이상 더 나은 성능을 제공할 것이라고 약속했습니다. 와트당 성능, X86 소켓에서 5배 이상 높은 컴퓨팅 밀도, "극한 대역폭 공유 메모리"를 통해 5배 이상 더 높은 메모리 대역폭 및 용량을 제공합니다. 우리는 이 숫자가 "Ice Lake" Xeon SP 서버 소켓과 비교되었으며 둘 다 상위 빈 부분이었다고 추정합니다.
Falcon Shores는 2024년으로 예정되어 있으며 향후 "Granite Rapids" Xeon SP에서 사용되는 것과 동일한 "Mountain Stream" 서버 플랫폼에 직접 연결할 것으로 널리 예상됩니다. 그리고 우리는 인텔이 프로그래밍을 단순화하기 위해 GPU에 크고 뚱뚱한 AVX-512 벡터 수학 장치처럼 보이게 만드는 에뮬레이션 레이어를 제공하는 것과 같은 미친 일을 할 수 있다고 추측했습니다. (또는 조금 더 생각해 보면 AMX 장치일 가능성이 높습니다.)
올해 3월 Koduri가 Intel을 떠나면서 회사는 Xeon SP 소켓 내부에 5개의 서로 다른 CPU-GPU 칩렛 믹스처럼 보이는 것을 제공할 뿐만 아니라 "Rialto Bridge" 키커를 제거하기 시작했습니다. Argonne National Laboratory의 "Aurora" 슈퍼컴퓨터에서 2엑사플롭스의 최고 처리 성능의 대부분을 수행하게 될 "Ponte Vecchio" Max 시리즈 GPU입니다. 당시 최초의 Falcon Shores 장치가 2025년에 출시될 것이라는 소문이 있었고 GPU 칩렛만 탑재되어 이 장치가 기본적으로 Rialto Bridge 대신 Ponte Vecchio의 개별 GPU 대체 장치가 되었습니다. Rialto Bridge는 Intel이 로드맵에서 2년 GPU 케이던스로 전환하기를 원했기 때문에 당황스러웠습니다. 그리고 Nvidia와 AMD가 그렇게 하고 있기 때문에 합리적입니다.
최근 함부르크에서 열린 ISC23 슈퍼컴퓨팅 컨퍼런스에서 Intel은 Falcon Shores에 대한 의도를 명확히 하면서 이 장치가 GPU 전용 컴퓨팅 엔진일 뿐만 아니라 하이브리드 XPU를 위한 때가 아직 적절하지 않다는 점을 확인했습니다.
ISC23 이벤트 브리핑에서 Super Compute Group의 총괄 관리자인 Jeff McVeigh는 "CPU와 GPU를 XPU에 통합하는 것에 대한 이전 추진과 강조는 시기상조였습니다."라고 설명했습니다. 그리고 솔직히 McVeigh는 아마도 Koduri가 내린 결정에 대해 책임을 지고 있을 것입니다. Jim Keller도 2년 전 AI 스타트업 Tenstorrent의 CEO이자 현재 CTO가 되기 위해 떠났습니다.
McVeigh는 계속 설명하면서 "그 이유는 우리가 불과 1년 전만 해도 생각했던 것보다 훨씬 더 역동적인 시장에 있다고 느끼기 때문입니다. 즉, 생성 AI 대형 언어 모델에 대한 모든 혁신이 이루어졌기 때문입니다."라고 설명했습니다. 상업 공간에서는 과학적인 노력에도 훨씬 더 광범위하게 채택되고 있으며 작업 부하가 급격하게 변화하는 역동적인 시장에 있을 때 고정 CPU의 길을 강요하고 싶지는 않습니다. GPU 비율. X86과 Arm 사이에 사용되는 공급업체나 아키텍처조차 수정하고 싶지 않을 것입니다. 이는 유연성을 허용하고 이들 전반에 걸쳐 우수한 소프트웨어 지원을 허용하는 가장 좋은 것입니다. 성숙한 시장입니다. 워크로드가 고정되어 있고 워크로드가 크게 변하지 않을 것이라는 확신이 있을 때 통합은 훌륭합니다. 우리는 통합을 여러 번 수행했습니다. 비용 절감에 도움이 되지만 비용은 절감됩니다. 하지만 당신은 고정되어 있습니다. 당신은 이 두 구성 요소에 대한 공급업체에 고정되어 있으며 구성 방법도 고정되어 있습니다. 그리고 우리는 현재 시장이 어디에 있는지에 대한 실제적인 판단을 통해 통합할 때가 아니라고 생각합니다."