LogoSummerHosting
x
News

NVIDIA naprawia poważny błąd w procesorach Blackwell: Masowa produkcja ruszy wkrótce

Ma

Mariusz Kontowicz

mariusz.k@summerhosting.pl

24 października 2024
3 min czytania

NVIDIA oficjalnie ogłosiła, że poważny błąd konstrukcyjny w procesorach graficznych Blackwell, wpływający na wydajność produkcji, został naprawiony. Jensen Huang, CEO firmy, przyznał, że to NVIDIA była odpowiedzialna za problem, a partner produkcyjny TSMC nie ponosi winy. Procesory Blackwell B100 i B200, które korzystają z zaawansowanej technologii CoWoS-L, miały problemy z rozszerzalnością cieplną, co powodowało awarie układów. Aby to naprawić, NVIDIA musiała wprowadzić zmiany w metalicznych warstwach układu i poprawić struktury połączeń.

Problemy konstrukcyjne i odpowiedzialność NVIDII

Problemy związane z procesorami Blackwell pojawiły się w wyniku błędów konstrukcyjnych, które powodowały obniżenie wydajności produkcji. Jensen Huang w wywiadzie dla Reutersa jednoznacznie przyznał, że to NVIDIA była odpowiedzialna za te problemy. Początkowe doniesienia sugerowały, że TSMC, partner produkcyjny firmy, mogło mieć udział w kłopotach, ale Huang stanowczo zaprzeczył tym spekulacjom, nazywając je "fake newsami". W pełni podkreślił, że odpowiedzialność za błędy leży wyłącznie po stronie NVIDII. Firma podjęła natychmiastowe kroki w celu naprawienia usterki, a TSMC współpracowało przy rozwiązaniu problemu.

Technologia CoWoS-L i problemy z rozszerzalnością cieplną

Procesory Blackwell B100 i B200 korzystają z technologii pakowania chipów CoWoS-L, opracowanej przez TSMC. Ta zaawansowana technologia pozwala na szybkie przesyłanie danych dzięki mostkom LSI i interposerowi RDL, co umożliwia osiągnięcie prędkości transmisji danych na poziomie 10 TB/s. Niemniej jednak, problem pojawił się z powodu różnic w rozszerzalności cieplnej między różnymi elementami układu, co prowadziło do deformacji i awarii procesorów. Aby rozwiązać te problemy, NVIDIA musiała dokonać zmian w metalicznych warstwach na powierzchni krzemu GPU oraz ulepszyć struktury połączeń. Modyfikacje te obejmowały użycie nowych masek produkcyjnych, co jest typowym rozwiązaniem w przemyśle półprzewodników.

NVIDIA-GB200-Grace-Blackwell-Superchip-Image.jpg

Szybka reakcja i rekordowy czas naprawy

Błędy funkcjonalne i problemy z wydajnością produkcji, jak te, które dotknęły układy Blackwell, nie są rzadkością w branży półprzewodników. Tego typu problemy są często rozwiązywane poprzez wprowadzenie poprawek w metalicznych warstwach procesora, co skutkuje tworzeniem nowych wersji układów, znanych jako "steppings". NVIDIA i TSMC poradziły sobie z naprawą w rekordowo szybkim tempie – cały proces, od wykrycia błędu po opracowanie nowej wersji chipu, zajął zaledwie kilka miesięcy, co jest imponującym wynikiem.

Masowa produkcja Blackwell GPU i wysyłki w 2025 roku

Pomimo naprawienia błędu, NVIDIA ogłosiła, że masowa produkcja poprawionych procesorów Blackwell, przeznaczonych głównie do zastosowań w sztucznej inteligencji i superkomputerach, rozpocznie się w październiku 2024 roku. Wysyłki układów do klientów mają rozpocząć się na początku 2025 roku, co pozwoli firmie dotrzymać terminów dostaw na potrzeby kluczowych klientów, takich jak AWS, Google i Microsoft.

Czy pierwsze układy mogą wykazać wady?

Chociaż naprawione procesory Blackwell wkrótce trafią do masowej produkcji, NVIDIA poinformowała, że pewna liczba początkowych układów, które miały problemy z wydajnością produkcji, zostanie dostarczona jeszcze w 2024 roku. W związku z tym rodzi się pytanie, czy te pierwsze chipy nie zaczną z czasem wykazywać wad w trakcie użytkowania. Firma nie podała szczegółów, ile takich układów trafi na rynek, ale nie wyklucza, że mogą one trafić do niektórych centrów danych jeszcze przed końcem roku.

We use cookies

Our website uses cookies. Learn more in our privacy policy about what data we collect and how we use it to ensure you have a safe experience with our services.