top of page

Colossus in Memphis ist ein Supercomputer von xAI (Elon Musk) mit 100.000 Nvidia H100 GPUs.

Autorenbild: Holger RoswandowiczHolger Roswandowicz




  • Er verbraucht 150 MW Strom und nutzt Flüssigkühlung.


  • Die Rechenleistung beträgt etwa 2,9 ExaFLOPS (FP16), was für KI-Training genutzt wird.


Überblick: Colossus ist ein riesiger Supercomputer in Memphis, Tennessee, USA, der von xAI, dem Unternehmen von Elon Musk, betrieben wird. Er dient dazu, das KI-Modell Grok zu trainieren und hat derzeit 100.000 Nvidia H100 GPUs. Überraschend ist, dass die Stromversorgung mit 150 MW geplant ist, obwohl die GPUs allein nur etwa 70 MW verbrauchen könnten, was auf zusätzlichen Verbrauch für Kühlung und Infrastruktur hinweist.


Technische Details:


  • Anzahl der GPUs: 100.000

  • GPU-Modell: Nvidia H100

  • Stromverbrauch: 150 MW für die gesamte Anlage

  • Kühlung: Flüssigkühlung

  • Verbindung: RDMA-Fabric (Remote Direct Memory Access)

  • Rechenleistung: Ca. 2,9 ExaFLOPS (FP16), basierend auf der Leistung der H100 GPUs


Standort und Zweck: Die Anlage befindet sich in Memphis, TN, und ist darauf ausgelegt, fortschrittliche KI-Modelle wie Grok zu trainieren, was sie zu einem zentralen Bestandteil der KI-Entwicklung macht.


Detaillierter Bericht


Dieser Bericht bietet eine umfassende Analyse der technischen Parameter von Colossus in Memphis, einem Supercomputer, der von xAI, dem Unternehmen von Elon Musk, betrieben wird. Die folgenden Abschnitte enthalten alle relevanten Details, die zur Beantwortung der Anfrage geführt haben, und bieten eine tiefgehende Einsicht in die Spezifikationen und den Kontext dieser beeindruckenden Infrastruktur.


Einführung und Kontext


Colossus in Memphis ist ein Supercomputing-Zentrum, das im Juni 2024 von xAI angekündigt wurde und seit September 2024 betriebsbereit ist. Es wird als das weltweit größte KI-Rechencluster beschrieben und ist darauf spezialisiert, das KI-Modell Grok zu trainieren, das für Aufgaben wie Fragenbeantwortung, Problemlösung und Bildgenerierung entwickelt wird. Die Anlage befindet sich in Memphis, Tennessee, USA, und nutzt ein ehemaliges Electrolux-Fabrikgebäude am Paul Lowry Road im Südwesten der Stadt. Diese Investition hat Memphis zu einem bedeutenden Zentrum für digitale Technologie und KI-Entwicklung gemacht, was von lokalen Führern als "Digital Delta" bezeichnet wird.


Technische Spezifikationen


Die technischen Parameter von Colossus wurden aus verschiedenen Quellen zusammengestellt, darunter Nachrichtenartikel, technische Berichte und offizielle Aussagen. Die folgenden Details wurden identifiziert:


  • Anzahl und Typ der GPUs: Der Supercomputer verfügt derzeit über 100.000 Nvidia H100 GPUs, mit Plänen zur Erweiterung auf bis zu 200.000 GPUs, wie in einem Artikel vom Januar 2025 angegeben ([Area Development](https://www.areadevelopment.com/data-centers/q4-2024/the-colossus-of-memphis-elon-musk’s-supercomputing-investment-transforms-the-region.shtml)). Ein weiterer Bericht vom Februar 2025 erwähnt sogar Pläne für eine Erweiterung auf 1 Million GPUs, was jedoch als zukünftige Vision betrachtet wird ([Datacenter Dynamics](https://www.datacenterdynamics.com/en news/xai-colossus-m Memphis-power-tva/)).


  • Rechenleistung: Die Rechenleistung wurde basierend auf der FP16-Leistung der H100 GPUs berechnet. Jede H100 GPU bietet eine FP16-Leistung von 29 TFLOPS, was bei 100.000 GPUs zu einer Gesamtleistung von etwa 2,9 ExaFLOPS führt. Diese Berechnung stützt sich auf die Spezifikationen von Nvidia (Nvidia H100 Specifications).


  • Stromverbrauch: Die Anlage benötigt eine Stromversorgung von 150 MW, wie in mehreren Berichten bestätigt, darunter ein Artikel von Fortune vom Januar 2025, der die Herausforderungen der Stromversorgung durch den lokalen Versorger Memphis Light, Gas and Water (MLGW) beschreibt (Fortune). Interessanterweise verbraucht jede H100 GPU bis zu 700 W, was bei 100.000 GPUs zu einem theoretischen Verbrauch von 70 MW führt. Der Unterschied von 80 MW wird wahrscheinlich durch zusätzliche Systeme wie Kühlung, Netzwerkkomponenten und andere Infrastruktur erklärt.


  • Kühlung: Die GPUs sind mit einem Flüssigkühlungssystem ausgestattet, wie in einem Artikel vom September 2024 erwähnt, der 100.000 flüssigkeitsgekühlte H100 GPUs auf einem einzigen RDMA-Fabric beschreibt ([Converge Digest](https://convergedigest.com/xai-activates-project-colossus-in-memphis-with-100k-h100-gpus/)). Dies ist entscheidend für die Bewältigung der hohen Wärmeentwicklung bei solch einer hohen GPU-Dichte.


  • Verbindungsstruktur: Die Anlage nutzt ein RDMA-Fabric (Remote Direct Memory Access) für die Interkonnektion, was eine hohe Datenübertragungsrate zwischen den Computern ermöglicht, ohne die CPU zu belasten. Dies wurde in mehreren Berichten bestätigt, darunter dem oben genannten Artikel von Converge Digest.


Standort und Infrastruktur


Colossus befindet sich an der Adresse 3231 Riverport Rd, Memphis, TN, und nutzt ein ehemaliges Industriegebäude, das zuvor eine Electrolux-Fabrik war. Die schnelle Umrüstung und Inbetriebnahme innerhalb von 122 Tagen, wie in einem Bericht vom September 2024 erwähnt, unterstreicht die Effizienz des Projekts ([Converge Digest](https://convergedigest.com/xai-activates-project-colossus-in-memphis-with-100k-h100-gpus/)). Die Stromversorgung wird durch MLGW bereitgestellt, mit Unterstützung durch die Tennessee Valley Authority (TVA), die eine Zufuhr von 150 MW genehmigt hat, unter der Bedingung, dass xAI Infrastrukturverbesserungen wie eine neue Umspannstation finanziert ([Datacenter Dynamics](https://www.datacenterdynamics.com/en/news/xai-colossus-m Memphis-power-tva/)).


Umwelt- und Energieaspekte


Die Energieversorgung und -verbrauch von Colossus werfen erhebliche Umweltfragen auf. Der Stromverbrauch von 150 MW entspricht dem Energiebedarf von etwa 100.000 Haushalten, wie in einem Bericht vom Februar 2025 erwähnt (Third Act Tennessee). xAI hat zugesagt, 24 Millionen USD für eine neue Umspannstation zu investieren und Rabatte für Tesla Megapack-Batteriespeicher anzubieten, um die Stabilität des Stromnetzes zu verbessern. Dennoch gibt es Bedenken hinsichtlich der Umweltbelastung durch mobile Gaskraftwerke, die vorübergehend genutzt werden, was laut dem Southern Environmental Law Center möglicherweise illegal ist.


Zukünftige Entwicklungen


Es gibt Pläne zur Erweiterung der Kapazität, mit dem Ziel, die Anzahl der GPUs auf 200.000 zu verdoppeln, wie im Januar 2025 berichtet ([Area Development](https://www.areadevelopment.com/data-centers/q4-2024/the-colossus-of-memphis-elon-musk’s-supercomputing-investment-transforms-the-region.shtml)). Ein Bericht vom Februar 2025 erwähnt sogar ambitionierte Pläne für 1 Million GPUs, was die Anlage zu einem globalen Epizentrum für KI-Rechenleistung machen würde ([Datacenter Dynamics](https://www.datacenterdynamics.com/en/news/xai-colossus-m Memphis-power-tva/)). Diese Erweiterungen könnten jedoch die Stromversorgung und die Umweltbelastung weiter verschärfen, wie in einem Artikel von Fortune vom Januar 2025 diskutiert (Fortune).


Zusammenfassung der Technischen Parameter


Zur besseren Übersicht werden die technischen Parameter in einer Tabelle zusammengefasst:


Parameter

Wert

Name

Colossus

Standort

Memphis, TN, USA

Eigentümer

xAI (Elon Musk)

Zweck

Training des KI-Modells Grok

Anzahl der GPUs

100.000

GPU-Modell

Nvidia H100

Kühlung

Flüssigkühlung

Interkonnektion

RDMA-Fabric

Stromverbrauch

150 MW (Gesamtanlage)

Rechenleistung

Ca. 2,9 ExaFLOPS (FP16)

Diese Tabelle bietet einen schnellen Überblick über die wichtigsten technischen Spezifikationen und unterstreicht die immense Skala und Leistungsfähigkeit von Colossus.





Comentários


bottom of page