Entdecken Sie DeepSeek: Unzensiert und Lokal – Tauchen Sie Jetzt Ein!

DeepSeek bietet hohe Qualität, ist jedoch durch Zensur und zweifelhaften Datenschutz beeinträchtigt. c’t 3003 unternimmt den Versuch, das vollständige Modell lokal auszuführen.

Es ist weitgehend bekannt, dass das kostenfreie KI-Sprachmodell DeepSeek effizient arbeitet. Dennoch gibt es Bedenken bezüglich Datenschutz und Zensur. c’t 3003 stellt sich nun die Frage: Ist es möglich, DeepSeek mit gleicher Qualität wie auf deepseek.com auf eigener Hardware zu betreiben, ohne Zensur und ohne Daten auf chinesischen Servern zu speichern?

heise+-Artikel: Anleitung zum lokalen Betrieb von DeepSeek auf Ihrem Computer

Video-Transkript

(Hinweis: Dieses Transkript dient Personen, die das obige Video nicht ansehen können oder möchten. Der Text enthält nicht alle Informationen der visuellen Darstellung.)

Schaut her, ich betreibe hier die vollständige, also nicht reduzierte, DeepSeek-R1-KI lokal. Oh, das verbraucht derzeit 709 GB RAM. Wie ich das bewerkstellige, erkläre ich gleich.

Warum ich das tue? Weil euch das Thema DeepSeek anscheinend sehr fasziniert und insbesondere die Möglichkeit, DeepSeek lokal zu betreiben. Einigen von euch ist die App beziehungsweise der Server in China nicht ganz geheuer. Und ja, es scheint, als sei dieses Misstrauen nicht ganz unbegründet. Aber das Beste daran ist, die Entwickler von DeepSeek haben die Daten des Sprachmodells offen ins Netz gestellt. Man kann es also lokal betreiben.

Also einfach auf dem Laptop starten und fertig? Nein, nicht ganz. Wenn ihr DeepSeek in der Qualität betreiben wollt, wie es online auf chat.deepseek.com oder in der Android- oder iOS-App läuft, benötigt ihr beispielsweise 8 Nvidia-H200-Profi-GPUs. Ein solches System kostet mindestens 300.000 US-Dollar. Leider nicht im Budget von c’t 3003. Aber mich hat es brennend interessiert, ob es wirklich möglich ist, die sehr guten DeepSeek R1- und V3-Modelle lokal zu betreiben – also in derselben Qualität wie auf deepseek.com.

Ich möchte hier niemandem Betrug unterstellen, aber ich wollte einfach überprüfen, ob das wirklich der Fall ist – also ob die frei verfügbaren DeepSeek-Gewichte wirklich das bieten, was DeepSeek in der Cloud verspricht. Genau das seht ihr in diesem Video. Und ich erkläre euch auch, wie ihr mit deutlich weniger als 300.000 US-Dollar das System in voller Qualität zum Laufen bekommt. Oder zumindest annähernd.

Ich zeige euch hier auch, warum Aussagen wie „So betreibt ihr DeepSeek auf eurem Raspberry Pi“ zumindest irreführend sind. Und sehr wichtig: In diesem Video seht ihr auch, ob die lokalen Versionen weniger zensiert sind als DeepSeek im Netz. Bleibt dran.

Liebe Hackerinnen und Hacker, liebe Internetnutzer, herzlich willkommen hier bei …

Noch einmal kurz: Der KI-Chatbot DeepSeek hat in den letzten Wochen für Aufsehen gesorgt und Aktienkurse einbrechen lassen. Wir hatten bereits ein Video dazu gemacht. Was für mich am relevantesten ist: Mit DeepSeek gibt es zum ersten Mal Sprachmodelle, die ernsthaft mit ChatGPT von OpenAI oder Claude von Anthropic konkurrieren können. Es gab schon früher brauchbare offene Sprachmodelle, wie die LLaMAs von Meta, die in Ordnung waren, aber sie konnten meiner Meinung nach nicht wirklich mit der kommerziellen Konkurrenz mithalten. DeepSeek schafft das jetzt erstmals.

Und das ist wirklich ein großer Unterschied: Ob man seine Eingaben in eine Blackbox in der Cloud wirft – also auf chatgpt.com oder in die verschiedenen Apps – und niemand wirklich weiß, was dort auf den Servern in den USA, China oder anderswo damit passiert. Oder ob das Ganze komplett lokal auf meiner eigenen Hardware stattfindet, möglicherweise sogar ohne Internetzugang nach außen. Das ist besonders relevant, wenn man ein Unternehmen hat und schützenswerte Firmendaten besitzt. Es kann durchaus praktisch sein, ein LLM für unternehmensinterne Angelegenheiten zu nutzen.

Siehe auch Top 10 Monitorlampen: Unverzichtbar für Ihr Büro!

DeepSeek verfügt über zwei leistungsfähige Modelle: das Standardmodell, bekannt als V3, und das Reasoning-Modell, das erst überlegt, bevor es antwortet, bekannt als R1. R1 braucht länger zum Antworten, ist aber besonders bei mathematischen, technischen oder programmierbezogenen Fragen besser. Es dauert nur länger.

Diese beiden Modelle von DeepSeek benötigen jedoch extrem leistungsstarke Hardware. Empfohlen werden zum Beispiel 8 × H200-GPUs. Das kostet dann mindestens 300.000 US-Dollar. Und das ist auch keine Hardware, die man einfach unter den Schreibtisch stellt, weil sie extrem laut ist, sehr heiß wird, eine Klimaanlage benötigt und so weiter. Das gilt leider auch für die meisten Server-Hardwaretypen.

Wenn man solche Hardware nicht hat, gibt es zwei Alternativen: Entweder man gibt sich mit geringerer Intelligenz zufrieden und betreibt ein abgespecktes Modell auf kleinerer Hardware. Oder man nutzt das unveränderte Modell und betreibt es statt auf teuren GPUs auf vergleichsweise günstigen CPUs – also CPUs und normaler RAM anstelle von GPUs und VRAM.

Das Problem ist allerdings: LLMs laufen deutlich besser auf GPUs. Dies liegt vor allem daran, dass der Speicher auf GPUs eine viel höhere Bandbreite hat als normaler Arbeitsspeicher. Die Consumer-Grafikkarte mit dem derzeit höchsten Speicherausbau ist die Nvidia RTX 5090. Diese hat jedoch nur schlappe 32 GB Speicher. Kann man derzeit auch nicht richtig kaufen. Kostet über 2000 Euro. DeepSeek benötigt etwa 720 GB. Man bräuchte also 23 dieser Grafikkarten. Und ich sage mal: Auf mein Mainboard passen keine 23 Grafikkarten.

Also bleibt nur die CPU als Alternative. Aber wir benötigen mindestens etwa 720 GB RAM. Und normale Büro- oder Gaming-PCs haben nur vier RAM-Slots. Es gibt RAM-Riegel mit maximal 64 GB. Das ergibt 256 GB bei Consumer-Desktop-PCs. Also benötigt man eine Workstation oder ein Server-Mainboard. Server-CPUs können mehr RAM anbinden, und die Boards haben auch mehr Slots.

Hier habe ich mal etwas zusammengestellt mit 768 GB. Da komme ich auf 5870 Euro. Auch viel Geld natürlich, aber deutlich billiger als GPUs. Oder man schaut mal gebraucht: Hier eine alte Workstation mit 768 GB RAM für 2700 Euro.

Unser Server mit 1,5 TByte RAM

Ja, und ich hatte dann so überlegt, so etwas zu besorgen für dieses Video hier, um meinen DeepSeek-Test zu machen. Ich also so am Überlegen. Dann sagt mein Kollege Christof Windeck, der übrigens einen guten Podcast über CPUs macht – ist unten in der Beschreibung verlinkt: „Hey, nimm doch einfach den AMD-Epyc-Server, den wir hier bei uns stehen haben. Den brauchen wir nur manchmal, um neue Server-CPUs zu testen. Der hat ja 1,5 TB RAM.“ Und ich so: „What?“ Okay, also, ich arbeite schon sehr viele Jahre bei c’t, aber dass da so etwas existiert, das wusste ich noch nicht. Naja, ich hatte dann jedenfalls schnell das Root-Passwort und habe dann losgelegt. Hier seht ihr die Inxi-Ausgabe: Also zwei AMD-Epyc-9754 CPUs mit jeweils 128 Kernen und, wie gesagt, 1,5 TB DDR5-Speicher mit 4800 Megatransfers pro Sekunde (DDR5-4800).

Benutzt habe ich als Betriebssystem Ubuntu Server und angezapft habe ich die LLMs mit Ollama. Das hat sich so ein bisschen als die Standard-Software für LLMs für Nicht-Profis herauskristallisiert. Und weil Ollama nur auf der Kommandozeile läuft, habe ich mit Open WebUI noch dieses fancy Web-Interface dazu installiert. Damit kann man so ein lokales LLM auch mehreren Leuten im eigenen Netz zur Verfügung stellen, und zwar auch Leuten, die nicht so nerdy drauf sind wie wir. Denn OpenWebUI ist genauso einfach zu bedienen wie ChatGPT oder chat.deepseek.com.

Siehe auch Meta Platforms startet Feldtests für "Community Notes" – Seien Sie Teil der Zukunft!

Wie man Ollama und Open WebUI installiert, zeige ich euch am Ende des Videos. Ja, aber jetzt erst mal die große Frage: Wie läuft denn DeepSeek nun? Ist das so gut wie in der Cloud? Deshalb erst mal in Ollama laden.

Und das geht so, dass man auf ollama.com geht und da dann in der Library die verfügbaren LLMs sieht. Ja, hier ist DeepSeek R1. Dropdown-Menü auf. Ja, 671 Milliarden Parameter. Sieht richtig aus. So viele Parameter hat das Modell. Aber hä? 404 Gigabyte? Ist das nicht ein bisschen wenig? Ah, okay. Da steht Q4_K_M. Das bedeutet auf 4-Bit quantisiert, obwohl DeepSeek eigentlich normalerweise mit 8-Bit arbeitet. Was übrigens schon sehr sparsam ist, denn normalerweise liegen LLM-Daten als FP16 vor, also als Gleitkommazahlen mit 16 Bit.

Die DeepSeek-Weights sind FP8, also 8-bittige Gleitkommazahlen. Ist schon mal viel sparsamer. Das Ding ist jetzt aber, dass Ollama keine Gleitkomma-Weights unterstützt. Deshalb muss ich die Q8-Variante benutzen, die vereinfacht gesagt einfach eine Umrechnung der Gleitkommazahlen darstellt. Ich könnte jetzt mal auf den Unterschied zwischen INT8 und Q8 eingehen. Ah, ich glaube, das wird mir jetzt hier ein bisschen zu viel Informatik-Vorlesung.

Wichtig ist: Die Q8-Daten, die ich von den R1- und V3-DeepSeek-Modellen verwende, sind genauso groß wie die originalen FP8-Daten, nur eben umgerechnet. Wenn ihr jetzt sagt: „Hä, warum hast du denn nicht die Original-Weights verwendet? DeepSeek schreibt doch, was man da für Software einsetzen kann.“ Ja, da gibt es sieben Möglichkeiten. Aber laut meiner Experimente unterstützen die entweder nur GPUs und keine CPUs oder sie unterstützen im CPU-Modus kein FP8. Wenn ihr einen Tipp habt, gerne in die Kommentare schreiben.

Der Test: Wie gut läuft DeepSeek lokal?

Ja, aber dann lief es auf jeden Fall: DeepSeek in Q8 mit Ollama. Laut Liste hier 711 GB groß. Ich habe da mehrfach die gleichen Prompts mit chat.deepseek verglichen. Und oho, tatsächlich, die Ausgaben glichen sich manchmal sogar im Wortlaut. Und meine lokale Version beantwortete auch etliche Problemfragen korrekt, die sogar manche kommerzielle LLMs wie Googles Gemini Advanced 2.0 Flash nicht beantworten können.

Zum Beispiel: „Schreibe einen grammatikalisch korrekten Satz, ohne einen Buchstaben mehr als einmal zu benutzen.“ Ja, Gemini 2.0 Flash haut mir einfach Sätze um die Ohren, die halt einfach Buchstaben mehrfach verwenden, und nach dreimaligem Nachfragen gibt es dann einfach auf. DeepSeek kriegt es hin. Guter Satz: „Ich frage.“ Ja, super. Keine Buchstaben mehrfach.

Interessant wird es auch hier mit dieser mathematischen Frage: „Eine zweiziffrige Zahl hat die Quersumme 12. Werden die Ziffern vertauscht, so wird die Zahl 1,75-mal so groß. Welche Zahl hat diese Eigenschaft?“ Schmeißt DeepSeek R1 korrekterweise 48 raus. Und jetzt hier mal zum Vergleich die DeepSeek R1-Version mit nur 32 Milliarden Parametern. Rechnet sich irgendwie einen Wolf und sagt dann: Es existiert keine Zahl, die die angegebenen Bedingungen erfüllt.

Übrigens ist das eigentlich kein DeepSeek-Modell, sondern das ist ein mit DeepSeek trainiertes Qwen-2-Modell mit 4-Bit-Quantisierung, also ein sogenanntes destilliertes Modell. Vorteil ist, das braucht nur ungefähr 20 Gigabyte Speicher. Das heißt, das läuft auch auf großen Consumer-Grafikkarten. Bei unserem letzten DeepSeek-Video haben einige von euch das Ding in den Kommentaren empfohlen. Aber ganz klar: Die 32-Milliarden-DeepSeek-Version ist durchaus okay, aber kein Vergleich zum echten DeepSeek mit 671 Milliarden Parametern.

Siehe auch Bunte Woche: Regenbogen-Eis & US-Flaggen-Hunde - Die Top Bilder!

Auch die Frage: „In einem Raum sind drei Menschen, Sahin liest ein Buch, Lukas spielt Schach, was macht Pascal, die dritte Person im Raum?“ beantwortet das große, bei mir lokal laufende R1-Modell korrekt mit: „Pascal spielt mit Lukas Schach, weil man für Schach ja zwei Leute braucht.“ Die 32-Milliarden-Parameter-Version dagegen sagt stumpf: „Kann man nicht herausfinden, was Pascal macht.“

Okay, man merkt tatsächlich einen Unterschied in der Intelligenz. Und auch nicht nur bei solchen Logik-Sachen sind die großen Modelle viel besser, auch beim kreativen Schreiben. Als ich zum Beispiel nach Witzen über die c’t-Redaktion gefragt habe, gab mir DeepSeek R1 Folgendes aus: Achtung, Achtung, jetzt wird hier gleich einmal gegendert. Nicht ausrasten hier und irgendwie gleich Feuerwehr anrufen oder so. Ich lese das so vor, wie DeepSeek es mir ausgegeben hat, und DeepSeek hat gegendert:

„Wie viele c’t-Mitarbeiter: innen braucht man, um eine Kaffeemaschine zu reparieren? Einen, der den Fehler behebt, und drei, die im Log protokollieren, dass das Komma in der Fehlermeldung falsch gesetzt war.“ Das ist wirklich witzig, vor allem, weil es ziemlich wahr ist.

DeepSeek R1-32b macht auch interessante Sachen, zum Beispiel, dass er da irgendwie die Witze in Python ausgibt, aber ehrlich gesagt ergibt das nur so halb Sinn. Also wie testet c’t-IoT-Security? Sie SSH’n in die Kaffeemaschine, um dann festzustellen, dass die in Hexcode antwortet? Okay, hä? Richtig lustig, aber unfreiwillig, wird’s, wenn man das mini-kleine Modell mit 1,5 Milliarden Parametern nimmt, das nur etwas mehr als ein Gigabyte Speicher verbraucht, also 700-mal weniger als das echte. Das sind dann die Dinger, die auf Raspis oder so laufen. Also nur mal so, was das so für eine Qualität ist.

Ich lese den Witz unverändert vor: „Der schauberische Schachwalt hat sich nicht nur als eine spartige Sprackengal bezeichnet, sondern auch als eine spannende, spannerche Bande in Mathienspielerin oder pauseninfanterin. Es wie geistiger Halsmamour, der den geistigen Bruch von Mennowelt umstellt.“ Direkt eigene Sprache erfunden. Und wenn jetzt jemand sagt: „Ja, die kleinen Modelle können ja kein Deutsch!“ – also auch auf Englisch macht das keinen richtigen Sinn, was die da ausgeben. Ist auch Quatsch.

Die 32B-Version? Ja, die hat zumindest auf Englisch einen ganz netten c’t-Witz gedroppt: „What do you call it when c’t editors argue? A syntax error in communication.“ Aber trotzdem nicht so gut wie die

Video-Transkript

Unser Server mit 1,5 TByte RAM

Der Test: Wie gut läuft DeepSeek lokal?

Ähnliche Artikel

Schreibe einen Kommentar Antwort abbrechen

Aktuelle Artikel

Unterhaltung

25 Jahre „Majora’s Mask“: Ein Wettlauf gegen die Zeit im Zelda-Universum!

Unterhaltung

Sakralbauten und Oldtimer: Entdecken Sie die spektakulärsten Bilder der Woche 16!

Unterhaltung

Bundesländer akzeptieren IARC-Alterseinstufung: Ein Durchbruch in der Selbstkontrolle!

Unterhaltung

So wird Ihr Homeserver von überall erreichbar – Ein einfacher Guide!

Unterhaltung

Bundesweiter Start der Elektronischen Patientenakte – Was erwartet uns?

Unterhaltung

Netflix baut kompletten Apple-Laden nach: Fehlende Drehgenehmigung kein Hindernis!