DeepSeek im Test: Eine Woche mit der revolutionären Suchtechnologie!

DeepSeek stellt eine Herausforderung dar: Ist es möglich, ohne massive Rechenzentren mit OpenAI zu konkurrieren? c’t 3003 hat die neuen Sprachmodelle eingehend untersucht.

DeepSeek erregt Aufsehen in der Welt der Künstlichen Intelligenz: Das neue Sprachmodell des chinesischen Unternehmens soll mit OpenAIs Reasoning-Modell o1 mithalten können und wurde zu einem Bruchteil der Kosten entwickelt. Während US-Unternehmen auf gewaltige Rechenkapazitäten setzen, möchte DeepSeek mit einer effizienten Architektur punkten. Allerdings ist der „Open-Source“-Ansatz nicht wirklich offen, zudem gibt es politische Zensur.

Video-Transkript

(Hinweis: Dieses Transkript dient Menschen, die das obige Video nicht sehen können oder wollen. Der Text repräsentiert nicht alle visuellen Informationen.)

Seht her, das ist DeepSeek. Dieser unauffällige „Open-Source“-Chatbot sorgt derzeit für Furore. Ihr habt davon sicherlich gehört, wenn ihr in letzter Zeit online wart. Der Grund für die Aufregung ist, dass dieses Tool besser sein soll als der derzeitige Marktführer ChatGPT von OpenAI, aber auch deshalb, weil DeepSeek offen ist, d.h., man kann es herunterladen und auf eigener Hardware betreiben, und weil es zu deutlich niedrigeren Kosten trainiert wurde als die großen US-Sprachmodelle. Das Ergebnis: Die Aktienkurse der US-Tech-Firmen sind stark gefallen, weil die bisherige Annahme offenbar nicht mehr zutrifft. Nämlich diese: Zur Vorantreibung von KI benötigen wir immer mehr Rechenleistung, immer größere Server, immer umfangreichere Rechenzentren. Das scheint nun nicht mehr der Fall zu sein. In diesem Video schauen wir uns genau an, was hinter diesem Hype steckt, ob das Tool wirklich besser ist als ChatGPT. Also, wie es DeepSeek mit so geringen Ressourcen geschafft hat, die großen KI-Anbieter alt aussehen zu lassen. Und es gibt auch einige problematische Aspekte, die ihr wissen solltet, bevor ihr DeepSeek ausprobiert. Bleibt dran!

Liebe Hacker und Internetnutzer, willkommen hier bei …

Ehrlich gesagt, als Anfang der Woche plötzlich alle über DeepSeek zu sprechen begannen, war mein erster Gedanke: „Okay, der KI-Hype-Zug hat in den letzten Monaten etwas an Fahrt verloren, und jetzt wird krampfhaft nach etwas gesucht, das gepusht werden kann.“ Doch solche Gefühle lassen wir natürlich nicht zu. Deshalb haben mein Kollege Lukas und ich DeepSeek wirklich gründlich getestet. Und vorab: Ja, der Hype ist definitiv mehr als nur heiße Luft. Da ist definitiv etwas dran. Und wir beginnen jetzt mit den Grundlagen. Was ist DeepSeek überhaupt? Also, DeepSeek befindet sich definitiv in einer Phase des Hypes, und DeepSeek ist ein KI-Startup aus dem chinesischen Hangzhou, das oft als das Silicon Valley Chinas bezeichnet wird. Finanziert wird die Firma von dem Hedgefonds Highflyer, ebenfalls aus China. Und DeepSeek entwickelt offene KI-Modelle, verkauft aber auch den Zugang zu diesen Modellen. Also im Grunde ganz ähnlich wie OpenAI, nur dass OpenAI ihre Modelle eben nicht frei zum Herunterladen anbietet.

Kurz dazu, warum ich nicht wie viele andere von Open-Source spreche, wenn es um DeepSeek geht. Weil DeepSeek zwar die Weight-Daten, also die Daten des Sprachmodells, zur Verfügung stellt, sodass man die KI selbst lokal betreiben kann, aber sie sagen nicht, was genau die Trainingsdaten sind und was in diesen Trainingsdaten enthalten ist. Bei echtem Open-Source würde ich erwarten, dass man auch Zugang zu den Trainingsdaten hat. Das ist nicht der Fall. Ja, aber natürlich ist es trotzdem deutlich offener als zum Beispiel die Angebote von OpenAI. Und obwohl das erste KI-Modell von DeepSeek bereits im November 2023 erschien, hat der Hype erst jetzt begonnen, ausgelöst durch das Modell DeepSeek R1. Ja, okay, ich merke schon, das ist alles etwas verwirrend mit den Namen. Also ich versuche nochmal einfacher zu beginnen. Es gibt in der Welt der großen Sprachmodelle derzeit zwei wichtige Formen: die normalen Modelle, die schnell und direkt auf eure Fragen antworten, und die sogenannten Reasoning-Modelle, die quasi mit sich selbst diskutieren, bevor sie antworten, bzw. ihre Denkschritte noch einmal systematisch durchgehen. Dadurch sind sie besser für komplexere Aufgaben geeignet, wie zum Beispiel mathematische Probleme. Der Nachteil ist, sie arbeiten viel langsamer als normale Modelle, benötigen mehr Rechenleistung und sind daher teurer in der Anwendung. Bei OpenAI heißt das normale aktuelle Modell GPT-4o und das Reasoning-Modell o1. Und allein dafür hat sich OpenAI schon mindestens so viel Mühe gegeben, dass man sich nicht so einen bösen Blick von mir verdient. Weil was? 4o und o1? Und das eine soll… wie soll man denn das unterscheiden? Und als finalen Fehltritt haben sie dann den Nachfolger von o1 einfach O3 genannt. Das weiß man ja, nach 1 kommt 3. Ja, und DeepSeek macht es jetzt leider auch nicht unbedingt viel besser. Da heißt das normale Modell DeepSeek V3 und das Reasoning-Modell DeepSeek R1. Und wenn man diese beiden Modelle nutzen möchte, dann kann man einfach auf chat.deepseek.com gehen. Dort einen Account erstellen und das Ganze dann kostenlos nutzen. Anders als bei ChatGPT braucht man hier übrigens keine Handynummer angeben. Die Mailadresse reicht oder man kann sich auch über Google anmelden. Und natürlich ganz anders als bei ChatGPT, bei DeepSeek kann man sich die Modelle auch herunterladen und lokal betreiben. Weil alles unter der MIT-Lizenz steht. Man kann die also sogar kommerziell nutzen, wenn man möchte. Aber, aber, aber, aber, will man das in der Qualität haben, wie das auf DeepSeek.com läuft, benötigt man extrem viel Hardware. Also zum Beispiel 16 Nvidia H100 mit jeweils 80 GB. Die kosten mindestens 30.000 € das Stück. Ja, denn sowohl DeepSeek V3 als auch R1 haben jeweils über 600 Milliarden Parameter. Da benötigt man auch erst einmal den Speicher dafür. Ja, und es gibt so abgespeckte Varianten, sogenannte destillierte Modelle, die auch auf Consumer-Hardware laufen. Aber ja, die haben mit den großen Modellen nicht mehr so viel gemeinsam. Ehrlich gesagt nervt mich das auch ein wenig, dass ich ständig höre: „Oh, ich habe DeepSeek auf meinem Raspberry Pi ausprobiert, ist viel schlechter als ChatGPT.“ Ja, kein Wunder, weil diese kleinen DeepSeek-Varianten eben deutlich schlechtere Qualität liefern als das echte große Modell.

Siehe auch Ubisoft gründet neue Tochterfirma für "Assassin's Creed" & "Far Cry" – Details hier!

Ein Beispiel: Ich habe hier mal die recht populäre 7B, also 7 Milliarden Parameter, QN-Version von DeepSeek im LM-Studio lokal laufen lassen und nach Hannover-Ausflugstipps gefragt. Und ich meine, das Ding klingt ernsthaft, als sei es komplett betrunken. Die Galerie mit dem nonchalanten Eingang. „Der Eingang ist so cool, dass du nicht glaubst, dass die Bilder wirklich so cool sind.“ Also, es hat das wirklich ausgegeben als Ausflugstipp. Und dass irgendwas so cool ist, dass du nicht glaubst, wie cool das ist, das ist so eine Sprachfigur, die kommt in fast allen diesen Beschreibungstexten vor. Also hinter jedem Tipp immer so: „Das ist so cool, dass du nicht glaubst, wie cool das ist.“ Und das Ding denkt sich auch einfach Wörter aus, wie zum Beispiel „artristisch“ oder „samtische Samti-Meinung“. Hm, okay, okay. Also interessant, aber nicht unbedingt. Deshalb schauen wir uns DeepSeek jetzt mal dort an, wo es wohl auch die meisten Leute tun: Auf der Website oder in der App. Beide, wie gesagt, kostenlos. Ach so, ja, und um nochmal den Hype deutlich zu machen: DeepSeek ist sowohl im Apple- als auch im Google-App-Store, zu dem Zeitpunkt, wo ich hier das Video aufnehme, die meist heruntergeladene App. Die Oberfläche von DeepSeek ist erst mal relativ schlicht gehalten. Vor allem hier mal im Vergleich zu ChatGPT oder Perplexity. Bis auf einen Hinweis zur App, die genauso aussieht wie die Website, gibt es hier nur eine Übersicht der letzten Chats und das Textfeld hier. Da kann ich dann einstellen, ob ich das Reasoning-Modell R1 und/oder die Websuche noch zuschalten will. Ansonsten wird standardmäßig das Modell V3 verwendet. DeepSeek kann zwar Uploads verarbeiten, allerdings nur den Text daraus. Also Texte extrahiert das Ding dann aus dem PDF oder von Bildern, die mit dem Smartphone gemacht wurden. Also, wenn man zum Beispiel eine fremdsprachige Speisekarte fotografiert oder so. Und das funktioniert dann auch soweit gut. Ich habe dann mehrere PDFs hochgeladen und alle Fragen dazu wurden richtig beantwortet. Das gilt aber wirklich nur für Text. Bilder in den PDFs konnte DeepSeek zum Zeitpunkt des Tests nicht verarbeiten. Ja und die Modelle V3 und R1 sind halt auch einfach nicht multimodal. Die können also keine Bilder, Töne und Videos gleichzeitig verarbeiten.

Siehe auch Rundfunkbeitrag unverändert: 18,36 Euro – Keine Erhöhung in Sicht!

Und jetzt, darauf habt ihr wahrscheinlich gewartet, der Vergleich zu ChatGPT. Also als reiner Text-Chatbot ist DeepSeek sehr, sehr gut. Es macht einfach sehr zuverlässig genau das, was man will, wenn man bei ChatGPT oder auch Claude von Anthropic manchmal das Gefühl hat, man muss irgendwie so ein bockiges Kind überreden. Konkretes Beispiel von mir: Ich wollte neulich das Transkript unseres Waymo-Videos Korrektur lesen lassen. Also das Transkript war von Whisper erzeugt worden und das war einfach nur so eine Textwand und da wollte ich was Lesbares draus machen. Wollte das also Korrektur lesen und vor allem sinnvolle Absätze da einfügen. Das Transkript hatte 4300 Wörter, was jetzt also nicht so immens riesig ist. Ja und sowohl ChatGPT als auch Claude haben immer nur einen Teil des Textes ausgegeben. Und immer wieder habe ich gesagt: Mach bitte weiter, bitte gib mir den kompletten Text. Ich kann damit nichts anfangen, wenn du mir nur das erste Viertel gibst. Und dann immer so: Ja klar, mach ich. Aber dann kam trotzdem immer nur maximal die erste Hälfte. Bei ChatGPT habe ich übrigens sogar die Bezahlversion genutzt, die über 20 Euro im Monat kostet. Und ich habe das über 10 Mal versucht. Immer wieder gesagt: Gib mir bitte den ganzen Text. Hallo, bitte, ich werde langsam richtig sauer. Und auch nach 10 Versuchen hatte ich den Text nicht. Aber jetzt bei DeepSeek: Einfach Text rein, erster Versuch, zack, der komplette Text. Auch wenn ich mit so Coding-Zeug rumexperimentiert habe. Dann versuchen die anderen Chatbots immer erst mal, mir das Ganze so theoretisch zu verkaufen. So und so kannst du das machen, hier mit Python und ddd. Ich muss dann aber immer sagen: Gib mir doch bitte den Code. Ich will einfach den Code haben. DeepSeek gibt sofort den kompletten Code aus. Und erstaunlicherweise auch sogar, wenn ich irgendwie so kleine Veränderungen haben wollte. Bei anderen Fahrtnamen oder so. Dann hat er mir wirklich den kompletten Code wiedergegeben. Während bei den anderen Systemen immer nur die eine Zeile ausgetauscht wurde. Wenn man so schnell Copy-Pasten will, ist das natürlich ziemlich praktisch mit DeepSeek. Also allgemein kann ich sagen: Bei DeepSeek hat man nicht das Gefühl, wie bei den anderen Chatbots manchmal, dass man ständig gegen so eine Verweigerungshaltung ankämpfen muss. Ja und hier bei meinen LLM-Standard-Fragen würde ich sagen, dass DeepSeek auch definitiv auf dem Niveau der Konkurrenz ist. Hier der obligatorische Witz. In dem Martin Luther, ein Schokokuchen und ein Raspberry Pi vorkommen. Martin Luther, ein Schokoladenkuchen und ein Raspberry Pi gehen in eine Bar. Der Barkeeper schaut sie verwirrt an und fragt: „Was soll das denn werden?“ Martin Luther antwortet: „Eine Reformation der Nachspeisen.“ Der Schokoladenkuchen meint: „Ich bin hier, um die Sünde der Kalorien zu vergeben.“ Und der Raspberry Pi fügt hinzu: „Und ich programmiere das Dessert so, dass es sich selbst aufisst.“ Der Barkeeper seufzt. „Das klingt nach einem himmlischen Fehler 404. Humor nicht gefunden.“ Bei meiner Hannover-Ausflugstipp-Frage kamen ganz okaye Antworten, aber auch einige Halluzinationen. Ist aber auch fies, weil ich halt explizit gebeten habe, dass das keine Standardtipps aus Reiseführern sein sollen. Das ist halt fies, weil die Teile dann halt anfangen, sich irgendwas aus den Rippen zu leiern, also zu halluzinieren. Also zum Beispiel behauptet DeepSeek, man muss diskret im Café Conrad nach Zugang zu den Tunneln fragen und dann kann man einfach so reingehen. Aber generell fand ich die DeepSeek-Antworten auch trotz Halluzinationen nicht schlechter als bei ChatGPT. Da gibt es nämlich auch nach wie vor Halluzinationen bei der Frage. Das einzige mir aktuell bekannte KI-Produkt, was die Frage nach 20 Hannover-Tipps, die nicht im Reiseführer stehen, ohne Halluzinationen beantwortet, ist interessanterweise Perplexity. Ja, und jetzt noch zur Geschwindigkeit von DeepSeek. Ich würde sagen, unspektakulär. Die Geschwindigkeit ist völlig okay und liegt so ziemlich gleich auf mit der Konkurrenz. Also je nach Serverform sozusagen fällt jetzt nicht als besonders langsam oder als besonders schnell auf. Zumindest beim normalen V3-Modell, beim R1-Modell gab es immer wieder Wartezeiten oder Anfragen funktionierten gar nicht. Das ist im Test bei V3 allerdings auch manchmal passiert. DeepSeek sagt, sie wurden in der Zeit angegriffen, gehackt. Ich weiß nicht, ob sie einfach überlastet waren, das muss man mal im Auge behalten. Auf jeden Fall kann man im Gegensatz zu ChatGPT oder Claude bei DeepSeek zurzeit auch noch kein bezahltes Abo abschließen, um dann priorisierten Zugang zu haben. Muss man also geduldig sein.

Siehe auch JBL Bar 1300: Revolutionäres Sound-Erlebnis mit Dolby Atmos und Akku-Satelliten!

Ja, und nicht nur bei unserem Test schneidet DeepSeek gut ab, sondern auch in sehr vielen anderen Benchmarks und oft auch besser als GPT-4o und Claude 3.5. Und auch hier in der LLM-Arena, wo echte Menschen die Qualität der Antworten bewerten, ohne zu wissen, von welchem LLM die kommen. Also da fragt man was und dann kriegt man zwei Antworten von unterschiedlichen LLMs und dann klickt man da an, was einem besser gefällt. Und auch da steht DeepSeek sehr weit oben und auch vor vielen großen kommerziellen Produkten. So, jetzt aber zu den Problemen. Die gibt es nämlich leider auch. Der Wahrheitsgehalt oder die Präzision, die hört dann nämlich spätestens bei Fragen zu China und dem dortigen politischen System auf. Da ist DeepSeek nämlich voll auf Regierungskurs und redet zum Beispiel die Ordnung, die sie in den letzten Jahren verfolgt hat, nicht nur über die Qualität, sondern auch über die Quantität. Und das ist auch ein bisschen das Problem, weil es ja auch ein bisschen so ist, dass die objektiv schlechtere Pressefreiheit in China im Vergleich zu Deutschland schön ist. Aber so richtig mit historischem Kontext und so. Meistens bricht es aber solche Gespräche auch einfach ab. Und das sogar bei sehr harmlosen Fragen zum politischen System in China. Entschuldigung, das liegt außerhalb meines aktuellen Wissensbereichs. Lass uns doch bitte über was anderes sprechen. Interessant auch, dass man sieht, dass die Antwort eigentlich gegeben wird. Also DeepSeek fängt an zu antworten und dann auf einmal schaltet es um auf diese Fehlermeldung. Und bei so Logik-Aufgaben hat DeepSeek V3 noch Probleme, weil es die manchmal lösen möchte, obwohl das einfach nicht möglich ist

Video-Transkript

Ähnliche Artikel

Schreibe einen Kommentar Antwort abbrechen

Aktuelle Artikel

Unterhaltung

25 Jahre „Majora’s Mask“: Ein Wettlauf gegen die Zeit im Zelda-Universum!

Unterhaltung

Sakralbauten und Oldtimer: Entdecken Sie die spektakulärsten Bilder der Woche 16!

Unterhaltung

Bundesländer akzeptieren IARC-Alterseinstufung: Ein Durchbruch in der Selbstkontrolle!

Unterhaltung

So wird Ihr Homeserver von überall erreichbar – Ein einfacher Guide!

Unterhaltung

Bundesweiter Start der Elektronischen Patientenakte – Was erwartet uns?

Unterhaltung

Netflix baut kompletten Apple-Laden nach: Fehlende Drehgenehmigung kein Hindernis!