Studie enthüllt: Künstliche Intelligenz schürft Diamanten in Minecraft!

Eine KI von DeepMind schürft erfolgreich Diamanten in „Minecraft“, ein Prozess, der als komplex gilt. Diese Lernmethode könnte auch für Roboteranwendungen nützlich sein.

Im Gegensatz zu Spielen wie Schach, Poker oder „Starcraft“, stellte „Minecraft“ bisher eine große Herausforderung für Künstliche Intelligenz dar. In diesem offenen Simulationsspiel wird die Welt zufällig durch den Computer erzeugt, was bedeutet, dass sie bei jedem Spiel anders aussieht. Ein KI-Algorithmus muss daher mehr Informationen speichern und verarbeiten als nur eine Reihe fester Handlungsstrategien. Ein von Google DeepMind geleitetes Team hat nun mit DreamerV3 eine Software entwickelt, die in einer speziell für KI-Tests entwickelten „Minecraft“-Welt erfolgreich Diamanten abgebaut hat, ohne dabei auf spezifisches Training oder menschliche Daten zurückzugreifen.

Wie Fachleute betonen, benötigen sogar erfahrene menschliche Spieler mindestens 20 Minuten und etwa 24.000 „Inputs“, um eine Diamantspitzhacke herzustellen. Für das in der Zeitschrift Nature beschriebene Experiment verwendeten die Forscher die „Minecraft“-Forschungsversion Malmo und Umgebungen aus dem MineRL-KI-Wettbewerb. Eine erste Version der Studie, die noch nicht von unabhängigen Forschern begutachtet wurde, erschien bereits 2023 auf dem Preprint-Server Arxiv. DreamerV3 basiert auf dem Konzept des Reinforcement Learning (RL), einer Methode, die den menschlichen Lernprozess durch Versuch und Irrtum nachahmt.

„Dreamer lernt ein Modell der Umgebung und optimiert sein Verhalten, indem es sich zukünftige Szenarien ausmalt“, erklärt das Team. „Techniken der Robustheit, die auf Normalisierung, Ausgleich und Transformationen basieren, ermöglichen ein stabiles Lernen über verschiedene Bereiche hinweg.“ Die dritte Version dieses Algorithmus ist die erste, die „von Grund auf ohne menschliche Daten oder Anleitungen Diamanten in ‚Minecraft‘ abbaut“. Die Belohnung, die die KI im Lernprozess erhält, wird dabei durch mathematische Funktionen festgelegt, die von den Programmierern im Voraus bestimmt werden. DreamerV3 erhielt eine kleine Unterstützung: Für den Abbau von Rohstoffen muss die Spielfigur wiederholt auf einen Block schlagen. Hierfür legten die Autoren eine Mindestanzahl von Schlägen fest.

Siehe auch Spannendes Quiz: Errate die Jahreszahlen im Web!

Gemischte Reaktionen von unabhängigen Forschern

Viele auf RL basierende KIs funktionieren besonders gut in spezifischen Domänen, für die ihre Belohnungsfunktionen maßgeschneidert sind. Laut der Studie soll DreamerV3 jedoch in verschiedenen Umgebungen beeindrucken: Der Algorithmus habe in einer Reihe von Spielen und Aufgaben besser abgeschnitten als viele domänenspezifische Modelle. Dies gilt auch im Vergleich zum von OpenAI entwickelten Algorithmus Proximal Policy Optimization (PPO), der ebenfalls für verschiedene Anwendungsbereiche konzipiert ist. Der Hersteller von ChatGPT testete 2022 im Rahmen des Mine-RL-Wettbewerbs auch das Modell Video PreTraining (VPT), das ebenfalls eine Diamantspitzhacke in „Minecraft“ herstellen können soll. DreamerV3 entwickelt laut Analyse durch Simulation mehrerer aufeinanderfolgender Aktionen eine maßgeschneiderte Strategie zur Lösung der gestellten Aufgaben.

„Die Studie ist erstklassig und richtungsweisend“, lobt Georg Martius, Experte für autonomes Lernen am Max-Planck-Institut für Intelligente Systeme in Tübingen, die Arbeit der Kollegen gegenüber dem Science Media Center (SMC). Modellbasiertes RL wurde schon länger als vielversprechende Methode gehandelt, aber erst dieses Papier zeige, dass es sehr breit und effizient eingesetzt werden kann.“ Die Anwendungsbereiche reichen von einer Vielzahl an Videospielen bis hin zur vereinfachten Steuerung von Robotern. Das Besondere an DreamerV3 ist, dass es alle Probleme mit denselben Einstellungen löst, was darauf hindeutet, dass der Algorithmus bei neuen Herausforderungen sofort einsatzbereit ist und kaum Anpassungen benötigt. Weniger überzeugt zeigt sich Jan Peters, Professor für intelligente Systeme an der TU Darmstadt: Die eingesetzten heuristischen Regeln erzielten zwar beeindruckende Ergebnisse in der Praxis, seien aber „intellektuell unbefriedigend“. Sie seien „wahrscheinlich wenig nützlich in der realen Welt“ und nur in Simulationen sinnvoll.

Siehe auch Update bringt USB-C zu AirPods Max – Endlich verlustfreies Audio!

Gemischte Reaktionen von unabhängigen Forschern

Ähnliche Artikel

Schreibe einen Kommentar Antwort abbrechen

Aktuelle Artikel

Unterhaltung

25 Jahre „Majora’s Mask“: Ein Wettlauf gegen die Zeit im Zelda-Universum!

Unterhaltung

Sakralbauten und Oldtimer: Entdecken Sie die spektakulärsten Bilder der Woche 16!

Unterhaltung

Bundesländer akzeptieren IARC-Alterseinstufung: Ein Durchbruch in der Selbstkontrolle!

Unterhaltung

So wird Ihr Homeserver von überall erreichbar – Ein einfacher Guide!

Unterhaltung

Bundesweiter Start der Elektronischen Patientenakte – Was erwartet uns?

Unterhaltung

Netflix baut kompletten Apple-Laden nach: Fehlende Drehgenehmigung kein Hindernis!