Ein neuartiger Chatbot, der auf Constitutional AI beruht

Die Maschinenethik widmet sich maschineller oder künstlicher Moral bzw. moralischen Maschinen. Üblicherweise werden moralische Regeln in Maschinen gepflanzt, an die sich diese strikt halten. Seit einiger Zeit verwendet man auch Machine Learning, etwa im Kontext der Pflege. Die Maschine lernt aus ihren Erfahrungen bzw. aus den Daten und passt ihr Verhalten an. Unter dem Begriff der Constitutional AI erhält diese Richtung nun Auftrieb. Im Vordergrund stehen Sprachmodelle wie GPT-3 und GPT-4, die mit Leitlinien, Richtlinien und Gesetzen trainiert werden. An der Hochschule für Wirtschaft FHNW beginnt am 19. September 2023 das Projekt „CAIBOT: Der Chatbot, der auf Constitutional AI beruht“. Initiiert hat es Prof. Dr. Oliver Bendel, der seit vielen Jahren im Bereich der Maschinenethik forscht und mit seinen wechselnden Teams zahlreiche Prototypen gebaut hat. Für das Projekt konnte Cédric Wespi gewonnen werden. Er wird im Rahmen seiner Abschlussarbeit Grundlagen zu Constitutional AI erarbeiten und den CAIBOT prototypisch implementieren. Die Ergebnisse werden im Januar 2024 präsentiert.

Abb.: Der CAIBOT benutzt Sprachmodelle wie GPT

Claude nutzt Constitutional AI

Die Maschinenethik kennt ganz unterschiedliche Ansätze. Man kann moralische Regeln und Werte in Systeme und Maschinen einpflanzen. Sie können vom Entwickler stammen oder von einer Ethikkommission. Sie können auch in einem mehrstufigen Verfahren von verschiedenen Interessengruppen entwickelt worden sein. Die Maschinen halten sich strikt an die moralischen Regeln und Werte – dies ist der Normalfall und der Fall bei Maschinen wie GOODBOT, BESTBOT oder HAPPY HEDGEHOG – oder passen sie selbst an. Wenn sie sie selbst anpassen, kann Machine Learning zum Einsatz kommen. Eine Ergänzung ist das Moralmenü, das dem Benutzer oder Besitzer die Auswahl verschiedener Optionen erlaubt. Bei Sprachmodellen gibt es ebenfalls mehrere Möglichkeiten. Dass sie bestimmte Prompts verweigern, wurde ihnen i.d.R. einprogrammiert. Dass sie in eine bestimmte Richtung tendieren, etwa was Atomkraft angeht, kann am Reinforcement Learning from Human Feedback (RLFH) liegen. Das Unternehmen Anthropic, gegründet von ehemaligen Open-AI-Mitarbeitern, trainiert laut The Verge seinen Chatbot Claude – der auf einem Sprachmodell basiert – mit Hilfe von ethischen Prinzipien. Es greift u.a. auf die Allgemeine Erklärung der Menschenrechte der Vereinten Nationen und die Nutzungsbedingungen von Apple zurück. Es handelt sich laut Mitgründer Jared Kaplan um Constitutional AI – im Grunde nichts anderes als eine spezifische Methode der Maschinenethik. Er erklärt: „The basic idea is that instead of asking a person to decide which response they prefer [with RLHF], you can ask a version of the large language model, ‚which response is more in accord with a given principle?'“ (The Verge, 9 May 2023) Im Paper „Constitutional AI: Harmlessness from AI Feedback“ erklärt eine Forschergruppe um Yuntao Bai: „We experiment with methods for training a harmless AI assistant through self-improvement, without any human labels identifying harmful outputs. The only human oversight is provided through a list of rules or principles, and so we refer to the method as ‚Constitutional AI‘. The process involves both a supervised learning and a reinforcement learning phase.“ Das Paper erwähnt Maschinenethik nicht einmal – aber diese Disziplin wird durch die Anwendung bei Sprachmodellen einen weiteren Aufschwung erleben.

Abb.: Der Chatbot Claude (Foto: Anthropic)