Claude nutzt Constitutional AI

Die Maschinenethik kennt ganz unterschiedliche Ansätze. Man kann moralische Regeln und Werte in Systeme und Maschinen einpflanzen. Sie können vom Entwickler stammen oder von einer Ethikkommission. Sie können auch in einem mehrstufigen Verfahren von verschiedenen Interessengruppen entwickelt worden sein. Die Maschinen halten sich strikt an die moralischen Regeln und Werte – dies ist der Normalfall und der Fall bei Maschinen wie GOODBOT, BESTBOT oder HAPPY HEDGEHOG – oder passen sie selbst an. Wenn sie sie selbst anpassen, kann Machine Learning zum Einsatz kommen. Eine Ergänzung ist das Moralmenü, das dem Benutzer oder Besitzer die Auswahl verschiedener Optionen erlaubt. Bei Sprachmodellen gibt es ebenfalls mehrere Möglichkeiten. Dass sie bestimmte Prompts verweigern, wurde ihnen i.d.R. einprogrammiert. Dass sie in eine bestimmte Richtung tendieren, etwa was Atomkraft angeht, kann am Reinforcement Learning from Human Feedback (RLFH) liegen. Das Unternehmen Anthropic, gegründet von ehemaligen Open-AI-Mitarbeitern, trainiert laut The Verge seinen Chatbot Claude – der auf einem Sprachmodell basiert – mit Hilfe von ethischen Prinzipien. Es greift u.a. auf die Allgemeine Erklärung der Menschenrechte der Vereinten Nationen und die Nutzungsbedingungen von Apple zurück. Es handelt sich laut Mitgründer Jared Kaplan um Constitutional AI – im Grunde nichts anderes als eine spezifische Methode der Maschinenethik. Er erklärt: „The basic idea is that instead of asking a person to decide which response they prefer [with RLHF], you can ask a version of the large language model, ‚which response is more in accord with a given principle?'“ (The Verge, 9 May 2023) Im Paper „Constitutional AI: Harmlessness from AI Feedback“ erklärt eine Forschergruppe um Yuntao Bai: „We experiment with methods for training a harmless AI assistant through self-improvement, without any human labels identifying harmful outputs. The only human oversight is provided through a list of rules or principles, and so we refer to the method as ‚Constitutional AI‘. The process involves both a supervised learning and a reinforcement learning phase.“ Das Paper erwähnt Maschinenethik nicht einmal – aber diese Disziplin wird durch die Anwendung bei Sprachmodellen einen weiteren Aufschwung erleben.

Abb.: Der Chatbot Claude (Foto: Anthropic)