Grundlagen: Steuern der Ausgabe von Sprachmodellen

14. April 2025
5 Min. Lesezeit

Grundlagen: Steuern der Ausgabe des Sprachmodells

Nachdem du auf der Einführungsseite erfahren hast, was Prompt Engineering ist, tauchen wir nun tiefer ein. Ein wichtiger Aspekt beim Umgang mit Large Language Models (LLMs) ist die Möglichkeit, die Art der generierten Antwort zu beeinflussen. LLMs bieten dafür verschiedene “Regler” oder Parameter. Das Verständnis dieser Einstellungen ist entscheidend, um die Balance zwischen Präzision, Kreativität, Länge und Stil der KI-Antworten zu finden.

Lernen wir die wichtigsten Konfigurationsparameter kennen:

1. Ausgabelänge (Max Output Tokens)

Dieser Parameter bestimmt, wie lang die Antwort des Modells maximal sein darf. Die Länge wird üblicherweise in Tokens gemessen.

Was ist ein Token? Ein Token ist die grundlegende Einheit, die das LLM verarbeitet. Es ist nicht immer ein ganzes Wort. Oft sind es Wortteile, einzelne Zeichen, Satzzeichen oder ganze Wörter. Beispielsweise kann der Satz “Prompt Engineering ist wichtig” in Tokens wie [“Prompt”, ” Engine”, “ering”, ” ist”, ” wichtig”] zerlegt werden (die genaue Tokenisierung variiert je nach Modell).

Warum ist das wichtig? Du kannst damit erzwingen, dass das Modell sich kurz fasst (z.B. für Überschriften oder Zusammenfassungen) oder dass es genügend “Platz” für ausführliche Erklärungen oder längere Texte hat.

2. Temperatur (Temperature)

Die Temperatur ist einer der wichtigsten Regler zur Steuerung der Zufälligkeit und damit der “Kreativität” der Modellausgabe.

Niedrige Temperatur (z.B. 0.1 - 0.4): Das Modell verhält sich deterministischer und wählt hauptsächlich die Wörter aus, die es als am wahrscheinlichsten für die Fortsetzung des Textes hält.

  • Ergebnis: Fokussierte, kohärente, oft konservativere und vorhersehbarere Antworten.
  • Ideal für: Faktenbasierte Fragen, Code-Generierung, Zusammenfassungen, Textextraktion.

Hohe Temperatur (z.B. 0.7 - 1.0+): Das Modell berücksichtigt auch weniger wahrscheinliche Wörter stärker, was die Zufälligkeit erhöht.

  • Ergebnis: Kreativere, vielfältigere, manchmal überraschende oder neuartige Antworten. Kann aber auch zu weniger logischen, thematisch abschweifenden oder gar unsinnigen Ergebnissen führen.
  • Ideal für: Brainstorming, kreatives Schreiben (Gedichte, Geschichten), Ideenfindung, Dialoge.

Stell dir die Temperatur wie einen Thermostat für Kreativität vor: niedrig für kühle Fakten, hoch für hitzige Kreativität.

3. Top-K Sampling

Wenn das Modell das nächste Wort auswählt, berechnet es Wahrscheinlichkeiten für alle möglichen Tokens in seinem Vokabular. Top-K ist eine Methode, diese Auswahl einzuschränken:

Funktionsweise: Das Modell betrachtet nur die K wahrscheinlichsten nächsten Tokens und wählt zufällig (unter Berücksichtigung der Temperatur) aus dieser kleineren Gruppe aus.

Beispiel: Bei K=5 werden nur die 5 wahrscheinlichsten nächsten Wörter berücksichtigt, alle anderen ignoriert.

Effekt: Reduziert die Wahrscheinlichkeit, dass sehr unwahrscheinliche oder unsinnige Wörter gewählt werden, besonders bei höherer Temperatur. Macht die Ausgabe oft kohärenter.

4. Top-P (Nucleus) Sampling

Top-P ist eine alternative und oft bevorzugte Methode zur Einschränkung der Wortauswahl:

Funktionsweise: Statt einer festen Anzahl (K) wählt Top-P dynamisch eine Gruppe der wahrscheinlichsten Tokens aus, deren kumulierte Wahrscheinlichkeit einen bestimmten Schwellenwert P (z.B. 0.9 = 90%) erreicht oder überschreitet.

Beispiel: Bei P=0.9 werden die wahrscheinlichsten Tokens so lange aufsummiert, bis ihre gemeinsame Wahrscheinlichkeit 90% erreicht. Nur aus dieser “Kern”-Gruppe (Nucleus) wird das nächste Wort gewählt.

Vorteil: Passt sich der Situation an. Wenn das Modell sehr sicher ist, welches Wort folgen sollte (ein Wort hat z.B. 95% Wahrscheinlichkeit), wählt Top-P (mit P=0.9) nur dieses eine Wort aus. Wenn viele Wörter ähnlich wahrscheinlich sind, wird eine größere Gruppe berücksichtigt. Dies führt oft zu einer guten Balance zwischen Kohärenz und Kreativität.

Das Zusammenspiel der Parameter

Die Magie (und die Herausforderung) liegt darin, diese Parameter gemeinsam zu nutzen. Die optimalen Einstellungen hängen stark von deiner spezifischen Aufgabe ab:

Szenario 1: Du benötigst eine präzise, faktenbasierte Antwort:

  • Empfehlung: Niedrige Temperatur (z.B. 0.2), eventuell kombiniert mit Top-P (z.B. 0.9) oder Top-K (z.B. 5), um die Auswahl weiter zu fokussieren. Die Ausgabelänge sollte ausreichend, aber nicht unnötig lang sein.

Szenario 2: Du möchtest eine kreative Geschichte schreiben lassen:

  • Empfehlung: Höhere Temperatur (z.B. 0.75), kombiniert mit Top-P (z.B. 0.9) oder Top-K (z.B. 50), um Kreativität zu fördern, aber kompletten Unsinn zu vermeiden. Setze eine großzügige Ausgabelänge.

Vorsicht: Eine sehr hohe Temperatur (z.B. > 1.0) ohne Top-K oder Top-P kann schnell zu sehr zufälligen und unbrauchbaren Ergebnissen führen.

Fazit

Es gibt keine universell “besten” Einstellungen. Der effektivste Weg, diese Parameter zu meistern, ist das Experimentieren. Spiele mit verschiedenen Werten für Temperatur, Top-K und Top-P herum und beobachte, wie sich die Antworten des Modells verändern. So entwickelst du ein Gefühl dafür, welche Kombinationen für deine Ziele am besten funktionieren.

Nächster Schritt: Lerne die grundlegenden Prompting-Techniken kennen, um dem Modell klare Aufgaben zu geben.