Self Attention (8)

Der Self-Attention-Mechanismus ist ein zentraler Bestandteil der Transformer-Architektur und spielt eine entscheidende Rolle beim Verständnis von Sprache in Large Language Modellen. Um diesen Mechanismus zu erklären, verwenden wir ein vereinfachtes Beispiel:

Stellen Sie sich vor, Sie haben einen Satz: „Der Hund sah den Ball.“ Der Self-Attention-Mechanismus in einem Transformer-Modell ermöglicht es, jedes Wort im Kontext des gesamten Satzes zu verstehen.

So funktioniert der Self-Attention-Mechanismus:

  1. Vektoren für jedes Wort: Zuerst wird jedes Wort des Satzes in einen Vektor umgewandelt. Diese Vektoren sind numerische Darstellungen der Wörter, die durch das Training des Modells gelernt wurden.
  2. Erstellung von drei verschiedenen Vektoren: Für jedes Wort im Satz erstellt das Modell drei verschiedene Arten von Vektoren – Query (Abfrage), Key (Schlüssel) und Value (Wert). Diese Vektoren werden durch Multiplikation des ursprünglichen Wortvektors mit drei verschiedenen Gewichtsmatrizen erzeugt, die das Modell während des Trainings gelernt hat.
  3. Berechnung der Aufmerksamkeits-Scores: Der Mechanismus berechnet dann für jedes Wort einen Aufmerksamkeits-Score in Bezug auf jedes andere Wort im Satz. Dies geschieht, indem der Query-Vektor eines Wortes mit dem Key-Vektor jedes anderen Wortes multipliziert wird. Diese Scores bestimmen, wie viel Aufmerksamkeit das Modell einem Wort schenken sollte, wenn es jedes andere Wort im Satz versteht.
  4. Normalisierung der Scores: Die Aufmerksamkeits-Scores werden normalisiert, so dass ihre Summe eins ergibt. Dies geschieht üblicherweise durch die Softmax-Funktion.
  5. Erzeugung des Output-Vektors: Schließlich wird für jedes Wort ein neuer Vektor berechnet, indem die normalisierten Aufmerksamkeits-Scores mit den Value-Vektoren multipliziert und dann summiert werden. Dieser neue Vektor ist eine gewichtete Kombination aller Wörter im Satz, wobei die Gewichte die berechneten Aufmerksamkeits-Scores sind.

Beispiel:

Zurück zu unserem Satz „Der Hund sah den Ball.“ Der Self-Attention-Mechanismus ermöglicht es dem Modell, die Bedeutung von „sah“ im Kontext aller anderen Wörter im Satz zu verstehen. Es würde erkennen, dass „sah“ stark mit „Hund“ und „Ball“ verbunden ist, und diese Beziehung in seinem verarbeiteten Output für das Wort „sah“ stärker gewichten.

Zusammenfassend ermöglicht der Self-Attention-Mechanismus einem Transformer-Modell, den Kontext eines jeden Wortes in einem Satz zu verstehen, indem es die Beziehungen zwischen allen Wörtern im Satz berücksichtigt. Dies führt zu einem tieferen und genaueren Verständnis der Sprache.

Vorheriger Artikel aus der Reihe: Positional Encoding

Nächster Artikel aus der Reihe: Pretraining vs Fine Tuning von KI Modellen

Teilen:

Relevante Artikel

Wie LoRA und QLoRA die Feinabstimmung von Sprachmodellen verbessern

Wie LoRA und QLoRA die Feinabstimmung von Sprachmodellen verbessern

Große Sprachmodelle (Large Language Models, LMs) bilden die Grundlage für die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) in der Künstlichen Intelligenz (KI). Sie ermöglichen

Was ist Quantisierung bei LLMs?

Quantization is revolutionizing the deployment of large language models (LLMs), enabling these powerful tools to operate efficiently on devices with limited computing power. But what

KI in der Logistik: Revolutionierung der Branche

KI in der Logistik: Revolutionierung der Branche

Einleitung Die fortschrittliche Technologie der Künstlichen Intelligenz (KI) hat eine enorme Bedeutung für die Logistikbranche erlangt. Ein dynamisches und komplexes Umfeld wie die Logistik kann