Übersicht über LLM-Architekturen und ihre Merkmale

1. Dense Models (Standard-Transformer-Architektur)

Beispiele: GPT-3/4, Llama, Mistral, PaLM Merkmale:

  • Klassische Transformer-Architektur mit dichten Attention-Mechanismen.
  • Verarbeiten alle Eingabetoken gleichzeitig.
  • Stärken: Universell einsetzbar, gut für generative Aufgaben.
  • Schwächen: Hoher Rechenaufwand bei langen Kontexten.

2. Mixture of Experts (MoE)

Beispiele: Mistral Mixtral, Switch-Transformer Merkmale:

  • Mehrere spezialisierte Submodelle („Experten“), nur eine Teilmenge pro Eingabe aktiv.
  • Router entscheidet über relevante Experten.
  • Stärken: Effizienter, skalierbar auf große Modellgrößen.
  • Schwächen: Komplexeres Training.

3. Reasoning-optimierte Modelle

Beispiele: Claude, GPT-4 (Variationen) Merkmale:

  • Fokus auf logisches Denken und Schritt-für-Schritt-Problemlösung.
  • Oft durch Chain-of-Thought-Prompting optimiert.
  • Stärken: Besser für komplexe Aufgaben wie Mathematik oder Code.
  • Schwächen: Weniger „kreativ“.

4. Retrieval-Augmented Models (RAG)

Beispiele: RAG mit FAISS/Weaviate Merkmale:

  • Kombination aus LLM und externer Wissensdatenbank.
  • Stärken: Aktualisierbares Wissen, weniger Halluzinationen.
  • Schwächen: Abhängig von der Qualität der Datenbank.

5. Small Language Models (SLMs)

Beispiele: TinyLlama, Phi-2 Merkmale:

  • Kompakte Versionen großer Modelle.
  • Stärken: Schnell, ressourcenschonend, gut für Edge-Geräte.
  • Schwächen: Geringere Leistung bei komplexen Aufgaben.

6. Multimodale Modelle

Beispiele: GPT-4V, LLaVA Merkmale:

  • Verarbeiten Text, Bilder, Audio oder Video.
  • Stärken: Universell für multimodale Aufgaben.
  • Schwächen: Höhere Komplexität.

7. Hybride Architekturen

Beispiele: MoE + RAG, Transformer + symbolische Logik Merkmale:

  • Kombination verschiedener Ansätze.
  • Stärken: Flexibel, leistungsstark für spezifische Anwendungen.
  • Schwächen: Komplexität in Training und Deployment.

8. Neuro-Symbolische Modelle

Beispiele: DeepProbLog Merkmale:

  • Neuronale Netze + symbolische Logik.
  • Stärken: Interpretierbar, gut für formale Aufgaben.
  • Schwächen: Weniger flexibel für unstrukturierte Daten.

9. Energy-Based Models (EBMs)

Beispiele: Experimentelle Ansätze Merkmale:

  • Nutzen Energie-Funktionen für Wahrscheinlichkeitsmodellierung.
  • Stärken: Besser für Unsicherheitsquantifizierung.
  • Schwächen: Komplexes Training.

10. Diffusionsmodelle für Sprache

Beispiele: DiffuseLM Merkmale:

  • Diffusionsprozesse für Textgenerierung.
  • Stärken: Kontrolle über Generierungsprozess.
  • Schwächen: Langsam, noch nicht ausgereift.

11. State Space Models (SSMs)

Beispiele: S4, H3 Merkmale:

  • Ersetzen Attention durch rekurrente Zustandsräume.
  • Stärken: Effizienter für lange Sequenzen.
  • Schwächen: Weniger etabliert als Transformer.

Vergleichstabelle

TypSkalierbarkeitEffizienzReasoningMultimodalAktualität
Dense ModelsHochMittelMittelNeinNein
MoESehr hochHochMittelNeinNein
Reasoning-ModelleMittelMittelHochNeinNein
RAGMittelMittelHochJa*Ja
SLMsNiedrigHochNiedrigNeinNein
MultimodalHochNiedrigMittelJaNein

*RAG kann mit multimodalen Datenbanken kombiniert werden.