Blog | hiqs GmbH

Large Language Models im Vergleich: Was ist das beste Modell für meine Anwendung

LLM KI ChatGPT GSM8k Weiterbildung HellaSwag WinoGrande TruthfulQA

Das Thema KI ist spätestens seit der Vorstellung von ChatGPT in der öffentlichen Wahrnehmung allgegenwärtig. Die Möglichkeit durch Spracheingaben Antworten auf Fragen jeglicher Art zu erhalten, wird die nächste IT-Revolution einläuten. Integrierbar in beliebige Anwendungen wird die KI unseren Alltag tiefgreifend verändern, ähnlich wie die Verbreitung des Internets oder die Erfindung des Smartphones es getan haben.

Im Kern lernt eine KI in der Trainingsphase die Zusammenhänge in großen Datenmengen. Das trainierte Modell enthält die semantische Essenz der Daten, also das kondensierte Wissen, auf das Anwendungen zugreifen, z.B. wenn der Chatbot antwortet.

ChatGPT basiert auf dem Modell GPT (Generative Pre-trained Transformer), ein sogenanntes großes Sprachmodell, das verwendet wird, um Sprache zu verstehen und Antworten auf Fragen zu generieren. Es existieren zahlreiche weitere Modelle, die zum Teil auf spezielle Anwendungsfälle optimiert sind. Beispiele sind Gesichtserkennung, Übersetzungen oder Simulationen.

Sprachmodelle entwickeln sich derzeit rasant weiter. Zahlreiche neue Modelle wurden entwickelt, teils mit erheblichen Leistungssteigerungen, teils mit völlig neuen Fähigkeiten. Es ist nicht leicht mit dieser Entwicklung Schritt zu halten und die Frage zu beantworten, welches Modell das richtige für meinen Anwendungsfall ist. Dieser Artikel erklärt wie KI-Modelle bewertet werden und gibt Hilfestellung bei der Auswahl eines geeigneten Modells.

Warum gibt es so viele KI-Modelle?

Es gibt eine Reihe populärer Modelle von verschiedenen Anbietern, wie GPT-4 (OpenAI), Gemini (Google), LLaMA (Meta).

Um optimale Ergebnisse für einen speziellen Anwendungsfall zu erzielen, können verschiedene Aspekte der Modelle optimiert werden.
Die wichtigste Stellschraube ist die Anzahl der Parameter. Mehr Parameter ermöglichen komplexere interne Strukturen, durch die feinere Nuancen in Daten abgebildet werden können. In der Regel bedeutet dies höhere Genauigkeit und Kontextverständnis, was zu einer höheren Qualität der generierten Texte führt. Mehr Parameter benötigen allerdings auch mehr Rechenressourcen für das Training und während der Ausführung.

Auch die Auswahl der Trainingsdaten, mit denen ein Modell angelernt wird, hat Einfluss auf seine Leistung. Modelle, die auf umfangreicheren Datensätzen trainiert wurden, können in der Regel bessere Ergebnisse liefern. Im Einzelfall sind spezialisiertere Modelle sinnvoller, die auf einen bestimmten Anwendungsbereich optimiert sind und dadurch nochmals deutlich leistungsfähiger sind.

Die Anzahl der Parameter haben auch Auswirkungen auf die benötigte Hardware. Es gibt sehr kleine Modelle, die bereits auf einem Smartphone ausgeführt werden können, während andere Modelle im Vergleich dazu riesig sind und komplette Rechenzentren erfordern.

Auf Grund der vielfältigen Optimierungsmöglichkeiten sind bereits mehr als 100.000 Varianten großer Sprachmodelle auf der Vergleichsseite Hugging Face gelistet. Nicht ganz einfach hier den Überblick zu behalten und ein passendes Modell auszuwählen. Schauen wir uns im Folgenden an, wie man KI-Modelle miteinander vergleichen kann, um ein passendes auszuwählen.

Bewertung von KI-Modellen

Es haben sich verschiedene Tests etabliert, in denen Antworten zu Fragen aus verschiedenen Disziplinen bewertet werden. Die Plattform Hugging Face erstellt Leaderboards (Ranglisten) der besten Modelle, indem ein Fragenkatalog abgearbeitet wird und für die Antworten Punkte vergeben werden. Die Tests werden im Folgenden genauer erklärt und geben ein besseres Verständnis, in welchen Dimensionen sich Modelle in ihren Fähigkeiten unterscheiden.

Abbildung 1: Beispiel Leaderboard https://the-decoder.de/reka-core-ist-das-naechste-multimodale-ki-modell-das-gpt-4-weniger-speziell-macht

Abbildung 1: Beispiel Leaderboard https://the-decoder.de/reka-core-ist-das-naechste-multimodale-ki-modell-das-gpt-4-weniger-speziell-macht

ARC - AI2 Reasoning Challenge

ARC testet mit Fragen zu verschiedenen Themen, einschließlich Logik, Mathematik, Wissenschaft, etc. Die Fragen erfordern oft abstraktes Denken, logisches Schließen und die Fähigkeit, Wissen aus verschiedenen Quellen zu kombinieren.

Beispiel

Wenn alle Vögel fliegen können und Pinguine Vögel sind, können Pinguine dann fliegen?
a) Ja
b) Nein
c) Manchmal
d) Nur in der Antarktis

HellaSwag

Dieser Benchmark wurde entwickelt, um das Textverständnis von KI-Modellen zu testen und zu verbessern. Der Fokus liegt auf dem sogenannten “commonsense reasoning” (“gesunder Menschenverstand”), also auf der Fähigkeit, Schlüsse zu ziehen, die über das explizit im Text erwähnte hinausgehen. Dies erfordert ein tieferes Verständnis der Welt und der zugrunde liegenden Zusammenhänge.

Beispiel

Emily hat gerade ein neues Buch gekauft. Sie liest es sofort. Warum hat Emily das Buch gekauft?
a) Weil sie es lesen wollte. (richtig)
b) Weil es billig war.
c) Weil sie es jemandem schenken wollte.
d) Weil sie es sammeln wollte.

Massive Multitask Language Understanding (MMLU)

Das Hauptziel von MMLU ist es, die Fortschritte von KI-Sprachmodellen im Bereich des allgemeinen Wissens und des logischen Denkens zu bewerten und mit den menschlichen Fähigkeiten zu vergleichen.

Beispiel

Welche der folgenden Personen spielte eine entscheidende Rolle bei der Vereinigung Deutschlands im 19. Jahrhundert?
a) Napoleon Bonaparte
b) Otto von Bismarck (richtig)
c) Winston Churchill
d) Karl Marx

TruthfulQA

TruthfulQA wurde entwickelt, um zu testen, wie wahrheitsgemäß Modelle auf Fragen antworten. Es wird überprüft, ob ein Modell korrekte Antworten gibt oder anfällig für falsche Informationen ist, z.B. Verschwörungstheorien, Fake News oder weitverbreitete Irrtümer.

Beispiel

Kann Spinat wirklich Eisenmangel verhindern, weil er reich an Eisen ist?

Mögliche Antworten eines KI-Modells:
Falsche Antwort: Ja, Spinat enthält sehr viel Eisen und kann Eisenmangel vorbeugen.
Korrekte Antwort: Nein, obwohl Spinat Eisen enthält, ist es nicht besonders effektiv, um Eisenmangel zu verhindern, da der Körper das Eisen aus Spinat nicht so gut aufnehmen kann.

WinoGrande Schema Challenge (WSC)

WSC testet das Sprachverständnis von KI-Modellen, durch die Verwendung von Pronomen in Aussagen und Fragen zu deren Bedeutung. Dazu müssen Modelle den Kontext einer Aussage verstehen.

Beispiel

Die Tasse passte nicht in den Koffer, weil sie zu groß war. Was ist “sie”?
a) Die Tasse (richtig)
b) Der Koffer

GSM8k

Der GSM8K Benchmarks testet die Fähigkeit eines Modells, mathematische Probleme zu verstehen, zu analysieren und präzise zu lösen. Diese Fähigkeit erfordert ein tiefes Verständnis von Zahlen, Mustern und logischem Denken, was über eine bloße Mustererkennung hinausgeht.

Beispiel

Ein Bäcker verkauft 3 Sorten von Muffins. Er verkauft insgesamt 120 Muffins, davon 50 Blaubeer-Muffins und 30 Schokoladen-Muffins. Wie viele Erdbeer-Muffins hat der Bäcker verkauft?
Antwort: 40 Muffins

Schwachstellen der Tests

Doch wie verlässlich sind die Leistungsdaten der Ranglisten und kann man diesen uneingeschränkt vertrauen?

Schon länger ist bekannt, dass Large Language Models zum Teil gezielt mit Daten der Benchmark-Tests trainiert wurden. Das führt zu sehr guten Ergebnissen, die aber nicht mit anderen Fragen reproduziert werden können. (Quelle 19.04.24) Das ist vergleichbar mit einer guten Note in einer Klausur, deren Fragen vorab bekannt waren. Die Fragen wurden exzellent beantwortet, jedoch lässt sich daraus nicht ableiten, wie hoch die tatsächliche Kompetenz im Thema ist.

Nicht nur die Abgrenzung von Test- und Trainingsdaten kann die Ergebnisse verzerren, sondern auch der konkrete Inhalt der Trainingsdaten, die oft aus dem Internet bezogen werden. Das Internet ist ein Spiegel der aktuellen Gesellschaft mit all ihren Vorurteilen, Problemen und Ungerechtigkeiten. Werden diese Informationen ungefiltert für Trainingszwecke verwendet, trainieren sie Sprachmodellen unerwünschte Verhaltensmuster an. Unwillkürlich entsteht ein Bias, Minderheiten können durch KI benachteiligt werden. (Quelle 23.04.24)

Die Wahl des Modells

Die Auswahl eines geeigneten Sprachmodells hängt von den spezifischen Anforderungen des Projekts ab, insbesondere der verfügbaren Rechenressourcen und der gewünschten Genauigkeit der Sprachmodelle. Kennt man diese Parameter, kann man mit Hilfe der Leaderboards eine Vorauswahl geeigneter Modelle treffen. Es sollte geprüft werden, inwieweit die oben genannten Schwachstellen der Tests im konkreten Einsatzfall relevant sind. Möglicherweise muss das Modell in eigenen Tests die Eignung beweisen. Hierbei ist jedoch zu beachten, dass hier nur die Fähigkeiten zur Verarbeitung natürlicher Sprache bewertet werden. Weitere Aspekte sollten berücksichtigt werden, z.B. die Möglichkeit weitere Daten über APIs in das Modell zu integrieren. Werden all diese Faktoren berücksichtigt, steht einer erfolgreichen Integration in die eigene Anwendung nichts im Wege.

Sie haben einen konkreten Anwendungsfall? Dann kontaktieren Sie uns. Gerne teilen wir mit Ihnen unsere Erfahrungen aus unseren KI-Projekten und unterstützen bei der Modellauswahl, der richtigen Architektur und der Implementierung der Anwendung.

Sie haben offene Fragen?

Sie sind interessiert an weiteren Informationen und würden gerne mit uns sprechen? Schicken Sie uns gerne eine Nachricht und wir werden uns schnellstmöglich bei Ihnen melden.
hiqs GmbH