Trace Id is missing
Zu Hauptinhalt springen
Azure

Was sind große Sprachmodelle (Large Language Models, LLMs)?

Verschaffen Sie sich einen Überblick über die Funktionsweise von LLMs – und erkunden Sie, wie sie zum Erstellen von KI-gesteuerten Lösungen verwendet werden.

LLM-Bedeutung

Große Sprachmodelle (Large Language Models, LLMs) sind fortschrittliche KI-Systeme, die natürliche Sprache oder menschenähnlichen Text verstehen und generieren, indem sie die Daten verwenden, mit denen sie mithilfe von Techniken des maschinellen Lernens trainiert wurden. LLMs können automatisch textbasierte Inhalte generieren, die auf eine Vielzahl von Anwendungsfällen in verschiedenen Branchen angewendet werden können, was zu mehr Effizienz und Kosteneinsparungen für Organisationen weltweit führt. 

Wesentliche Punkte

  • LLMs sind fortschrittliche KI-Systeme, die natürliche Sprache verstehen und generieren können.
  • LLMs basieren auf Deep Learning-Architekturen und Techniken des maschinellen Lernens, um Informationen aus verschiedenen Datenquellen zu verarbeiten und zu integrieren.
  • LLMs bieten wichtige Vorteile, z. B. Sprachgenerierung und Übersetzung, für eine Vielzahl von Feldern.
  • Obwohl sie bahnbrechend sind, stehen LLMs vor Herausforderungen, die Rechenanforderungen, ethische Bedenken und Einschränkungen beim Verstehen von Kontext umfassen können.
  • Trotz dieser Herausforderungen verwenden Organisationen bereits die GPT (generativer vortrainierter Transformator)-Serie und BERT (Bidirectional Encoder Representations from Transformers) für Aufgaben wie Inhaltserstellung, Chatbots, Übersetzung und Stimmungsanalyse.

Funktionsweise von LLMs

Kurze Geschichte von LLMs

LLMs sind eine moderne Entwicklung, aber die Studie zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) geht auf das Jahr 1950 zurück, als Adrian Turing den Turing-Test veröffentlichte, um das intelligente Verhalten von Computern zu messen. Bei dem Test spricht ein menschlicher Richter mithilfe einer Reihe von Fragen mit einem Computer und muss ermitteln, ob er mit einem Computer oder einem Menschen spricht.
In den 1980er- und 1990er-Jahren verlagerte sich NLP weg von Logikexperimenten hin zu einem mehr datengesteuerten Ansatz. Statistische Sprachmodelle, wie z. B. N-Gramm, ebneten den Weg für eine neue Ära, da sie anhand der vorangegangenen Wörter vorhersagen konnten, welche Wörter in einem Satz als nächstes kommen würden. Anfang der 2010er-Jahre erweiterten neuere neuronale Netze die Funktionen dieser Sprachmodelle noch weiter, sodass sie über die Bestimmung der Reihenfolge von Wörtern hinausgehen können und ein tieferen Verständnis der Darstellung und Bedeutung von Wörtern ermöglichen.
Diese neuen Entwicklungen gipfelten 2018 in einem Durchbruch, als acht Google-Wissenschaftler „Attention is All You Need“, eine bahnbrechende Studie zum maschinellen Lernen, verfassten und veröffentlichten. Insbesondere wurde in dem Dokument die Transformatorarchitektur vorgestellt, ein Framework für ein innovatives neuronales Netzwerk, das komplexe Textinformationen mit größerer Genauigkeit und Skalierbarkeit verwalten und verstehen konnte. Transformatoren bilden heute die Grundlage für einige der leistungsstärksten LLMs, einschließlich der GPT-Serie und BERT.

Grundlegende Architektur

Die heutigen modernen LLMs verwenden Deep Learning-Architekturen wie z. B. Transformatoren und andere Deep Neural Network-Frameworks, um Informationen aus verschiedenen Datenquellen zu verarbeiten. Transformatoren sind besonders effektiv bei der Verarbeitung sequenzieller Daten, z. B. Text, sodass sie natürliche Sprache für Aufgaben wie Sprachgenerierung und Übersetzung verstehen und generieren können. 
Transformatoren bestehen aus zwei Hauptkomponenten: Encoder und Decoder. Diese Komponenten arbeiten häufig zusammen, um Sequenzen zu verarbeiten und zu generieren. Der Encoder verwendet Rohtextdaten und wandelt diese Eingabe in diskrete Elemente um, die vom Modell analysiert werden können. Der Decoder verarbeitet diese Daten dann über eine Reihe von Ebenen, um die endgültige Ausgabe zu erzeugen, die z. B. aus einem generierten Satz bestehen kann. Transformatoren können auch nur aus Encodern oder Decodern bestehen, abhängig vom Typ des Modells oder der Aufgabe.

Trainingsprozess

Der Trainingsprozess für LLMs besteht aus drei Hauptphasen: Datensammlung, Modelltraining und Optimierung. 
Während der Datensammlungsphase wird das Modell mit großen Mengen an Textdaten aus einer Vielzahl von Quellen konfrontiert, darunter Internetquellen, Bücher, Artikel und Datenbanken. Die Daten werden auch bereinigt, verarbeitet, standardisiert und in einer NoSQL-Datenbank gespeichert, sodass sie zum Trainieren des Modells für Sprachmuster, Grammatik, Informationen und Kontext verwendet werden können. 
In der Phase vor dem Training beginnt das Modell, ein Verständnis der Sprache in den Daten zu entwickeln. Dies wird durch umfangreiche, nicht überwachte Aufgaben erreicht, bei denen das Modell lernt, Text basierend auf seinem Kontext vorherzusagen. Einige Techniken umfassen die autoregressive Modellierung, bei der das Modell lernt, das nächste Wort in einer Sequenz vorherzusagen, sowie die maskierte Sprachmodellierung, bei der das Modell maskierte Wörter ausfüllt, um den Kontext zu verstehen. 
Schließlich wird das Modell während der Optimierungsphase mit einem kleineren, aufgabenspezifischeren Dataset weiter trainiert. Dieser Prozess verfeinert das Wissen des Modells und verbessert seine Leistung für bestimmte Aufgaben, z. B. Standpunktanalyse oder Übersetzung, sodass es für eine Vielzahl von Anwendungen verwendet werden kann.

Schlüsselkomponenten

Das Transformatormodell unterteilt rohen Text in kleinere, einfache Texteinheiten, die als Token bezeichnet werden. Token können je nach Anwendungsfall aus Wörtern, Wortteilen oder sogar einzelnen Zeichen bestehen. Diese Token werden dann in dichte numerische Darstellungen umgewandelt, die Reihenfolge, semantische Bedeutung und Kontext erfassen. Diese Darstellungen, die als Einbettungen bezeichnet werden, werden dann durch einen Stapel von Ebenen übergeben, die aus zwei Unterebenen bestehen: Selbstaufmerksamkeit und neuronale Netzwerke.
Während beide Ebenen bei der Konvertierung von Text in eine Form helfen, die das Modell effektiv verarbeiten kann, ist der Mechanismus zur Selbstaufmerksamkeit eine Schlüsselkomponente der Transformatorarchitektur. Der Mechanismus zur Selbstaufmerksamkeit ermöglicht es dem Modell, sich auf verschiedene Teile einer Textsequenz zu konzentrieren und den Wert von Informationen relativ zu anderen Token in der Sequenz dynamisch zu gewichten, unabhängig von ihrer Position. Dieser Mechanismus gibt LLMs auch die Fähigkeit, die komplizierten Abhängigkeiten, Beziehungen und kontextbezogenen Nuancen der geschriebenen Sprache zu erfassen.

Vorteile und Herausforderungen

Vorteile

LLMs bieten viele Vorteile, die zu bedeutenden Fortschritten in Arbeit und Gesellschaft beigetragen haben.

Verbesserte Sprachgenerierung und Übersetzung

Da LLMs die nuancierten Beziehungen zwischen Wörtern verstehen und erfassen können, zeichnen sie sich durch das Erzeugen von natürlichem, menschenähnlichem Text aus, was zu einer verbesserten Sprachgenerierung führt. Sie können fließend und konsistent kreative, kontextgerechte Antworten generieren, und sie können dies in verschiedenen Formaten tun, einschließlich Romanen.
Da sie in der Lage sind, Bedeutungen zu kontextualisieren und Feinheiten zu erkennen, können LLMs, die auf mehrsprachigen Daten trainiert wurden, auch sehr genaue Übersetzungen liefern. Das Trainieren eines Modells für eine bestimmte Gruppe von Sprachen kann ihnen helfen, ihre Fähigkeit zur Verarbeitung von Redewendungen, Ausdrücken und anderen komplexen linguistischen Funktionen zu verfeinern, was zu Übersetzungen führt, die sich organisch und fließend anfühlen.

Anwendungen in verschiedenen Bereichen

LLMs sind vielseitige Werkzeuge, die viele Anwendungen in vielen Bereichen aufweisen, einschließlich Gesundheitswesen, Finanzsektor und Kundendienst.
 
Im Gesundheitswesen können LLMs folgende Aktionen ausführen: 
  • Analysieren von Patientenberichten auf mögliche Erkrankungen und Erstellung vorläufiger Diagnosen. 
  • Generieren von Patientennotizen und Entlassungsberichten, was wiederum die Verwaltungsarbeit vereinfacht. 
  • Vorschlagen personalisierter Behandlungspläne und medizinische Pflege basierend auf der Patientengeschichte.  
  Im Finanzsektor können LLMs folgende Aktionen ausführen:
  • Identifizieren ungewöhnlicher Aktivitäten in Finanzdaten, die auf Betrug hindeuten könnten. 
  • Bewerten finanzieller Risiken durch Analysieren von Markttrends und Finanzberichten. 
  • Vorschlagen personalisierter Empfehlungen basierend auf Ihrem individuellen Finanzverlauf und Ihren Zielen.  
  Im Kundendienst können LLMs folgende Aktionen ausführen:
  • Fördern des automatisierten Kundensupports durch Unterhaltungsagents und Chatbots. 
  • Erweitern des Umfang des Diensts einer Organisation, indem Kunden ganztägiger Support geboten wird.
  • Helfen beim Erstellen und Aktualisieren der Dokumentation, indem Inhalte basierend auf allgemeinen Fragen generiert werden.  

Herausforderungen

LLMs bieten wichtige Vorteile, bringen aber auch Herausforderungen mit sich, die es zu berücksichtigen gilt.

Rechen- und Energieanforderungen

LLMs sind zwar leistungsfähig, benötigen aber erhebliche Mengen an Rechenressourcen, Speicher und Energie für den Betrieb. Während des Trainings skalieren Transformatoren mit der Länge der Eingabesequenz, d. h. je länger der Text ist, desto mehr Arbeitsspeicher wird benötigt. Diese Anforderungen sind nicht nur teuer, sondern verursachen auch einen erheblichen Ausstoß an CO2 in die Umwelt.
Cloud Computing-Plattformen können die hohe Rechenlast von LLMs unterstützen, indem sie eine flexible, skalierbare Infrastruktur bereitstellen, sodass Organisationen leichter mit der Entwicklung ihrer eigenen Modelle beginnen können. Dennoch stellen die Auswirkungen von LLMs auf die Umwelt eine Herausforderung dar und weisen auf den Bedarf an energieeffizienteren Modellen und Techniken hin.

Ethische Bedenken (z. B. Voreingenommenheit, Fehlinformationen)

LLMs sind nur so gut wie die Daten, mit denen sie trainiert werden. Wenn es in den Trainingsdaten diskriminierende Vorurteile gegenüber bestimmten Gruppen gibt, dann wird das Modell dieses Verhalten verstärken. Die Identifizierung und Entschärfung dieser Vorurteile, damit das Modell fair bleibt, ist eine laufende Aufgabe, die eine häufige und konsistente menschliche Überwachung erfordert.
LLMs können auch überzeugende, aber faktisch irreführende Informationen erzeugen, was zur Verbreitung von Fehlinformationen, Fake News, Phishing-E-Mails und anderen Formen schädlicher Inhalte führt. Richtlinien für die Inhaltsmoderation können auch regionsübergreifend unterschiedlich sein, was die Navigation erschwert. Daher kann es für viele Organisationen herausfordernd sein, bei der Einführung von LLMs in ihren Geschäftsbetrieb das Vertrauen in ihre Benutzer aufzubauen und aufrechtzuerhalten.

Einschränkungen beim Verstehen von Kontext und Nuancierung

LLMs zeichnen sich zwar durch die Identifizierung von Mustern in der Sprache aus, haben aber oft Schwierigkeiten mit neuen oder unbekannten Zusammenhängen, die ein differenzierteres Verständnis erfordern. Daher können LLMs, die mit vertraulichen, geschützten Daten trainiert wurden, versehentlich vertrauliche Informationen aus ihren Trainingsdaten generieren oder offenlegen. 
Die Behebung dieses Problems kann eine große Herausforderung darstellen, insbesondere, da die interne Funktionsweise von LLMs häufig nicht transparent ist. Dies kann zu einem allgemeinen Mangel an Verantwortlichkeit sowie zu Problemen bei der Vertrauenserstellung beitragen. 

Typen und Anwendungsfälle

GPT-Serie

Die GPT-Serie wurde erstmals 2018 von OpenAI entwickelt und führte das grundlegende Konzept der Datensammlung, des Vorabtrainings und der Feinabstimmung für LLMs ein. GPT-2, veröffentlicht im Jahr 2019, hat die Funktionen des Modells erheblich hochskaliert und seine Fähigkeit verbessert, kontextrelevante Sprache zu generieren. GPT-3 hat die Kapazität des Modells für die Verarbeitung komplexer Prompts und Aufgaben erweitert. Die neueste Iteration, GPT-4, wurde im Jahr 2023 veröffentlicht und bietet noch präzisere und differenziertere Antworten auf Prompts und behandelt gleichzeitig einige der vorherigen Herausforderungen des Modells, einschließlich Voreingenommenheit. 
Heute erweitert GPT weiterhin die Grenzen dessen, was im Bereich der Textgenerierung möglich ist. Jedes Modell in der Reihe baut auf dem vorherigen Modell auf und treibt KI-gesteuerte Innovationen weiter voran. 

BERT und seine Varianten

BERT wurde 2018 von Google entwickelt und ist ein bahnbrechendes Modell, das den Standard für die Möglichkeiten von LLMs gesetzt hat. Im Gegensatz zur GPT-Serie, die Text unidirektional verarbeitet (von links nach rechts oder von rechts nach links), verwendet BERT einen bidirektionalen Ansatz. Ein bidirektionales Modell verarbeitet den Kontext jedes Worts gleichzeitig aus beiden Richtungen, sodass BERT zusätzlich zur Vorhersage des nächsten Satzes eine maskierte Sprachmodellierung durchführen kann. Forscher haben auch zu weiteren Fortschritten in diesem Bereich beigetragen, indem sie BERT für Aufgaben wie die Stimmungsanalyse optimiert haben und damit neue Benchmarks gesetzt haben.  

Andere bemerkenswerte Modelle

Der von Facebook KI im Jahr 2019 entwickelte robust optimierte BERT-Ansatz (RoBERTa) ist eine Variante des BERT-Modells, das die bidirektionale Transformatorarchitektur von BERT erweitert, indem der Vortrainingsprozess optimiert wird. RoBERTa wird mit einem größeren Dataset und länger trainiert. Außerdem liegt der Schwerpunkt ausschließlich auf der maskierten Sprachmodellierung. So kann RoBERTa seine robuste Fähigkeit unter Beweis stellen, Kontext und Nuancen zu erfassen. 
Der Text-zu-Text-Übertragungstransformator (T5), der von Google Research erfunden wurde, ist ein weiteres bemerkenswertes LLM. Wie herkömmliche Modelle basiert T5 auf der Transformatorarchitektur und verwendet Encoder und Decoder, um Text während der Vortrainingsphase zu verarbeiten. Im Gegensatz zu herkömmlichen Modellen behandelt T5 sowohl die Eingabe als auch die Ausgabe als Textzeichenfolgen, wodurch die Architektur vereinfacht und der Trainingsprozess optimiert wird. T5-Modelle sind anpassbare universelle Modelle, die eine Vielzahl von Aufgaben verarbeiten können.

Inhaltserstellung und Zusammenfassung

LLMs können ansprechende, informative und kontextgerechte Inhalte in einer Vielzahl von Stilen und Formaten generieren. Wenn sie dazu aufgefordert werden, können sie Artikel, Berichte, Blogbeiträge, E-Mails, Marketingkopien und sogar Codeausschnitte generieren.   
Bei Zusammenfassungen heben sich LLMs durch ihre einzigartige Fähigkeit hervor, große Mengen von Text in prägnante und präzise Momentaufnahmen zu verdichten. Sie können wichtige Punkte präsentieren und gleichzeitig den ursprünglichen Kontext und die Bedeutung des Originalinhalts beibehalten. Forscher sparen bereits heute Zeit und steigern die Produktivität, indem sie LLMs verwenden, um Forschungsdokumente, Artikel, Präsentationen und Besprechungsnotizen zusammenzufassen.

Unterhaltungsagents und Chatbots

Unterhaltungsagents und Chatbots basieren auf den erweiterten Verarbeitungsfunktionen für natürliche Sprache von LLMs, um menschenähnliche Interaktionen zu generieren. Sie interpretieren Benutzereingaben und antworten in einer fließenden, natürlichen und kontextrelevanten Weise. Sie können nicht nur Fragen beantworten, sondern auch lange und komplexe Dialoge führen. 
Durch den Einsatz von Chatbots und virtuellen Assistenten können Unternehmen ihren Kunden nun rund um die Uhr Support bieten und so ihre Dienstverfügbarkeit erweitern, Antwortzeiten verbessern und die allgemeine Kundenzufriedenheit erhöhen.

Sprachübersetzung und Stimmungsanalyse

LLMs, die umfassend anhand von mehrsprachigen Datasets trainiert werden, erzeugen äußerst genaue Übersetzungen in verschiedenen Sprachen. Im Gegensatz zu herkömmlichen Modellen können LLMs die Feinheiten und Komplexitäten der Sprache erfassen, z. B. idiomatische Ausdrücke, was zu Übersetzungen führt, die sowohl fließend als auch kontextbezogen angemessen sind. 
LLMs können auch eine Stimmungsanalyse durchführen, die den zugrunde liegenden emotionalen Ton eines Texts analysiert. Durch die Verarbeitung und Interpretation der Feinheiten der Sprache bieten LLMs genauere und aufschlussreiche Stimmungsauswertungen. Sie können sogar differenziertere Stimmungen erkennen, z. B. Sarkasmus. 

Personalisierte Empfehlungen

LLMs können Benutzerdaten analysieren, einschließlich Benutzerverlauf und Vorlieben, und personalisierte, maßgeschneiderte Empfehlungen generieren, welche die Interessen und Anforderungen des Benutzers widerspiegeln, um wiederum das allgemeine Benutzererlebnis zu verbessern. 
Diese Funktion wird häufig für E-Commerce, Inhaltsstreaming und sozialen Medien verwendet, wo die Bereitstellung maßgeschneiderter Empfehlungen zu aussagekräftigeren Interaktionen führt. LLMs können auch als Schulungswerkzeug verwendet werden, indem sie Studierenden personalisierte Lernerfahrungen bieten.

So geht es weiter

So wie Forscher ihr Verständnis, ihre Effizienz und ihre Skalierbarkeit weiter verbessern, wird von LLMs erwartet, dass sie noch besser in der Lage sein werden, komplexe Sprachaufgaben zu bewältigen. Mit der zunehmenden Einführung von LLMs werden immer mehr Organisationen von einer optimierten Automatisierung, einer stärkeren Personalisierung und insgesamt besseren Entscheidungsprozessen profitieren. 
Forscher suchen weiterhin nach neuen Wegen, um mit dem anhaltenden Problem von Voreingenommenheit umzugehen. Dazu gehören Algorithmen zur Elimination von Voreingenommenheit, die Vorurteile während des Trainings bekämpfen, der Einbezug synthetischer Daten, die Datasets ausbalancieren können, um Fairness widerzuspiegeln, Erklärungswerkzeuge zum besseren Verständnis von Modellentscheidungen und Erkennungsbenchmarks, die dazu beitragen, Voreingenommenheit genauer zu identifizieren und zu quantifizieren. 
Multimodale Modelle, die Text-, Bild-, Audio- und Videodaten verarbeiten, werden ebenfalls immer ausgefeilter. Während LLMs Textdaten durch Auswertung von Syntax und Bedeutung verarbeiten, analysieren multimodale Modelle visuelle Daten mithilfe von Techniken des Maschinellen Sehens sowie Audiodaten durch temporale Verarbeitung. Multimodale Top-of-Form-Modelle verbessern die Technologien von heute und ebnen gleichzeitig den Weg für Innovationen von morgen.
RESSOURCEN

Weitere Informationen zu Azure KI

Eine Person, die vor einem Computer sitzt
Ressourcen

Entwicklerressourcen für Studierende

Profitieren Sie von Lernmaterialien und Programmen, die Ihnen helfen, Ihre Karriere zu starten.
Eine Gruppe von Personen, die in einem Kreis sitzen
Ressourcen

Azure-Ressourcen

Greifen Sie auf alle benötigten Azure-Ressourcen zu, einschließlich Tutorials, Whitepapers und Codebeispielen.
Eine lächelnde Person an einem Computer
Ressourcen

Azure-Lernhub

Bauen Sie Ihre KI-Fähigkeiten mit Trainings auf, die an Ihre Rolle oder bestimmte Technologien angepasst sind.
Häufig gestellte Fragen

Häufig gestellte Fragen

  • LLM steht für Large Language Model (großes Sprachmodell).
  • KI ist ein breites Feld, das eine Vielzahl von Anwendungen über die Sprache hinaus abdeckt. Es umfasst alle Technologien, die darauf abzielen, menschliche Intelligenz zu replizieren. Als eine spezifische Art von KI-Modell sind LLMs eine Teilmenge der breiteren KI-Landschaft, die sich auf die Verarbeitung und Generierung von Text in natürlicher Sprache konzentriert.
  • Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) bezieht sich auf das übergeordnete Feld, das sich auf die Sprachverarbeitung konzentriert, während große Sprachmodelle (Large Language Models, LLMs) ein spezifischer, fortschrittlicher Modelltyp innerhalb des Bereichs von NLP sind, der Deep Learning-Techniken verwendet, um Sprachaufgaben zu verarbeiten.
  • Generativer vortrainierter Transformator (Generative Pre-Trained Transformer, GPT) bezieht sich auf eine bestimmte Reihe großer Sprachmodelle (Large Language Models, LLMs), die von OpenAI entwickelt wurden. Es handelt sich um eine Art LLM mit besonderem Schwerpunkt auf der Sprachgenerierung.