Projekt:2023/Maschinelles Lernen: Unterschied zwischen den Versionen

Zur Navigation springen Zur Suche springen
Zeile 161: Zeile 161:
{{Aufgabe:End}}
{{Aufgabe:End}}


Die Textgenerierung von LLMs basiert zu einem großen Teil auf Wahrscheinlichkeiten: ""Welches Wort folgt am wahrscheinlichsten auf die bisherigen?"
Die Textgenerierung von LLMs basiert zu einem großen Teil auf Wahrscheinlichkeiten: "Welches Wort folgt am wahrscheinlichsten auf die bisherigen?"


Diese Wahrscheinlichkeiten werden vom LLM "gelernt" und (bei großen Modellen) in einem neuronalen Netz gespeichert. In unserem vereinfachten Modell sind die Wahrscheinlichkeiten einer Wortkette einfach die Anzahl der Vorkommen im Textkorpus, aus dem das LLM lernt. Rechts siehst Du die 12 Dokumente, aus denen dieses LLM gelernt hat, Märchen zu schreiben. Die Wahl der Texte bestimmt also maßgeblich, wie gut die Texte sind und welche Texte generiert werden können.
Diese Wahrscheinlichkeiten werden vom LLM "gelernt" und (bei großen Modellen) in einem neuronalen Netz gespeichert. In unserem vereinfachten Modell sind die Wahrscheinlichkeiten einer Wortkette einfach die Anzahl der Vorkommen im Textkorpus, aus dem das LLM lernt. Rechts siehst Du die 12 Dokumente, aus denen dieses LLM gelernt hat, Märchen zu schreiben. Die Wahl der Texte bestimmt also maßgeblich, wie gut die Texte sind und welche Texte generiert werden können.
Zeile 179: Zeile 179:
</pre>
</pre>


Speichere den Text und beobachte, was passiert. Generiere dann ein ganz neues Märchen. Was passiert?
Speichere den Text und beobachte, was passiert. Generiere dann ein ganz neues Märchen. Hat sich etwas geändert?
{{Aufgabe:End}}
{{Aufgabe:End}}


Zeile 203: Zeile 203:
Erstelle ein neues Dokument im LLM und füge den Text ein. Speichere und lass Dir einen neuen Text generieren.
Erstelle ein neues Dokument im LLM und füge den Text ein. Speichere und lass Dir einen neuen Text generieren.


Ergänze weitere Texte in Deinem Trainingskorpus. Versuche dabei, Dich an eine Textgattung zu halten (Wikipedia Artikel, Sportnachrichten, ...). Welche Text machen das LLM "besser", welche haben weniger oder sogar einen negativen Effekt?
Ergänze weitere Texte in Deinem Trainingskorpus. Versuche dabei, Dich an eine Textgattung zu halten (Wikipedia Artikel, Sportnachrichten, ...). Welche Texte machen das LLM "besser", welche haben weniger oder sogar einen negativen Effekt?
{{Aufgabe:End}}
{{Aufgabe:End}}


{{Aufgabe:Start}}
{{Aufgabe:Start}}
Lösche alle Dokumente, erstelle ein neues und füge den folgenden Text über unsere Erde aus der Wikipedia ein:
 
Lösche alle Dokumente, erstelle ein neues und füge den folgenden Text über unsere [[wikipedia:Erde|Erde aus der Wikipedia]] ein:


<pre>
<pre>
Zeile 227: Zeile 228:
Lass erneut einen kurzen Text generieren.
Lass erneut einen kurzen Text generieren.


Beurteile Deine Beobachtungen und welche Folgerungen sich zu Gefahren von K.I.-Systemen sich daraus ergeben.
Beurteile Deine Beobachtungen und welche Folgerungen zu Gefahren von K.I.-Systemen sich daraus ergeben.
{{Aufgabe:End}}
{{Aufgabe:End}}


Large Language Models arbeiten mit Sprache(n). Man kann allerdings viel mehr Informationen als "Sprache" auffassen, als es Dir vielleicht zunächst in den Sinn kommt. Der Computer kommuniziert beispielsweise in einer Sprache aus <code>0</code> und <code>1</code>. Und es heißt nicht umsonst eine "Programmier'''sprache'''". Für ein LLM ist im Grunde alles eine "Sprache", was sich in (Text)Zeichen darstellen lässt.
Large Language Models arbeiten mit Sprache(n). Man kann allerdings viel mehr Informationen als "Sprache" auffassen, als es Dir vielleicht zunächst in den Sinn kommt. Der Computer kommuniziert beispielsweise in einer Sprache aus <code>0</code> und <code>1</code>. Und es heißt nicht umsonst eine "Programmier'''sprache'''". Für ein LLM ist im Grunde alles eine "Sprache", was sich in (Text)Zeichen darstellen lässt.


Zum Beispiel dies hier:
Etwa dies hier:
<pre>
<pre>
L:1/4
L:1/4

Navigationsmenü