Robuste Erkennung von KI-generierten Texten in deutscher Sprache

Tom Tlok , 30.08.2023

Diese Seite wurde seit 1 Jahr inhaltlich nicht mehr aktualisiert. Unter Umständen ist sie nicht mehr aktuell.

Zusammenfassungen

Robuste Erkennung von KI-generierten Texten in deutscher Sprache

Die rasante Entwicklung von Large Language Models (LLM), wie ChatGPT, hat dazu geführt, dass aktuelle Modelle Texte erzeugen können, die von menschlich verfassten Texten kaum zu unterscheiden sind. Dies ist mit Risiken verbunden, vor allem in Bezug auf die Verbreitung von Falschinformationen. Um diese Risiken zu minimieren, ist die Entwicklung von Detektoren, welche von Künstlicher Intelligenz (KI) generierte Texte identifizieren können, erforderlich. Während moderne Detektoren englischsprachige Texte mit hoher Genauigkeit klassifizieren können, stellt die Erkennung in anderen Sprachen, wie beispielsweise im Deutschen, ein weitgehend unerforschtes Gebiet dar. Ein zusätzliches Problem ist die mangelnde Robustheit aktueller Detektoren. Selbst einfache Manipulationen des zu klassifizierenden Textes können diese Detektoren vor erhebliche Herausforderungen stellen.

Diese Thesis präsentiert einen robusten Detektor zur Erkennung von Kigenerierten deutschen Texten. Für dessen Training und Evaluation wird der erste deutschsprachige Datensatz im Forschungsbereich erstellt, bestehend aus 70.749 menschlichen und 70.617 KI-generierten Texten. Dieser Datensatz, bereichert durch acht verschiedene Textgattungen und sieben unterschiedliche Prompt -Vorlagen, ist in seiner Art sprachübergreifend einzigartig. Der Detektor erreicht ein F1-Maß von 97,89% und demonstriert eine hohe Generalisierungsfähigkeit. Weiterhin stellt die Thesis wirksame Maßnahmen vor, die die Erfolgsraten möglicher Angriffe auf ein Minimum reduzieren. Dies legt den Grundstein für zukünftige Forschungen zur Robustheit in der Erkennung von KI-generierten Texten.

Von Tom Tlok in der Masterarbeit Robuste Erkennung von KI-generierten Texten in deutscher Sprache (2023)

Diese Masterarbeit erwähnt ...

Begriffe
KB IB clear

Chat-GPT ,

false positive rate ,

Generative Machine-Learning-Systeme (GMLS)

computer-generated text , GMLS-Detektor , GPT Zero

Diese Masterarbeit erwähnt vermutlich nicht ...

Nicht erwähnte Begriffe

Generative Pretrained Transformer 3 (GPT-3), Generative Pretrained Transformer 4 (GPT-4), GMLS & Bildung, GMLS & Schule, Künstliche Intelligenz (KI / AI), Originality.AI

Zitationsgraph (Beta-Test mit vis.js)

1 Erwähnungen

ChatGPT: Student aus Wedel entlarvt künstliche Intelligenz (Johannes Tran) (2024)

Volltext dieses Dokuments

Robuste Erkennung von KI-generierten Texten in deutscher Sprache: Gesamtes Buch als Volltext ( lokal

, 1494 kByte; WWW

)

Anderswo suchen

Beat und diese Masterarbeit

Beat hat diese Masterarbeit während seiner Zeit am Institut für Medien und Schule (IMS) ins Biblionetz aufgenommen. Beat besitzt kein physisches, aber ein digitales Exemplar. Eine digitale Version ist auf dem Internet verfügbar (s.o.). Aufgrund der wenigen Einträge im Biblionetz scheint er es nicht wirklich gelesen zu haben. Es gibt bisher auch nur wenige Objekte im Biblionetz, die dieses Werk zitieren.

Beats Biblionetz - Bücher