Methodik

Wissenschaftliche Vorgehensweise und Transparenzerklärung

1. Forschungsgegenstand

Das Projekt „Sprache als Waffe“ dokumentiert Begriffe, die in der gegenwärtigen politischen Kommunikation verwendet werden und einen nachweisbaren Bezug zur Sprache des Nationalsozialismus aufweisen. Zentrales Auswahlkriterium ist das Zwei-Gipfel-Kriterium: Ein Begriff muss sowohl einen Nutzungsgipfel in der NS-Zeit (ca. 1933–1945) als auch einen erneuten Anstieg in der jüngeren Vergangenheit (insbesondere ab ca. 2015) aufweisen, um als „wiederbelebte NS-Sprache“ zu gelten.

Jeder Begriff wird einer von drei Kategorien zugeordnet:

Rot— Eindeutig nationalsozialistisches Vokabular. Diese Begriffe wurden im NS-Regime geprägt oder erhielten dort ihre entscheidende ideologische Aufladung (z. B. „Umvolkung“, „Volkskörper“).
Gelb— NS-kontaminierte Begriffe mit älterem Ursprung. Diese existierten vor 1933, wurden aber durch den Nationalsozialismus ideologisch vereinnahmt und sind seither belastet (z. B. „Lügenpresse“, „Altparteien“).
Grün— Populistisch-rassistische Sprache ohne inhärenten NS-Ursprung. Begriffe, die zwar in rechtsextremen Kontexten verwendet werden, aber keinen spezifisch nationalsozialistischen Ursprung haben (z. B. „Volksvaterräter“ in populäristischer Variante).

2. Datenerhebung

2.1 Historische Nutzungsdaten

Die Nutzungshäufigkeit jedes Begriffs wird über einen Zeitraum von ca. 1800 bis heute erhoben. Dafür nutzen wir eine fünfstufige Quellenkaskade:

DWDS (Digitales Wörterbuch der deutschen Sprache)— Primärquelle. Korpusbasierte Frequenzdaten aus dem Referenz- und Zeitungskorpus der Berlin-Brandenburgischen Akademie der Wissenschaften.
Google Ngram Viewer— Ergänzende Frequenzdaten aus dem Google-Books-Korpus. Wird grundsätzlich mit DWDS-Daten zusammengeführt, um breitere Abdeckung zu gewährleisten.
ngrams.dev— Alternative Ngram-Quelle als Rückfallebene bei Lücken in den ersten beiden Quellen.
Open Discourse— Frequenzdaten aus Bundestagsprotokollen für den parlamentarischen Sprachgebrauch.
Perplexity AI (Sonar Pro)— Letzte Rückfallebene. Wird nur eingesetzt, wenn NS-Ära-Daten fehlen, aber moderne Nutzungsdaten vorhanden sind. KI-generierte Schätzungen werden als solche gekennzeichnet.

Alle Rohdaten werden auf eine einheitliche Skala von 0–100 normalisiert, wobei der höchste Wert eines Begriffs über den gesamten Zeitraum den Wert 100 erhält. Dies ermöglicht die visuelle Vergleichbarkeit der Nutzungsverläufe, nicht jedoch den absoluten Frequenzvergleich zwischen Begriffen.

2.2 Quellenrecherche

Für jeden Begriff werden mindestens sieben unabhängige Quellen recherchiert und dokumentiert. Bevorzugt werden:

Bundeszentrale für politische Bildung (bpb)
Deutsches Historisches Museum (DHM)
Universitäre Publikationen und Fachzeitschriften
Etablierte Überregionale Medien (FAZ, Süddeutsche, ZEIT, Spiegel)
NS-Dokumentationszentren und Gedächtniseinrichtungen
Wissenschaftliche Monographien (z. B. Klemperer, Schmitz-Berning)

Quellen werden mit URL, Name und Abrufdatum gespeichert. Nicht mehr erreichbare URLs werden im Rahmen der Provenienzprüfung erkannt und gekennzeichnet.

3. KI-gestützte Analyse

Die inhaltliche Aufbereitung jedes Begriffs erfolgt unter Einsatz von Large Language Models (LLMs) in einem mehrstufigen Verifikationsverfahren:

Webrecherche (Discovery):KI-gestützte Suche über Perplexity Sonar Pro identifiziert relevante Quellen und liefert erste Kontextinformationen mit Quellenangaben.
Primärquellen-Extraktion:Gezieltes Auffinden und Auswerten von NS-Originaldokumenten, historischen Reden und zeitgenössischen Publikationen.
Synthese:Zusammenführung aller Quellen zu einem strukturierten Eintrag mit historischer Einordnung, NS-Beleg, strategischer Analyse und Quiz-Fragen.
Adversarial Review:Ein separates LLM prüft die Ergebnisse kritisch auf Fakten- und Logikfehler und bewertet die Qualität gegen handkuratierte Referenzdaten.
Watchdog:Automatisierte Prüfung auf Fabrikationsindikatoren — erfundene Buchtitel, falsche Jahreszahlen, nicht existierende Institutionen.
Redaktionelle Endprüfung:Manuelle Sichtung und Freigabe durch die Redaktion vor Veröffentlichung.

Bekannte Einschränkungen:Trotz dieses mehrstufigen Verfahrens können KI-generierte Inhalte Fehler enthalten. Generative Sprachmodelle neigen zu sog. „Halluzinationen“ — sie können plausibel klingende, aber faktisch falsche Aussagen erzeugen, Quellen fehlerhaft zuordnen oder Zusammenhänge unzutreffend darstellen. Wir arbeiten kontinuierlich an der Verbesserung unserer Prüfmechanismen.

4. Qualitätssicherung

Die Qualitätssicherung umfasst mehrere automatisierte und manuelle Prüfschritte:

Fabrikationserkennung:Automatisierte Prüfung auf erfundene Zitate, nicht existierende Publikationen und fabrizierte historische Ereignisse durch Abgleich mit bekannten Fakten.
Faktenprüfung: Abgleich gegen eine kuratierte Referenzdatenbank mit handrecherchierten Informationen zu jedem Begriff.
Provenienzverifizierung:Überprüfung der Quellenherkunft — werden die angegebenen Quellen korrekt wiedergegeben? Stimmen Autor, Titel, Jahr und Institution?
URL-Validierung:Regelmäßige Prüfung der Erreichbarkeit aller verlinkten Quellen. Tote Links werden erkannt und im System markiert.
Öffentliches Korrekturformular: Über das Beschwerdeformular können Nutzerinnen und Nutzer Fehler melden. Jede Meldung wird geprüft und bei berechtigten Einwänden zeitnah korrigiert.

4.1 Personen- und Jahreszuordnung

Die Frage „Wer hat diesen Begriff wann verwendet?“ entscheidet über die argumentative Tragfähigkeit des Projekts. Wir dokumentieren den zugrundeliegenden Ablauf hier vollständig:

Regelbasierte Extraktion— Aus den redaktionellen Feldern (description, context,nsProof, strategicPurpose) werden fett ausgezeichnete Namen extrahiert. Gruppenbegriffe („Rechtsextreme“, Parteien, abstrakte Nomen) werden gefiltert und landen nicht in der Personentabelle.
Datumsableitung— Im Fliesstext wird im Fenster von 200 Zeichen um die Namensnennung nach einer Jahreszahl gesucht. Schlägt das fehl, greift die beleghafte Jahreszahl aus dem Feld date_of_quote des Begriffs als Fallback. Jede so entstandene Zuordnung ist als unverifiziert markiert.
Perplexity-Lookup für fehlende Jahre— Für Personen-Begriff-Paare ohne Datumsangabe wird Perplexity sonar-pro gefragt: „In welchen Jahren hat X den Begriff Y öffentlich in EIGENEM Kontext verwendet?“ Die Antwort als Jahres-Array wird geparst; für jedes Jahr entsteht eine eigene Zeile. Rohantwort, Zitate und blockierte Quellen werden inmention_attribution_log zur Auditierung gespeichert.
Quellen-Denylist— Belege aus rechtsextremen und verschwörungsideologischen Publikationen (u.a. wir-selbst.com, sezession.de, junge-freiheit.de, compact) werden als Quelle ausgeschlossen. Wird eine solche URL von der KI vorgeschlagen, wird sie im Log vermerkt und nicht als Beleg verwendet.
Adversarielle Verifizierung durch ein zweites Modell— Jede per Perplexity zugeordnete Jahreszahl wird anschließend unabhängig mit Gemini überprüft: „Bestätigst du, dass X den Begriff Y im Jahr Z verwendet hat?“ Erst beiconfirmed-Verdikt und vorhandener, nicht-blockierter Quellen-URL wird das Feld verified = true gesetzt.
Tooltip-Anzeige— Im Nutzungsgraph zeigen wir für das gehoverte Jahr ausschließlich Personen mit einer konkreten Dokumentation in eben diesem Jahr. Für Jahre ohne Einzelbeleg, aber innerhalb eines ±15-Jahres-Fensters um eine belegte Verwendung, werden Personen im Abschnitt „In diesem Zeitraum aktiv“ gelistet — mit dem nächstgelegenen belegten Jahr. Für NS-ära-Jahre (1933–1945) auf rot/gelb klassifizierten Begriffen ohne benannten Sprecher wird der Sammelbegriff „Allgemeines NS-Sprachgut“ angezeigt.

Bekannte Grenzen: Auch nach dem Pipeline-Durchlauf bleiben Personen-Begriff-Paare ohne belegte Jahresangabe. Diese sind im Datensatz mit date IS NULLmarkiert und werden im Graph nicht veröffentlicht. Jahreszahlen stammen in der Regel aus einer einzigen Primärquelle; für Streitfälle empfehlen wir den direkten Blick in die verlinkte Quelle.

5. Datenmodell

Jeder Begriff wird als strukturierter Datensatz gespeichert und umfasst folgende Felder:

Begriff — Der dokumentierte Ausdruck
Kategorie — Rot, Gelb oder Grün (siehe Abschnitt 1)
Kategorie-Label — Beschreibende Bezeichnung der Kategorie
Sprecher/Kontext — Wer verwendet den Begriff heute, in welchem Zusammenhang
Datum — Zeitpunkt der dokumentierten modernen Verwendung
Kontext — Einordnung des Begriffs in seinen sprachhistorischen Zusammenhang
Beschreibung — Ausführliche Erläuterung von Herkunft und Bedeutung
NS-Beleg — Nachweis der Verwendung im Nationalsozialismus mit Quellenangabe
Strategischer Zweck — Analyse, warum der Begriff heute eingesetzt wird
Quellen — Mindestens 7 unabhängige Quellen mit URL und Name
Nutzungsdaten — Jahresbasierte Frequenzwerte (0–100) für die Verlaufsgrafik
Quiz — Multiple-Choice-Frage mit Antwortoptionen und korrektem Index
Bild-URL — Optionale Illustration zum Begriff

Das vollständige Datenschema ist als schema.json einsehbar.

6. Limitationen

Wir sind uns der Grenzen dieses Projekts bewusst und legen diese transparent offen:

Umfang:Die Datenbank umfasst derzeit 77 Begriffe und wird kontinuierlich erweitert. Es besteht kein Anspruch auf Vollständigkeit.
DWDS-Lücken:Nicht für alle Begriffe liegen DWDS-Korpusdaten vor, insbesondere bei Komposita und Neologismen. In diesen Fällen stützen wir uns auf die nachgelagerten Quellen der Kaskade.
Nachkriegsprägungen:12 der 77 Begriffe weisen keinen NS-Ära-Gipfel auf, da sie erst nach 1945 geprägt wurden (z. B. „Ethnopluralismus“, „Passdeutsche“). Diese werden als rechtsextreme Begriffsschöpfungen ohne direkte NS-Kontinuität dokumentiert.
Halluzinationsrisiko:Trotz mehrstufiger Prüfung verbleibt ein Restrisiko KI-generierter Fehler. Alle Einträge unterliegen fortlaufender Überprüfung.
Kein Vollständigkeitsanspruch:Die Auswahl der Begriffe erfolgt nach redaktionellen und wissenschaftlichen Kriterien. Weitere relevante Begriffe können über die Vorschlagsfunktion eingereicht werden.

7. Zitierweise

Wenn Sie Inhalte dieses Projekts in wissenschaftlichen Arbeiten oder Publikationen verwenden, bitten wir um folgende Zitierweise:

Lautenschlager, Manuel (2025): Sprache als Waffe — Dokumentation wiederbelebter NS-Terminologie in der gegenwärtigen politischen Kommunikation. Online verfügbar unter: https://www.nazisprech.com/ [Abrufdatum].

Maschinenlesbare Zitationsformate (CITATION.cff, BibTeX, RIS) sind im GitHub-Repository verfügbar.

8. Open Data

Alle Begriffsdaten sind über eine öffentliche API frei zugänglich:

Endpunkt: /api/terms

Die Daten stehen unter der Lizenz Creative Commons Namensnennung — Weitergabe unter gleichen Bedingungen 4.0 International (CC BY-SA 4.0). Sie dürfen die Daten frei verwenden, teilen und anpassen — unter Nennung der Quelle und bei Weitergabe unter gleicher Lizenz.