Discord-Anrufe transkribieren (Kostenlos, Lokal, 2026)

Die Frage, wie man Discord-Anrufe transkribiert, taucht ständig in Gaming-Communities, Online-Teams, Podcast-Crews und Moderationsteams auf – und die Antwort ist nicht offensichtlich, weil Discord dir keinen integrierten Weg dazu bietet. Dieser Beitrag erklärt genau, wie du ein sauberes, genaues Transkript eines Discord-Anrufs mit kostenlosen Tools erstellst, erläutert die realistischen Kompromisse zwischen lokalen und Cloud-Methoden und zeigt dir einen schrittweisen lokalen Whisper-Workflow, der dein Audio vollständig von Drittanbieter-Servern fernhält.

TL;DR

Discord hat keine native Transkription – du musst den Anruf zuerst aufzeichnen, dann die Audiodatei transkribieren
Die beste kostenlose lokale Option ist OpenAI Whisper, das vollständig auf deinem eigenen PC läuft
Aufzeichnen mit OBS Studio (Desktop-Audio-Aufnahme) oder dem Craig-Bot (Pro-Sprecher-Tracks)
Transkribieren mit whisper audio.mp3 --model small von der Kommandozeile oder einer Desktop-App
Für Mehrsprecherbeschriftung, kombiniere Whisper mit pyannote.audio oder nutze einen Cloud-Dienst
Informiere Teilnehmer immer, dass du aufzeichnest – Einwilligungsanforderungen variieren nach Land und US-Bundesstaat

Warum Menschen Discord-Voice-Chat transkribieren

Discord begann als Gaming-Chat-App, ist aber zu einer Infrastrukturschicht für Indie-Teams, Online-Communities, Content-Creator und Remote-First-Projekte gewachsen. Infolgedessen sind Anrufe über Discord-Sprachkanäle nicht immer casual – es sind Standup-Meetings, Podcast-Aufnahmen, Gilde-Strategie-Sessions, Moderations-Anhörungen und Kundengespräche.

Hier sind die Hauptgründe, warum Menschen Discord-Anruf-Transkriptionen wollen:

Meeting-Notizen und Rechenschaftspflicht. Viele Community-geführte Server treffen Entscheidungen mündlich per Voice. Ein Transkript gibt jedem Mitglied einen durchsuchbaren Datensatz ohne sich auf jemandes Gedächtnis oder ein schlampiges Copy-Paste aus dem Stream-Chat zu verlassen.

Barrierefreiheit. Gehörlose oder schwerhörige Mitglieder brauchen Textversionen von Sprachgesprächen. Selbst für hörende Nutzer ermöglichen Transkripte, asynchron aufzuholen, ohne eine vollständige Aufnahme durchsitzen zu müssen.

Content-Wiederverwendung. Podcaster und Streamer, die Gespräche auf Discord aufzeichnen, wollen ein grobes Transkript vor dem Bearbeiten – es beschleunigt das Finden von Zeitstempeln, das Generieren von Shownotes und das Ziehen von Zitaten für Social Media.

Moderationsaufzeichnungen. Server-Moderatoren müssen manchmal dokumentieren, was während eines Konflikts oder eines Belästigungs-Vorfalls gesagt wurde. Ein Transkript ist leichter zu überprüfen und mit einem Berufungsverfahren zu teilen als eine stündige Audiodatei.

Diktat und Podcast-Shownotes. Autoren und Solo-Creator nutzen Discord-Anrufe als Diktat-Medium – Ideen durchdenken und dann die Aufnahme durch Whisper laufen lassen, um einen ersten Entwurf zu erhalten. Whispers Genauigkeit bei klarer Sprache ist nah genug, um das tatsächlich nützlich zu machen.

Hat Discord eine native Transkriptionsfunktion?

Discord hat Stand 2026 keine integrierte Anruf-Transkription. Die Plattform bietet Live-Untertitel in Sprachkanälen an – eine Barrierefreiheitsfunktion, die Echtzeit-Untertitel generiert, während Menschen sprechen – aber diese Untertitel existieren nur während der Session und werden nie gespeichert. Sobald alle den Kanal verlassen, sind die Untertitel weg.

Discords Live-Untertitel verwenden eine cloudbasierte Spracherkennungs-Engine und erzeugen kein herunterladbares Transkript. Es gibt keine Transkript-Historie, keine Exportoption und keine API, die dir ermöglicht, Untertitel-Daten nach der Sitzung abzurufen. Wenn du einen dauerhaften Datensatz dessen brauchst, was gesagt wurde, musst du Aufzeichnung und Transkription selbst handhaben.

Wie man Discord-Anrufe transkribiert: Der Kern-Workflow

Die Kernantwort auf die Frage, wie man Discord-Anrufe transkribiert, ist ein zweistufiger Prozess: das Audio aufzeichnen, dann Sprache-zu-Text auf der Datei ausführen.

Schritt 1 ist notwendig, weil Discord ohne ein virtuelles Audio-Gerät oder einen dedizierten Bot keine rohen Audio-Streams in Echtzeit für Drittanbieter-Desktop-Tools bereitstellt. Schritt 2 kann lokal (kostenlos, privat) oder mit einem Cloud-Dienst (einfachere Mehrsprecherunterstützung, kostet Geld oder hat Nutzungslimits) durchgeführt werden.

Hier ist der vollständige lokale Workflow von Anfang bis Ende.

Schritt 1: Den Discord-Anruf aufzeichnen

Du hast drei solide Optionen je nach deiner Situation:

OBS Studio (kostenlos, kein Bot erforderlich)

Lade und installiere OBS Studio, wenn du es noch nicht hast.
Gehe in OBS zu Einstellungen → Ausgabe → Aufnahme. Stelle das Format auf WAV oder FLAC für beste Transkriptionsgenauigkeit ein (MP3 ist auch in Ordnung, einfach geringere Qualität).
Stelle im Audio-Mixer sicher, dass „Desktop-Audio” aktiviert ist. Das nimmt alles auf, was aus deinen Lautsprechern/Kopfhörern kommt, einschließlich Discord-Voice.
Füge optional eine Mikrofon/Aux-Quelle hinzu, um deine eigene Stimme auf einem separaten Track aufzunehmen – nützlich für Transkriptionsgenauigkeit und spätere Mehrsprecherdiarisierung.
Starte die Aufnahme, bevor der Anruf beginnt. Stoppe sie, wenn alle die Verbindung trennen.
Finde die Aufnahme im eingestellten Pfad (Standard: Videos-Ordner).

Craig-Bot (kostenlose Tier verfügbar, Pro-Sprecher-Tracks)

Craig ist ein Discord-Bot, der speziell für die Aufzeichnung entwickelt wurde. Lade ihn auf deinen Server ein, tippe /join in einem Sprachkanal, und er zeichnet jeden Teilnehmer auf einem separaten Audio-Track auf. Nach dem Anruf schickt er dir einen Download-Link mit individuellen FLAC-Dateien pro Sprecher. Das macht Diarisierung viel einfacher – du weißt bereits, welche Datei zu welchem Sprecher gehört.

Craigs kostenlose Tier deckt die meisten Community-Aufzeichnungsanforderungen ab. Das Pro-Sprecher-Format ist der größte Vorteil gegenüber OBS für die Transkription von Gruppenanrufen.

VoxBoostars integrierte Aufnahme (nur Windows)

VoxBooster enthält eine Audio-Aufnahme-Schicht, die verarbeitetes Audio aufnimmt – wenn du also während des Anrufs auch Voice-Effekte oder Rauschunterdrückung ausführst, spiegelt die Aufnahme das wider, was die andere Seite tatsächlich gehört hat. Die Ausgabe ist eine saubere WAV-Datei, die bereit für die Transkription ist. Da alle Verarbeitung lokal erfolgt, wird nichts hochgeladen.

Schritt 2: Die Aufnahme mit Whisper transkribieren

OpenAI Whisper ist ein kostenloses, Open-Source-Spracherkennungsmodell, das vollständig auf deinem PC läuft. Kein Konto, kein API-Schlüssel, kein Nutzungslimit. Mehr zur Einrichtung in unserem Whisper-Transkriptions-Guide für Windows.

Whisper installieren

Du brauchst Python 3.9–3.12 und ffmpeg im PATH. Installiere Whisper über pip:

pip install openai-whisper

Überprüfe, ob ffmpeg zugänglich ist:

ffmpeg -version

Wenn das einen Fehler ausgibt, installiere ffmpeg über winget: winget install Gyan.FFmpeg

Eine Transkription ausführen

whisper discord_call.wav --model small --language de --output_format txt

--model small ist ein guter Standard: ~244 MB, schnell, genau bei sauberer Sprache
--language de überspringt die Spracherkennung und beschleunigt die Verarbeitung, wenn du die Sprache kennst
--output_format txt gibt eine Nur-Text-Datei aus; verwende srt wenn du Untertitel mit Zeitstempeln willst

Bei einer einstündigen Aufnahme auf einer modernen CPU braucht das small-Modell ungefähr 8–15 Minuten. Mit einer Nvidia-GPU (CUDA) sinkt das auf unter 2 Minuten.

Ausgabeort: Whisper speichert das Transkript standardmäßig im gleichen Ordner wie die Quelldatei.

Transkriptionsmethoden im Vergleich

Methode	Kosten	Datenschutz	Genauigkeit	Mehrsprecherunterstützung	Einrichtungsaufwand
Lokales Whisper (CLI)	Kostenlos	Vollständig lokal	Hoch (small/medium-Modell)	Nein (nur Wörter)	Mittel – braucht Python + ffmpeg
Lokales Whisper + pyannote	Kostenlos	Vollständig lokal	Hoch	Ja (Sprecher-Labels)	Hoch – zusätzliche Bibliothek, GPU hilft
Craig-Bot + Whisper	Kostenlos	Bot hat Zugang zu deinem Audio	Hoch	Ja (Pro-Track-Dateien)	Niedrig-mittel
AssemblyAI / Deepgram	Pro Minute	Cloud-Upload	Sehr hoch	Ja (integriert)	Niedrig – nur API-Schlüssel
Otter.ai	Freemium	Cloud-Upload	Gut	Ja	Sehr niedrig – browserbasiert
Discord Live-Untertitel	Kostenlos	Cloud (Discord)	Einfach	Nein	Keine – integriert, wird nicht gespeichert

Die richtige Wahl hängt von deinem Bedrohungsmodell ab. Wenn du sensible Moderationsgespräche oder interne Geschäftsanrufe transkribierst, hält lokales Whisper Audio vollständig von Drittanbieter-Servern fern. Wenn du ein Podcaster bist, der einfach schnell gute Shownotes will, ist ein Cloud-Dienst wie AssemblyAI weniger aufwändig. Für die meisten Gamer und Community-Manager trifft die OBS + lokales Whisper-Kombination den Sweet Spot.

Mehrere Sprecher in Discord-Audio-Transkriptionen handhaben

Whisper produziert einen einzelnen Textstream. Es weiß nicht, dass „Hey, ich widerspreche dem” von einer Person kam und „Lass mich ausreden” von einer anderen. Bei einfachen Zweipersonen-Anrufen ist das handhabbar – du kannst das Transkript lesen und den Kontext verstehen. Bei Anrufen mit fünf oder mehr Sprechern wird unbeschrifteter Text schwer nutzbar.

Option 1: Pro-Sprecher-Dateien von Craig

Wenn du mit Craig aufgenommen hast, hast du bereits separate FLAC-Dateien pro Teilnehmer. Führe Whisper auf jeder Datei unabhängig aus:

whisper alice.flac --model small --output_format txt
whisper bob.flac --model small --output_format txt

Dann füge die mit Zeitstempeln versehenen Ausgaben chronologisch zusammen. Die von Whisper produzierten Zeitstempel ([00:00 --> 00:15]) ermöglichen es dir, sie zu verschachteln. Das ist manuell, aber der zuverlässigste Ansatz.

Option 2: pyannote.audio für Diarisierung

pyannote.audio ist eine Open-Source-Sprecher-Diarisierungsbibliothek. Kombiniert mit Whisper produziert sie Ausgaben wie:

[SPRECHER_00] 00:00:02 - 00:00:08: Wir sollten die Veranstaltung auf Samstag verschieben.
[SPRECHER_01] 00:00:09 - 00:00:14: Einverstanden, Sonntag ist für die Hälfte des Servers voll.

Die Einrichtung ist aufwändiger (Hugging-Face-Token für Modellgewichte, GPU dringend empfohlen), aber die Ausgabe ist für Meeting-Notizen wesentlich nützlicher. Prüfe das pyannote-GitHub für aktuelle Installationsanweisungen, da die API zwischen Versionen wechselt.

Option 3: Cloud mit integrierter Diarisierung

Dienste wie AssemblyAI und Deepgram bieten Sprecher-Diarisierung beide als Ein-Klick-Option in ihren APIs an. Du lädst die Datei hoch, gibst diarization: true an und erhältst beschriftetes JSON zurück. Der Kompromiss ist, dass dein Audio dein Gerät verlässt – berücksichtige das in deiner Entscheidung, wenn der Anrufinhalt sensibel ist.

Discord-Anrufe aufzeichnen und transkribieren: Einwilligung und rechtliche Überlegungen

Bevor du Discord-Gespräche aufzeichnest und transkribierst, musst du über Einwilligung nachdenken. Das ist nicht nur Etikette – es ist in vielen Orten eine rechtliche Anforderung.

Einparteien- vs. Allparteien-Einwilligung. In den USA erlaubt das Bundesrecht (ECPA) Einparteien-Einwilligung – du kannst einen Anruf aufzeichnen, an dem du teilnimmst, ohne die anderen zu informieren. Aber etwa zwölf US-Bundesstaaten, darunter Kalifornien, Illinois und Florida, erfordern Allparteien-Einwilligung. Die Aufzeichnung eines Anrufs mit einem Einwohner Kaliforniens ohne deren Wissen könnte dich zivilrechtlich haftbar machen.

EU und DSGVO. In der EU stellt die Aufzeichnung von jemandes Stimme die Verarbeitung personenbezogener Daten dar. Du brauchst eine rechtliche Grundlage – typischerweise ausdrückliche Einwilligung. Informiere Teilnehmer und hole eine mündliche Bestätigung zu Beginn des Anrufs ein.

Discords Regeln. Discords Community-Richtlinien und Nutzungsbedingungen verbieten die Aufzeichnung von Anrufen durch Teilnehmer nicht ausdrücklich, aber das Verteilen von Aufnahmen zur Schädigung oder Belästigung anderer verstößt gegen die Richtlinien. Wenn du für Moderationszwecke aufzeichnest, befolge die eigenen Regeln deines Servers und halte Aufnahmen sicher.

Praktische Best Practice: Kündige es am Anfang laut an. „Hey, ich nehme diesen Anruf für Notizen auf” reicht in den meisten Kontexten für die Einwilligung. Für formelle Zwecke hol eine Textbestätigung im Server-Chat.

Transkriptionsgenauigkeit für Discord-Audio verbessern

Discords Opus-Codec komprimiert Audio aggressiv. Aufnahmen aus Discord-Sprachkanälen haben tendenziell mehr Kompressions-Artefakte als eine lokale Mikrofon-Aufnahme, was Whispers Genauigkeit bei leiseren Sprechern oder nicht-nativen Akzenten beeinträchtigen kann.

Einige hilfreiche Maßnahmen:

Rauschunterdrückung vor der Aufnahme. Rauschunterdrückung während des Anrufs (integriert in Discords Client oder über eine Desktop-App) produziert saubereres Quell-Audio für die Transkription. VoxBoostars lokale Rauschunterdrückung zum Beispiel verarbeitet Audio in Echtzeit ohne Cloud-Abhängigkeit – und da die Verarbeitung auf dem Gerät erfolgt, kannst du die saubere Ausgabe direkt aufzeichnen. Wie Voice-Funktionen auf Discord funktionieren.

Höheres Whisper-Modell für schwieriges Audio nutzen. Wenn das small-Modell bei einer lauten Aufnahme unverständlichen Text produziert, versuche medium oder large-v3. Der Genauigkeitssprung ist bei stark komprimierter oder akzentbetonter Sprache erheblich.

Mono vs. Stereo. Whisper performt besser bei Mono-Aufnahmen. Wenn dein OBS-Setup Stereo aufnimmt (linker Kanal Mikrofon, rechter Kanal Discord), downmixe vor der Transkription mit ffmpeg auf Mono:

ffmpeg -i stereo_aufnahme.wav -ac 1 mono_aufnahme.wav

Sprache angeben. Wenn alle im Anruf Deutsch sprechen, gib --language de an Whisper weiter. Das Überspringen der Spracherkennung entfernt einen potenziellen Fehlerpunkt und beschleunigt den ersten Durchlauf.

Anfangs-Prompt. Whisper akzeptiert ein --initial_prompt-Argument, das das Modell auf Vokabular ausrichtet, das im Prompt vorkommt. Wenn dein Anruf über ein bestimmtes Spiel oder technisches Thema geht, kann das Modell mit relevanten Begriffen auf korrekte Eigennamen vorbereitet werden:

whisper anruf.wav --initial_prompt "Valorant-Spielstrategie, Agenten-Auswahl, Sitelastcontrol"

Whisper Discord-Transkription ohne Kommandozeile

Nicht jeder möchte Python-Befehle ausführen. Wenn du eine grafische Oberfläche bevorzugst, gibt es einige Ansätze:

VoxBooster bündelt Whisper-grade lokale Sprache-zu-Text mit einer grafischen Oberfläche. Du kannst eine Audiodatei auf den Transkriptions-Bildschirm ziehen und eine Textdatei erhalten, ohne ein Terminal zu öffnen. Alle Verarbeitung läuft auf deinem PC – keine Datei verlässt dein Gerät. VoxBooster herunterladen zum Testen oder Preisoptionen einsehen, wenn du den vollen Funktionsumfang mit Echtzeit-Diktat während Anrufen möchtest.

Whisper Desktop / Whisper Transcriber. Mehrere Open-Source-GUI-Wrapper um Whisper existieren auf GitHub. Qualität variiert und sie werden weniger aktiv gepflegt, aber sie funktionieren, wenn du nur eine Point-and-Click-Datei-Transkription brauchst.

whisper.cpp mit einem GUI-Frontend. Der whisper.cpp-Port ist eine C++-Implementierung, die kein Python erfordert. Einige Community-Frontends hüllen ihn in eine einfache Drag-and-Drop-Oberfläche. Siehe unsere Anleitung zu Whisper-Diktat für Windows für mehr Kontext zu Desktop-Whisper-Setups.

Transkripte für Discord-Meeting-Notizen nutzen

Sobald du ein rohes Transkript hast, besteht die nächste Herausforderung darin, es in etwas Nützliches zu verwandeln. Whisper-Ausgabe ist eine dichte Textwand mit Zeitstempeln, aber ohne Formatierung. Hier ist ein schneller Bereinigungsworkflow:

Zeitstempel entfernen, wenn du sie nicht brauchst. Ein Text-Editor mit Regex-Suchen-und-Ersetzen erledigt das schnell: suche nach \[\d{2}:\d{2}\.\d{3} --> \d{2}:\d{2}\.\d{3}\] und ersetze mit nichts.
Sprecher-Labels hinzufügen mit dem oben beschriebenen Diarisierungsansatz oder manuell, wenn du den Anruf gut kennst.
Durch einen Zusammenfasser laufen lassen. Füge das bereinigte Transkript in eine beliebige LLM-Chat-Oberfläche ein und bitte um stichpunktartige Aktionspunkte. Das verwandelt einen unübersichtlichen einstündigen Anruf in eine fünf-Punkte-Zusammenfassung in etwa 30 Sekunden.
Im Server posten. Füge die Zusammenfassung (nicht das rohe Transkript) in einen dedizierten #meeting-notes-Kanal ein. Deine Mitglieder können danach suchen, darauf verlinken und die Menschen für das tatsächlich Gesagte verantwortlich halten.

Häufig gestellte Fragen

Hat Discord eine integrierte Transkriptionsfunktion?

Nein. Stand 2026 hat Discord keine native Anruf-Transkriptionsfunktion. Discord bietet Live-Untertitel in Sprachkanälen als Barrierefreiheitsoption an, aber diese Untertitel werden nirgends gespeichert – sie verschwinden, wenn die Session endet. Um ein dauerhaftes Transkript zu erhalten, musst du den Anruf aufzeichnen und das Audio separat transkribieren.

Ist es legal, einen Discord-Anruf aufzuzeichnen und zu transkribieren?

Das hängt von deiner Rechtsordnung ab. In vielen US-Bundesstaaten gilt Einparteien-Einwilligung (du kannst einen Anruf aufzeichnen, an dem du teilnimmst, ohne die andere Seite zu informieren), aber einige Bundesstaaten und die meisten EU-Länder erfordern Allparteien-Einwilligung. Informiere Teilnehmer immer vor der Aufzeichnung. Discords eigene Nutzungsbedingungen verbieten die Aufzeichnung nicht, aber das Brechen lokaler Abhörgesetze liegt in deiner Verantwortung.

Was ist die genaueste kostenlose Transkription für Discord-Audio?

OpenAI Whispers large-v3-Modell erreicht Wortfehlerraten unter 5 % bei sauberem Audio und ist vollständig kostenlos lokal ausführbar. Für Discord-Anrufe, die mit einem ordentlichen Headset in einer ruhigen Umgebung aufgezeichnet wurden, ist das small- oder medium-Whisper-Modell in der Regel genau genug und deutlich schneller als large-v3.

Kann ich Discord-Anrufe mit mehreren Sprechern transkribieren?

Whisper allein führt keine Sprecher-Diarisierung durch – es transkribiert Wörter, beschriftet aber nicht, wer was gesagt hat. Um sprecherbeschriftete Ausgabe zu erhalten, musst du Whisper mit einem Diarisierungs-Tool wie pyannote.audio kombinieren oder einen Cloud-Dienst wie AssemblyAI nutzen, der Diarisierung nativ unterstützt. Lokale Diarisierung funktioniert, erfordert aber mehr Einrichtung.

Wie nehme ich einen Discord-Anruf unter Windows auf?

Die einfachste Methode ist OBS Studio, eingestellt auf die Aufnahme von Desktop-Audio oder einem virtuellen Audio-Kabel. Route die Discord-Ausgabe zur Aufnahmequelle, starte die Session und exportiere die Aufnahme als WAV oder MP3, nachdem der Anruf beendet ist. Der Craig-Bot ist eine beliebte Discord-native Option, die jeden Sprecher auf einem separaten Track aufzeichnet.

Wie lange braucht Whisper, um eine einstündige Discord-Aufnahme zu transkribieren?

Auf einer modernen CPU (Ryzen 5 / Core i5) mit dem small-Modell sind es ungefähr 8–15 Minuten für eine einstündige Aufnahme. Mit einer mittelklassigen GPU (RTX 3060 oder besser) und dem medium-Modell transkribiert die gleiche Datei in unter 3 Minuten. Das large-v3-Modell auf der GPU erledigt es in 5–8 Minuten mit höherer Genauigkeit.

Welches Audioformat akzeptiert Whisper für Discord-Transkriptionen?

Whisper akzeptiert WAV, MP3, FLAC, M4A, OGG und die meisten gängigen Audioformate, da es ffmpeg unter der Haube verwendet. Discord-Aufnahmen, die als MP3 oder WAV gespeichert werden, funktionieren einwandfrei. Wenn du mit OBS aufnimmst, exportiere als WAV für die beste Genauigkeit – komprimierte Formate können Artefakte einführen, die die Transkriptionsqualität beeinträchtigen.

Fazit

Discord-Anrufe zu transkribieren läuft auf zwei Schritte hinaus: das Audio mit OBS oder Craig aufzeichnen, dann lokal durch Whisper laufen lassen. Diese Kombination ist kostenlos, genau und privat – dein Audio verlässt nie dein Gerät. Für Gruppenanrufe kombiniere Pro-Sprecher-Craig-Aufnahmen mit individuellen Whisper-Durchläufen oder füge pyannote.audio für automatische Diarisierung hinzu, wenn du nichts gegen mehr Einrichtungsaufwand hast. Cloud-Dienste sind eine vernünftige Alternative, wenn du Diarisierung direkt aus der Box brauchst und Datenschutz weniger relevant ist.

Wenn du die Kommandozeilen-Einrichtung komplett überspringen möchtest, bündelt VoxBooster lokale Whisper-grade Transkription in einer Windows-Desktop-App neben Echtzeit-Voice-Effekten, Rauschunterdrückung und einem Soundboard – alle Verarbeitung auf dem Gerät, kein Kernel-Treiber erforderlich. Das ist eine praktische All-in-One-Lösung für alle, die bereits viel Zeit in Discord-Sprachkanälen verbringen und möchten, dass ihr Workflow offline und schnell bleibt.