Discord 통화 전사하는 방법 (무료, 로컬, 2026)

로컬 Whisper AI를 사용해 봇 없이, 클라우드 업로드 없이 Discord 통화를 무료로 전사하는 방법. 녹음, 정확도, 다중 화자 팁을 다루는 단계별 가이드.

Discord 통화 전사하는 방법은 게이밍 커뮤니티, 온라인 팀, 팟캐스트 크루, 운영진 사이에서 끊임없이 나오는 질문입니다 — 그리고 Discord가 이를 수행하는 내장 방법을 제공하지 않기 때문에 답이 명확하지 않습니다. 이 포스트는 무료 도구를 사용해 어떤 Discord 통화의 깨끗하고 정확한 전사를 얻는 방법을 정확히 안내하고, 로컬과 클라우드 방법 간의 현실적인 트레이드오프를 설명하며, 오디오를 서드파티 서버에서 완전히 오프로 유지하는 단계별 로컬 Whisper 워크플로우를 보여줍니다.


TL;DR

  • Discord에는 네이티브 전사가 없습니다 — 먼저 통화를 녹음하고 오디오 파일을 전사해야 합니다
  • 가장 좋은 무료 로컬 옵션은 완전히 자신의 PC에서 실행되는 OpenAI Whisper입니다
  • OBS Studio (데스크탑 오디오 캡처) 또는 Craig 봇 (화자별 트랙)으로 녹음하세요
  • 커맨드 라인에서 whisper audio.mp3 --model small로 전사하거나 데스크탑 앱을 사용하세요
  • 다중 화자 레이블을 위해 Whisper와 pyannote.audio를 결합하거나 클라우드 서비스를 사용하세요
  • 항상 참여자에게 녹음 중임을 알리세요 — 동의 요건은 국가와 미국 주마다 다릅니다

사람들이 Discord 음성 채팅을 전사하는 이유

Discord는 게이밍 채팅 앱으로 시작했지만 인디 팀, 온라인 커뮤니티, 콘텐츠 크리에이터, 리모트 우선 프로젝트를 위한 인프라 레이어로 성장했습니다. 결과적으로 Discord 음성 채널에서 일어나는 통화가 항상 캐주얼하지 않습니다 — 스탠드업 미팅, 팟캐스트 녹음, 길드 전략 세션, 운영 심문, 클라이언트 통화입니다.

Discord 통화 전사를 원하는 주요 이유:

미팅 메모와 책임. 많은 커뮤니티 운영 서버가 음성으로 결정을 내립니다. 전사는 누군가의 기억이나 스트림 채팅의 허술한 복사-붙여넣기에 의존하지 않고 모든 멤버에게 검색 가능한 기록을 제공합니다.

접근성. 청각 장애나 난청이 있는 멤버는 음성 대화의 텍스트 버전이 필요합니다. 청각에 문제가 없는 사용자에게도, 전사는 전체 녹음을 듣지 않고 비동기적으로 따라잡을 수 있게 합니다.

콘텐츠 재활용. Discord에서 대화를 녹음하는 팟캐스터와 스트리머는 편집 전에 거친 전사를 원합니다 — 타임스탬프 찾기, 쇼 노트 생성, 소셜 미디어를 위한 인용문 추출 속도를 높여줍니다.

운영 기록. 서버 운영자는 때로 갈등이나 괴롭힘 사건 중에 발생한 일을 문서화해야 합니다. 전사는 1시간 오디오 파일보다 검토하고 이의 제기 프로세스와 공유하기 더 쉽습니다.

받아쓰기와 팟캐스트 쇼 노트. 작가와 솔로 크리에이터는 Discord 통화를 받아쓰기 매체로 사용합니다 — 아이디어를 말하고 녹음을 Whisper로 피딩해 초안을 얻습니다. 깨끗한 발화에 대한 Whisper의 정확도는 이것이 진정으로 유용하게 만들 만큼 충분히 가깝습니다.


Discord에 네이티브 전사 기능이 있나요?

Discord는 2026년 현재 내장 통화 전사가 없습니다. 플랫폼은 음성 채널에서 실시간 자막을 제공합니다 — 사람들이 말할 때 실시간 자막을 생성하는 접근성 기능 — 하지만 해당 자막은 세션 중에만 존재하며 저장되지 않습니다. 모두가 채널을 떠나면 자막도 사라집니다.

Discord의 실시간 자막은 클라우드 기반 음성 인식 엔진을 사용하며 다운로드 가능한 전사를 생성하지 않습니다. 전사 기록이 없고, 내보내기 옵션이 없으며, 나중에 자막 데이터를 가져올 수 있는 API가 없습니다. 발언한 내용의 영구적 기록이 필요하다면 녹음과 전사를 직접 처리해야 합니다.


Discord 통화 전사하는 방법: 핵심 워크플로우

Discord 통화 전사하는 방법의 핵심 답변은 두 단계 프로세스입니다: 오디오를 녹음하고, 파일에 음성-텍스트를 실행합니다.

1단계는 Discord가 가상 오디오 장치나 전용 봇 없이는 서드파티 데스크탑 도구에 실시간 원시 오디오 스트림을 노출하지 않기 때문에 필요합니다. 2단계는 로컬 (무료, 비공개) 또는 클라우드 서비스 (다중 화자 지원이 더 쉽고, 비용이 들거나 사용 한도가 있음)로 할 수 있습니다.

처음부터 끝까지 전체 로컬 워크플로우입니다.

1단계: Discord 통화 녹음

상황에 따라 세 가지 탄탄한 옵션이 있습니다:

OBS Studio (무료, 봇 불필요)

  1. 아직 없다면 OBS Studio를 다운로드하고 설치합니다.
  2. OBS에서 설정 → 출력 → 녹화로 이동합니다. 최상의 전사 정확도를 위해 형식을 WAV 또는 FLAC로 설정합니다 (MP3도 괜찮지만 품질이 낮음).
  3. 오디오 믹서에서 “데스크탑 오디오”가 활성화되어 있는지 확인합니다. 이것은 Discord 음성을 포함한 스피커/헤드폰에서 나오는 모든 것을 캡처합니다.
  4. 선택적으로 마이크/보조 소스를 추가해 자신의 목소리를 별도 트랙에 캡처합니다 — 나중에 전사 정확도와 다중 화자 다이어리제이션에 유용합니다.
  5. 통화가 시작되기 전에 녹화를 시작합니다. 모두가 연결을 끊으면 중지합니다.
  6. 설정한 경로 (기본값: 동영상 폴더)에서 녹화를 찾습니다.

Craig 봇 (무료 티어 사용 가능, 화자별 트랙)

Craig는 녹음을 위해 특별히 제작된 Discord 봇입니다. 서버에 초대하고, 음성 채널에서 /join을 입력하면 모든 참여자를 별도 오디오 트랙으로 녹음합니다. 통화 후 화자별 개별 FLAC 파일이 담긴 다운로드 링크를 이메일로 전송합니다. 다이어리제이션이 훨씬 쉬워집니다 — 어떤 파일이 어떤 화자인지 이미 알고 있습니다.

Craig의 무료 티어는 대부분의 커뮤니티 녹음 요구를 충족합니다. 화자별 형식이 그룹 통화 전사에서 OBS보다 가장 큰 이점입니다.

VoxBooster 내장 녹음 (Windows 전용)

VoxBooster에는 처리된 오디오를 캡처하는 오디오 녹음 레이어가 포함됩니다 — 통화 중 음성 효과나 노이즈 억제도 실행하는 경우, 녹음이 상대방이 실제로 들은 것을 반영합니다. 출력은 전사에 준비된 깨끗한 WAV 파일입니다. 모든 처리가 로컬이므로 어디에도 업로드되지 않습니다.

2단계: Whisper로 녹음 전사

OpenAI Whisper는 완전히 PC에서 실행되는 무료, 오픈소스 음성 인식 모델입니다. 계정 없음, API 키 없음, 사용 한도 없음. 설정에 대한 자세한 내용은 Windows에서 Whisper 전사 가이드를 참조하세요.

Whisper 설치

Python 3.9~3.12와 PATH에 ffmpeg가 필요합니다. pip를 통해 Whisper를 설치합니다:

pip install openai-whisper

ffmpeg가 접근 가능한지 확인합니다:

ffmpeg -version

오류가 발생하면 winget으로 ffmpeg를 설치합니다: winget install Gyan.FFmpeg

전사 실행

whisper discord_call.wav --model small --language en --output_format txt
  • --model small이 좋은 기본값입니다: ~244MB, 빠르고, 깨끗한 발화에 정확
  • --language en은 언어 감지를 건너뛰고 언어를 알 경우 속도를 높임
  • --output_format txt는 일반 텍스트 파일을 제공합니다; 타임스탬프가 있는 자막을 원하면 srt 사용

현대적인 CPU에서 1시간 녹음에 small 모델은 약 8~15분이 걸립니다. Nvidia GPU (CUDA)를 사용하면 2분 미만으로 줄어듭니다.

출력 위치: Whisper는 기본적으로 소스 파일과 동일한 폴더에 전사를 저장합니다.


전사 방법 비교

방법비용개인 정보정확도다중 화자설정 노력
로컬 Whisper (CLI)무료완전 로컬높음 (small/medium 모델)아니오 (단어만)중간 — Python + ffmpeg 필요
로컬 Whisper + pyannote무료완전 로컬높음예 (화자 레이블)높음 — 추가 라이브러리, GPU 도움
Craig 봇 + Whisper무료봇이 오디오에 접근높음예 (트랙별 파일)낮음-중간
AssemblyAI / Deepgram분당 요금클라우드 업로드매우 높음예 (내장)낮음 — API 키만
Otter.ai프리미엄클라우드 업로드좋음매우 낮음 — 브라우저 기반
Discord 실시간 자막무료클라우드 (Discord)기본아니오없음 — 내장, 저장 안됨

올바른 선택은 위협 모델에 따라 다릅니다. 민감한 운영 대화나 내부 비즈니스 통화를 전사하는 경우, 로컬 Whisper는 오디오를 서드파티 서버에서 완전히 오프로 유지합니다. 단순히 좋은 쇼 노트를 빠르게 원하는 팟캐스터의 경우 AssemblyAI 같은 클라우드 서비스가 덜 번거롭습니다. 대부분의 게이머와 커뮤니티 관리자에게는 OBS + 로컬 Whisper 조합이 최적 지점입니다.


Discord 오디오 전사에서 여러 화자 처리

Whisper는 단일 텍스트 스트림을 생성합니다. “이봐, 저는 그것에 동의하지 않아요”가 한 사람에게서 나왔고 “계속 말씀하세요”가 다른 사람에게서 나왔다는 것을 모릅니다. 간단한 2인 통화의 경우 관리 가능합니다 — 전사를 읽고 맥락을 파악할 수 있습니다. 5명 이상의 화자가 있는 통화에서 레이블 없는 텍스트는 사용하기 어려워집니다.

옵션 1: Craig의 화자별 파일

Craig로 녹음했다면 이미 참여자별 별도 FLAC 파일이 있습니다. 각 파일에 개별적으로 Whisper를 실행합니다:

whisper alice.flac --model small --output_format txt
whisper bob.flac --model small --output_format txt

그런 다음 타임스탬프로 출력을 시간순으로 병합합니다. Whisper가 생성하는 타임스탬프 ([00:00 --> 00:15])를 사용해 서로 섞을 수 있습니다. 수동이지만 가장 신뢰할 수 있는 접근 방식입니다.

옵션 2: 다이어리제이션을 위한 pyannote.audio

pyannote.audio는 오픈소스 화자 다이어리제이션 라이브러리입니다. Whisper와 결합하면 다음과 같은 출력을 생성합니다:

[SPEAKER_00] 00:00:02 - 00:00:08: 토요일로 이벤트를 옮겨야 할 것 같아요.
[SPEAKER_01] 00:00:09 - 00:00:14: 동의해요, 일요일은 서버 절반에게 바빠요.

설정이 더 복잡하지만 (모델 가중치를 위한 Hugging Face 토큰, GPU 강력 권장), 출력이 미팅 메모에 훨씬 더 유용합니다. API가 버전 사이에 변경되므로 현재 설치 지침은 pyannote GitHub를 확인하세요.

옵션 3: 내장 다이어리제이션이 있는 클라우드

AssemblyAI와 Deepgram은 모두 API에서 원클릭 옵션으로 화자 다이어리제이션을 제공합니다. 파일을 업로드하고 diarization: true를 지정하면 레이블이 붙은 JSON을 받습니다. 트레이드오프는 오디오가 기기를 떠난다는 것입니다 — 통화 내용이 민감하다면 결정에 그것을 고려하세요.


Discord 녹음 및 전사: 동의와 법적 고려사항

Discord 대화를 녹음하고 전사하기 전에 동의에 대해 생각해야 합니다. 이것은 단순한 에티켓이 아닙니다 — 많은 곳에서 법적 요건입니다.

단일 당사자 vs. 모든 당사자 동의 주. 미국에서 연방법 (ECPA)은 단일 당사자 동의를 허용합니다 — 다른 사람에게 알리지 않고 참여하는 통화를 녹음할 수 있다는 의미입니다. 하지만 캘리포니아, 일리노이, 플로리다를 포함한 약 12개 미국 주는 모든 당사자 동의를 요구합니다. 캘리포니아 거주자와의 통화를 그들의 지식 없이 녹음하면 민사 책임을 질 수 있습니다.

EU와 GDPR. EU에서 누군가의 목소리를 녹음하는 것은 개인 데이터 처리에 해당합니다. 명시적 동의라는 합법적 근거가 필요합니다. 참여자에게 알리고 통화 시작 시 구두 확인을 받으세요.

Discord 규칙. Discord의 커뮤니티 가이드라인과 서비스 약관은 참여자에 의한 통화 녹음을 명시적으로 금지하지 않지만, 타인을 해치거나 괴롭히기 위해 녹음을 배포하는 것은 가이드라인을 위반합니다. 운영 목적으로 녹음하는 경우 서버 자체 규칙을 따르고 녹음을 안전하게 보관하세요.

실용적인 모범 사례: 시작 시 큰 소리로 발표하세요. “이봐요, 노트를 위해 이 통화를 녹음하고 있어요”는 대부분의 맥락에서 동의로 충분합니다. 공식적인 것을 위해서는 서버 채팅에서 텍스트 확인을 받으세요.


Discord 오디오 전사 정확도 향상

Discord의 Opus 코덱은 오디오를 적극적으로 압축합니다. Discord 음성 채널의 녹음은 로컬 마이크 녹음보다 더 많은 압축 아티팩트를 가지는 경향이 있으며, 이는 더 조용한 화자나 비원어민 악센트에서 Whisper의 정확도를 해칠 수 있습니다.

도움이 되는 몇 가지:

녹음 전 노이즈 억제. 통화 중 노이즈 억제를 실행하면 (Discord 클라이언트 내장 또는 데스크탑 앱을 통해) 전사를 위한 더 깨끗한 소스 오디오가 생성됩니다. VoxBooster의 로컬 노이즈 억제는 예를 들어 클라우드 의존성 없이 실시간으로 오디오를 처리합니다 — 그리고 처리가 기기에서 이루어지므로 깨끗한 출력을 직접 녹음할 수 있습니다. Discord에서 음성 기능 작동 방식을 참조하세요.

어려운 오디오에는 더 높은 Whisper 모델을 사용하세요. small 모델이 소음이 많은 녹음에서 이상한 텍스트를 생성하면 medium 또는 large-v3를 시도하세요. 심하게 압축되거나 악센트가 있는 발화에서 정확도 향상이 상당합니다.

모노 vs. 스테레오. Whisper는 모노 녹음에서 더 잘 작동합니다. OBS 설정이 스테레오로 녹음하는 경우 (왼쪽 채널 마이크, 오른쪽 채널 Discord), 전사 전에 ffmpeg로 모노로 다운믹스합니다:

ffmpeg -i stereo_recording.wav -ac 1 mono_recording.wav

언어 지정. 통화의 모든 사람이 특정 언어를 사용한다면 Whisper에 --language 플래그를 전달하세요. 언어 감지를 건너뛰면 잠재적인 실패 지점을 제거하고 첫 번째 패스 속도를 높입니다.

초기 프롬프트. Whisper는 모델이 프롬프트에서 보이는 어휘로 편향되는 --initial_prompt 인수를 받습니다. 통화가 특정 게임이나 기술 주제에 관한 것이라면 관련 용어로 모델을 프라이밍하면 고유 명사 오류를 줄일 수 있습니다:

whisper call.wav --initial_prompt "Valorant gameplay strategy, agent picks, site control"

커맨드 라인 없이 Whisper Discord 전사

모든 사람이 Python 명령을 실행하고 싶은 것은 아닙니다. GUI를 선호한다면 몇 가지 접근 방식이 있습니다:

VoxBooster는 그래픽 인터페이스와 함께 Whisper 수준의 로컬 음성-텍스트를 번들로 제공합니다. 전사 화면에 오디오 파일을 드롭하면 터미널을 열지 않고 텍스트 파일을 얻을 수 있습니다. 모든 처리가 PC에서 실행됩니다 — 파일이 기기를 떠나지 않습니다. VoxBooster를 다운로드해 시도해보거나, 실시간 받아쓰기를 포함한 전체 기능 세트를 원한다면 가격 옵션을 확인하세요.

Whisper Desktop / Whisper Transcriber. Whisper를 감싸는 여러 오픈소스 GUI 래퍼가 GitHub에 존재합니다. 품질은 다양하고 덜 활발하게 유지되지만, 단순히 포인트-앤-클릭 파일 전사가 필요하다면 작동합니다.

GUI 프론트엔드가 있는 whisper.cpp. whisper.cpp 포트는 Python이 필요 없는 C++ 구현입니다. 일부 커뮤니티 프론트엔드가 간단한 드래그 앤 드롭 인터페이스로 감쌉니다. 데스크탑 Whisper 설정에 대한 더 많은 맥락은 Windows용 Whisper 받아쓰기 가이드를 참조하세요.


Discord 미팅 메모를 위한 전사 활용

원시 전사가 생기면 다음 과제는 그것을 유용한 것으로 만드는 것입니다. Whisper 출력은 타임스탬프는 있지만 형식이 없는 밀도 있는 텍스트 벽입니다. 빠른 정리 워크플로우:

  1. 타임스탬프가 필요 없다면 제거합니다. 정규 표현식 찾기 및 바꾸기가 있는 텍스트 편집기로 빠르게 처리합니다: \[\d{2}:\d{2}\.\d{3} --> \d{2}:\d{2}\.\d{3}\]을 찾아 아무것도 없는 것으로 바꿉니다.
  2. 위에 설명된 다이어리제이션 접근 방식을 사용하거나 통화를 잘 안다면 수동으로 화자 레이블을 추가합니다.
  3. 요약기를 통해 실행합니다. 정리된 전사를 어떤 LLM 채팅 인터페이스에 붙여넣고 불릿 포인트 액션 아이템을 생성하도록 요청합니다. 이것은 지저분한 1시간 통화를 약 30초 만에 5가지 불릿 요약으로 만들어줍니다.
  4. 서버에 포스팅합니다. 요약 (원시 전사 아님)을 전용 #meeting-notes 채널에 붙여넣으세요. 멤버들이 검색하고, 링크하고, 실제 발언에 대해 책임을 지울 수 있습니다.

자주 묻는 질문

Discord에 내장 전사 기능이 있나요?

아닙니다. 2026년 현재 Discord에는 네이티브 통화 전사 기능이 없습니다. Discord는 접근성 옵션으로 음성 채널에서 실시간 자막을 제공하지만, 해당 자막은 어디에도 저장되지 않습니다 — 세션이 종료되면 사라집니다. 영구적인 전사를 얻으려면 통화를 녹음하고 오디오를 별도로 전사해야 합니다.

Discord 통화를 녹음하고 전사하는 것이 합법인가요?

관할 지역에 따라 다릅니다. 많은 미국 주는 단일 당사자 동의를 요구하지만(상대방에게 알리지 않고 참여하는 통화를 녹음 가능), 일부 주와 대부분의 EU 국가는 모든 당사자 동의를 요구합니다. 항상 녹음 전에 참여자에게 알리세요. Discord 자체 서비스 약관은 녹음을 금지하지 않지만, 현지 도청법 위반은 당신의 책임입니다.

Discord 오디오에서 가장 정확한 무료 전사는 무엇인가요?

OpenAI Whisper의 large-v3 모델은 깨끗한 오디오에서 5% 미만의 단어 오류율을 달성하며 로컬에서 완전히 무료로 실행됩니다. 조용한 환경에서 괜찮은 헤드셋으로 녹음된 Discord 통화의 경우 small 또는 medium Whisper 모델이 보통 충분히 정확하며 large-v3보다 훨씬 빠릅니다.

여러 화자가 있는 Discord 통화를 전사할 수 있나요?

Whisper 단독으로는 화자 다이어리제이션을 하지 않습니다 — 단어를 전사하지만 누가 말했는지는 레이블을 붙이지 않습니다. 화자 레이블이 있는 출력을 얻으려면 Whisper와 pyannote.audio 같은 다이어리제이션 도구를 결합하거나, 다이어리제이션을 네이티브로 처리하는 AssemblyAI 같은 클라우드 서비스를 사용해야 합니다. 로컬 다이어리제이션은 작동하지만 더 많은 설정이 필요합니다.

Windows에서 Discord 통화를 녹음하려면 어떻게 해야 하나요?

가장 간단한 방법은 OBS Studio를 데스크탑 오디오 또는 가상 오디오 케이블을 캡처하도록 설정하는 것입니다. Discord 출력을 녹음 소스로 라우팅하고, 세션을 시작하고, 통화가 끝난 후 녹음을 WAV 또는 MP3로 내보냅니다. Craig 봇은 각 화자를 별도 트랙으로 녹음하는 인기 있는 Discord 네이티브 옵션입니다.

Whisper가 1시간 Discord 녹음을 전사하는 데 얼마나 걸리나요?

small 모델을 사용하는 현대적인 CPU (Ryzen 5 / Core i5)에서 1시간 녹음에 약 815분을 예상하세요. 중급 GPU (RTX 3060 이상)와 medium 모델을 사용하면 동일한 파일이 3분 이내에 전사됩니다. GPU의 large-v3 모델은 더 높은 정확도로 58분 만에 처리합니다.

Whisper는 Discord 전사를 위해 어떤 오디오 형식을 받나요?

Whisper는 내부적으로 ffmpeg를 사용하기 때문에 WAV, MP3, FLAC, M4A, OGG 및 대부분의 일반적인 오디오 형식을 받습니다. MP3 또는 WAV로 저장된 Discord 녹음은 완벽하게 작동합니다. OBS로 녹음하는 경우 최상의 정확도를 위해 WAV로 내보내세요 — 압축 형식은 전사 품질을 해칠 수 있는 아티팩트를 도입할 수 있습니다.


마치며

Discord 통화 전사하는 방법은 두 단계로 요약됩니다: OBS 또는 Craig로 오디오를 녹음하고, 로컬에서 Whisper를 통해 실행합니다. 해당 조합은 무료이고, 정확하며, 비공개입니다 — 오디오가 기기를 떠나지 않습니다. 그룹 통화의 경우 화자별 Craig 녹음을 개별 Whisper 패스와 결합하거나, 더 많은 설정이 싫다면 자동 다이어리제이션을 위해 pyannote.audio를 추가하세요. 클라우드 서비스는 다이어리제이션이 즉시 필요하고 개인 정보가 덜 중요한 경우 합리적인 대안입니다.

커맨드 라인 설정을 완전히 건너뛰고 싶다면 VoxBooster는 로컬 Whisper 수준의 전사를 Windows 데스크탑 앱에서 실시간 음성 효과, 노이즈 억제, 사운드보드와 함께 번들로 제공합니다 — 모든 처리가 기기에서 이루어지며 커널 드라이버가 필요 없습니다. Discord 음성 채널에서 많은 시간을 보내면서 워크플로우를 오프라인과 빠르게 유지하고 싶은 사람에게 실용적인 올인원 솔루션입니다.

VoxBooster 체험 — 3일 무료.

실시간 음성 클론, 사운드보드, 이펙트 — 대화하는 모든 곳에서.

  • 카드 불필요
  • ~30ms 지연
  • Discord · Teams · OBS
3일 무료 체험