Windows에서 Whisper 음성 인식 설정하기 (로컬 + 무료)

Windows에서의 Whisper 음성 인식은 자신의 하드웨어에서 완전히 실행되는 정확한 오프라인 음성-텍스트 변환을 제공합니다 — 구독 없음, 클라우드 업로드 없음, 분당 수수료 없음. 이 가이드는 사전 조건부터 프로덕션 사용까지 모든 것을 다룹니다: Python pip 설치, 더 가벼운 whisper.cpp 포트, 사용 가능한 GUI 앱, 그리고 Python 환경 없이 실시간 음성 인식을 원할 때 해야 할 일입니다.

요약

OpenAI Whisper은 무료, 오픈소스 음성 인식 모델로 5가지 크기 단계(tiny → large-v3)를 가집니다
Python 3.9–3.12에서 pip install openai-whisper로 설치합니다; PATH에 ffmpeg이 필요합니다
whisper.cpp는 더 가벼운 C++ 포트입니다 — Python 없음, GGML 양자화를 통해 CPU에서 작동합니다
GPU(CUDA)는 큰 모델에서도 거의 실시간에 가까운 음성 인식 시간을 단축합니다; 작은 모델의 경우 CPU도 잘 작동합니다
Python 설정 없이 라이브 음성 인식을 원하면 VoxBooster은 Whisper 수준의 로컬 STT를 글로벌 단축키와 함께 번들합니다
일반적인 오류: 누락된 ffmpeg, 잘못된 Python 환경, CUDA 버전 불일치

Whisper 음성 인식이란?

OpenAI Whisper는 680,000시간의 다국어 오디오로 학습된 오픈소스 자동 음성 인식(ASR) 시스템입니다. 2022년 9월에 출시되었으며 계속 개선되고 있으며, 로컬 모델로 작동합니다 — 오디오 파일이 PC를 떠나지 않습니다. 99개 언어를 처리하고 자동으로 구두점을 붙이며, large-v3 모델로 깨끗한 영어 오디오에서 5% 미만의 단어 오류율을 달성합니다.

클라우드 서비스(Otter.ai, Rev, Descript의 음성 인식 레이어)와 달리 Windows에서 Whisper은 분당 비용이 없으며 걱정할 데이터 정책도 없습니다. Whisper 음성 인식은 모델 가중치를 다운로드한 후 진정으로 무료입니다.

설치 전 사전 조건

설치 방법을 선택하기 전에 다음 종속성을 정리합니다:

Python 3.9–3.12. 공식 Whisper 패키지에는 Python이 필요합니다. 설치되어 있는지 확인합니다:

py --version

그렇지 않으면 python.org에서 최신 3.12 설치 프로그램을 다운로드합니다. 설치 중에 “Add Python to PATH”를 선택합니다 — 이것이 중요합니다.

ffmpeg. Whisper은 ffmpeg을 사용하여 오디오 및 비디오 파일을 디코드합니다. 없으면 원본 WAV가 아닌 다른 것에서 FileNotFoundError 또는 빈 출력을 받습니다. Windows 10/11에서 가장 빠른 설치 방법:

winget install Gyan.FFmpeg

그런 다음 새 터미널을 열고 확인합니다: ffmpeg -version.

GPU(선택사항이지만 권장). Whisper은 CPU에서 실행되지만 CUDA 지원 NVIDIA GPU는 큰 차이를 만듭니다. large 모델의 경우 최신 데스크톱의 CPU 음성 인식 시간은 10분 파일 기준 3~6분이지만, 중급 GPU(RTX 3060, 12GB VRAM)에서는 약 40초입니다. 모델 크기 및 VRAM 요구사항에 대한 자세한 내용은 아래 표를 참조합니다.

Whisper 모델 크기: 어떤 것을 선택할까요

모델	매개변수	VRAM (FP16)	상대 속도	영어 WER	최고의 용도
tiny	39 M	~1 GB	~32배 실시간	~5.7%	빠른 초안, 저사양 하드웨어
base	74 M	~1 GB	~16배 실시간	~4.2%	빠른 메모, 라이브 스트리밍
small	244 M	~2 GB	~6배 실시간	~3.0%	대부분의 사용자 — 최고의 가치
medium	769 M	~5 GB	~2배 실시간	~2.2%	전문 음성 인식
large-v3	1550 M	~10 GB	~1배 실시간	~1.6%	악센트, 다국어, 의료

여기서 “실시간 계수”(RTF)는 NVIDIA A100의 GPU 추론을 의미합니다. 소비자용 RTX 3080에서는 대략 3~~4배를 곱합니다. CPU에서는 다시 10~~20배를 곱합니다.

대부분의 Windows 사용자의 경우: small으로 시작합니다. 최신 CPU에서 거의 실시간으로 실행되고, base보다 악센트를 더 잘 처리하며, 2GB의 RAM/VRAM에 맞습니다. 밀도 높은 기술 어휘(법률, 의료, 코드 리뷰)의 정확도가 중요하다면 다음으로 medium을 테스트합니다.

방법 1: pip 설치 (공식 Python 패키지)

이것은 표준 openai whisper windows 설치입니다 — 터미널에 편하다면 간단합니다. 가장 유연성을 제공합니다: 전체 Python API 접근, 모든 출력 형식(txt, srt, vtt, json, tsv), 다른 스크립트와의 쉬운 통합.

단계 1 — 가상 환경 만들기 (권장)

py -m venv whisper-env
whisper-env\Scripts\activate

이는 Whisper의 종속성을 시스템 Python과 분리합니다.

단계 2 — Whisper 설치

pip install openai-whisper

모델 라이브러리와 그 종속성(PyTorch, tiktoken, tqdm, more-itertools)을 가져옵니다. 첫 실행에서 PyTorch를 포함하여 1~3GB의 다운로드를 예상합니다.

단계 3 — NVIDIA GPU가 있다면 CUDA와 함께 PyTorch 설치

위의 명령에서 기본 PyTorch는 CPU만 전용입니다. GPU 가속:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

cu121 접미사를 설치된 CUDA 버전과 일치시킵니다 (nvidia-smi에 표시됨). 확실하지 않으면 PyTorch 설치 매트릭스를 참조합니다.

단계 4 — 첫 번째 음성 인식 실행

whisper my_audio.mp3 --model small

첫 실행은 모델 가중치를 다운로드합니다(small의 경우 약 244MB). 이후 실행은 즉시입니다. 출력: 오디오 옆에 .txt, .srt, .vtt 파일.

단계 5 — 유용한 플래그

# 영어 강제(언어 감지 건너뛰기, 약간 더 빠름)
whisper audio.mp3 --model small --language en

# 일반 텍스트만 출력
whisper audio.mp3 --model small --output_format txt

# 특정 세그먼트 음성 인식(초)
whisper audio.mp3 --model small --clip_timestamps "30,90"

# GPU 장치 명시적으로 사용
whisper audio.mp3 --model medium --device cuda

방법 2: whisper.cpp (Python 불필요)

whisper.cpp는 Whisper 추론 엔진의 C/C++ 재구현입니다. Python, CUDA 또는 PyTorch 없이 실행됩니다. Windows에서는 GGML 양자화 가중치를 사용합니다 — llama.cpp에서 사용하는 동일한 형식 — 그리고 OpenBLAS(CPU) 또는 DirectML(AMD/Intel/NVIDIA GPU CUDA 없음)을 통해 가속할 수 있습니다.

Python 패키지 대신 사용하는 이유는?

1초 미만에 시작합니다(PyTorch 초기화 없음)
동일한 모델에서 30~50% 적은 RAM을 사용합니다
단일 .exe로 제공됩니다 — 스크립트 또는 다른 앱에 번들하기 쉽습니다
거의 실시간 음성 인식을 위한 스트리밍 모드 사용 가능합니다

Windows 설치 단계

사전 빌드 Windows 바이너리는 GitHub의 whisper.cpp 릴리스 페이지에서 사용 가능합니다. whisper-bin-x64.zip을 다운로드하고 추출한 후 모델을 다운로드합니다:

# PowerShell 사용 — small GGML 모델 다운로드
Invoke-WebRequest -Uri "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.bin" -OutFile "models\ggml-small.bin"

음성 인식 실행:

.\main.exe -m models\ggml-small.bin -f audio.wav -otxt

참고: whisper.cpp은 WAV 입력 필요(16kHz, 모노, 16비트 PCM). 먼저 ffmpeg으로 변환합니다:

ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav

방법 3: Whisper 기반 GUI 앱

터미널을 전혀 원하지 않으면 Whisper를 클릭-음성-인식-음성-변환 경험을 위해 래핑하는 여러 오픈소스 GUI 앱이 Windows에 있습니다:

Whisper Desktop — whisper.cpp을 드래그 앤 드롭 인터페이스로 래핑하는 .NET 6 Windows 앱입니다. 모델 선택, 언어, 배치 처리를 지원합니다. Python 불필요; GitHub에서 설치 프로그램을 사용할 수 있습니다.

FasterWhisper 기반 UI — FasterWhisper은 CTranslate2를 사용하는 Python 재구현으로 CPU에서 원본보다 4배 빠르게 실행됩니다. 여러 커뮤니티 GUI 래퍼가 있습니다; GitHub에서 “faster-whisper GUI Windows”를 검색합니다. 이들은 배치 파일 음성 인식에 잘 작동합니다.

Subtitle Edit — Whisper 통합을 추가한 인기 있는 오픈소스 자막 편집기입니다. 수동으로 조정할 수 있는 SRT 출력을 원하는 비디오 자막 워크플로우에 좋습니다.

이 GUI 앱은 파일 기반 음성 인식을 잘 다룹니다. 그들이 채우지 않는 간격: 단축키를 사용한 실시간 라이브 음성 인식으로, 다음 섹션으로 이어집니다.

방법 4: VoxBooster (번들, Python 설정 불필요)

목표가 라이브 음성 인식이라면 — 말할 때 자막, 모든 앱에 받아쓰기, 통화 캡션 — 위의 파일 기반 방법은 적합하지 않습니다. 그들은 연속 마이크 스트림이 아닌 완성된 오디오 파일을 처리하도록 설계되었습니다.

VoxBooster은 Whisper 수준의 로컬 음성 인식을 앱에 직접 번들합니다. Python 환경 없음, 모델 다운로드 마법사 없음, ffmpeg 종속성 없음. VoxBooster을 한 번 설치하면 음성 인식 엔진이 음성 받아쓰기 사이드바 아래에서 준비됩니다.

원본 pip 설치 대비 실제 차이:

글로벌 단축키 — 모든 앱에서 Ctrl+Shift+D를 누르고 말합니다; 텍스트가 커서에 나타납니다
통합 노이즈 억제 — 마이크 입력을 음성 모델에 도달하기 전에 정리하여 노이즈가 많은 방에서 정확도를 의미 있게 향상시킵니다
터미널 없음 — 모델 선택 및 언어 설정은 GUI에 있습니다
음성 변성, 사운드보드, 음성 클론과 번들 — 이미 Discord 음성 변성 또는 OBS를 위해 VoxBooster을 사용 중이라면, 음성 받아쓰기 기능은 또 다른 탭입니다

음성 받아쓰기 워크플로우에 대해 더 자세히 알아보려면 Windows 음성 받아쓰기 가이드를 참조합니다.

방법 간 선택

	pip Whisper	whisper.cpp	GUI 앱	VoxBooster
Python 필요	예	아니오	때때로	아니오
GPU 필요	아니오(선택사항)	아니오(선택사항)	아니오(선택사항)	아니오(선택사항)
실시간 라이브	아니오	부분	아니오	예
글로벌 단축키	아니오	아니오	아니오	예
배치 파일 음성 인식	예	예	예	아니오
SRT/VTT 출력	예	예	예	아니오
설치 복잡도	중간	중간	낮음	낮음

비디오 자막을 위한 SRT/VTT 출력이 필요하거나 Python에서 배치 음성 인식을 스크립트하려면 pip whisper를 선택합니다. 더 낮은 메모리 오버헤드가 있는 휴대용 바이너리를 원하면 whisper.cpp를 선택합니다. 드래그 앤 드롭 파일 음성 인식을 원하면 GUI 앱을 선택합니다. Python 설치 없이 라이브 음성 받아쓰기를 원하면 VoxBooster를 선택합니다.

기본 CLI 사용 패턴

pip 패키지가 작동하면 이 패턴들이 실제 사용 케이스의 90%를 다룹니다.

회의 녹음을 SRT 자막으로 음성 인식

whisper meeting.mp4 --model medium --language en --output_format srt

Whisper은 비디오 파일을 직접 읽을 수 있습니다(내부적으로 ffmpeg을 호출합니다). 출력: 같은 폴더의 meeting.srt.

오디오 파일 폴더 음성 인식

for %f in (*.mp3) do whisper "%f" --model small --output_format txt

Command Prompt에서 실행합니다(PowerShell이 아님 — for 루프 구문이 다릅니다). 각 파일은 자신의 .txt 출력을 받습니다.

영어로 번역 강제

whisper french_audio.mp3 --model small --task translate

--task translate는 입력 언어와 상관없이 영어로 출력합니다. 다국어 인터뷰에 유용합니다.

출력 디렉토리 지정

whisper audio.mp3 --model small --output_dir C:\Transcripts

일반적인 오류 및 수정

No module named 'whisper' whisper을 현재 활성 중인 것과 다른 Python 환경에 설치했습니다. py -0을 실행하여 모든 Python 설치를 나열하고, 올바른 virtualenv를 활성화한 후 재설치합니다. 또한 가능: pip3으로 설치했지만 py로 실행 중입니다.

FileNotFoundError: [WinError 2] ffmpeg ffmpeg이 PATH에 없습니다. winget install Gyan.FFmpeg으로 설치하고, 터미널을 닫았다 다시 열고, ffmpeg -version으로 확인합니다.

CUDA out of memory GPU의 VRAM에 비해 너무 큰 모델을 실행 중입니다. 다음 크기로 내려가거나, --fp16 False를 추가하여 FP32를 강제합니다(더 많은 VRAM을 사용하지만 때로 특정 CUDA 빌드에서 할당 문제를 수정합니다). 또는 --device cpu로 CPU에서 실행합니다.

RuntimeError: Expected all tensors to be on the same device PyTorch CUDA 버전 불일치. 드라이버 버전에 맞는 올바른 CUDA 접미사로 PyTorch를 재설치합니다. nvidia-smi로 드라이버를 확인하고 pytorch.org/get-started/locally에서 교차 참조합니다.

출력이 깨지거나 잘못된 언어 Whisper는 오디오의 처음 30초에서 언어를 자동 감지합니다. 파일의 시작에 침묵이나 노이즈가 있으면 감지가 실패합니다. 수정: 명시적으로 --language en(또는 목표 언어)를 추가합니다.

GPU가 있어도 음성 인식이 느림 Whisper이 실제로 CUDA를 사용 중인지 확인합니다: 명령에 --device cuda를 추가합니다. 출력에서 FP16 is not supported on CPU; using FP32 instead를 보면 CUDA가 사용되지 않는 것입니다 — PyTorch 설치를 다시 확인합니다.

Whisper 대 다른 Windows 음성 인식 옵션

설정에 커밋하기 전에 비교 대상을 아는 것이 좋습니다:

Windows 기본 음성 인식 / 받아쓰기 (Win+H) — 빠르고 잘 통합되지만 악센트, 기술 어휘, 미국 영어 이외에서 정확도가 뒤처집니다. 기본 모드에서 부분 클라우드 종속. SRT 출력 없음.

Dragon NaturallySpeaking / Dragon Professional — 역사적으로 정확도 벤치마크, 음성 받아쓰기 워크플로우에 강함, 하지만 비쌉니다($300~$500), Windows 전용, 새로운 도메인에 어휘 추가가 느립니다. 로컬 처리, 장점입니다.

Otter.ai, Rev, Descript 음성 인식 — 클라우드 기반, 구독 가격, 진정으로 우수한 정확도, 하지만 오디오가 머신을 떠납니다. 비공개 회의, 법적 녹음, NDA 하에 있는 것에는 적합하지 않습니다.

Azure Cognitive Services / Google Speech-to-Text — 개발자 API, 클라우드 기반, 분당 지불. 정확하지만 코드와 인터넷 연결이 필요합니다. 로컬 whisper 설치 동등물이 아니며, whisper 음성 인식 정확도는 깨끗한 오디오에서 0의 지속적인 비용으로 경쟁력이 있습니다.

Whisper의 강점 대 모든 것: 무료, 완전히 로컬, 검증할 수 있는 오픈소스 가중치, 강한 다국어 지원, 깨끗한 오디오에서 유료 서비스와 경쟁력 있는 정확도. 약점: Python 패키지에서 기본 실시간 스트리밍 모드 없음, 설정에 약간의 CLI 편안함이 필요합니다.

개인정보: 음성 인식을 위해 로컬이 중요한 이유

Windows에서 Whisper를 로컬로 실행하면 오디오가 외부 서버에 접촉하지 않습니다. 이것은 대부분의 사람들이 깨닫는 것보다 더 중요합니다 — Whisper 음성 인식이 유료 클라우드 대체보다 Whisper 음성 인식을 선택하는 가장 큰 실제 주장 중 하나입니다:

회의 녹음에는 종종 기밀 비즈니스 정보가 포함됩니다
의료 및 법적 받아쓰기는 개인정보 보호 규정(HIPAA, GDPR 등)을 따릅니다
저널리스트 인터뷰 및 소스 대화는 절대 클라우드 API로 가면 안 됩니다
개인 음성 메모, 일기 항목, 치료 세션 필사본 — 다른 사람의 서버에 두고 싶지 않은 것

클라우드 음성 인식 서비스는 개인정보 보호 정책이 있지만, “우리는 데이터를 판매하지 않습니다”와 “우리는 모델을 개선하기 위해 익명화된 오디오를 사용할 수 있습니다”는 다른 진술입니다. Windows에서 로컬 whisper 설치를 사용하면 두 질문의 답변이 관련성이 없습니다 — 오디오가 디스크에 유지됩니다.

FAQ

OpenAI Whisper이 Windows에서 오프라인으로 작동합니까? 예. 모델 가중치를 다운로드한 후에는 Whisper이 100% 로컬에서 작동합니다 — 인터넷 연결이 필요하지 않습니다. 초기 다운로드 크기는 75MB(tiny)에서 3.09GB(large-v3)까지입니다. 그 이후 음성 인식은 전적으로 CPU 또는 GPU에서 작동하며 데이터가 머신을 벗어나지 않습니다.

Whisper 음성 인식을 위해 어떤 GPU가 필요합니까? GPU는 선택 사항이지만 성능을 크게 향상시킵니다. 작은 모델의 경우 2GB VRAM이면 충분합니다. 중간 크기는 5GB, large-v3는 10GB가 필요합니다. CPU만 사용하는 경우, 기본 모델은 현대적인 i5/Ryzen 5에서 대략 10~~15배 실시간으로 음성 인식합니다. 즉, 1분의 오디오는 약 4~~6초가 걸립니다.

Whisper 모델 크기 간의 차이점이 무엇입니까? Whisper은 5가지 크기로 제공됩니다 — tiny, base, small, medium, large (large-v2 및 large-v3 변형 포함). 더 큰 모델이 더 정확하지만 느리고 무겁습니다. 대부분의 Windows 사용자의 경우, small은 최고의 정확성과 속도 비율을 제공합니다: ~244MB, 우수한 다국어 정확도, 최신 하드웨어에서 대략 실시간으로 실행됩니다.

Windows에서 Whisper을 실시간 라이브 음성 인식에 사용할 수 있습니까? 원본 Python Whisper 패키지는 파일 기반이며 실시간을 위해 설계되지 않았습니다. whisper.cpp은 스트리밍 모드를 가지고 있지만 설정이 복잡합니다. 진정한 저지연 라이브 음성 인식 — 말할 때 자막, 받아쓰기, 통화 캡션 — 을 원한다면 VoxBooster와 같은 번들 앱이 더 쉽습니다: Whisper 수준의 정확도, Python 환경 불필요합니다.

OpenAI Whisper의 정확도는 Dragon NaturallySpeaking 또는 Windows 받아쓰기와 비교하면 어떻습니까? 깨끗한 오디오에서 Whisper large-v3는 대부분의 언어에서 5% 미만의 단어 오류율을 기록하며, Dragon Professional과 경쟁력이 있고 기술 어휘, 악센트 및 다국어 콘텐츠에서 Windows 기본 받아쓰기보다 낫습니다. 노이즈가 많은 환경에서는 정확도가 떨어지지만, Whisper과 노이즈 억제를 결합하면 대부분을 복원합니다.

whisper.cpp란 무엇이며 Python 패키지 대신 사용하는 이유는 무엇입니까? whisper.cpp는 Whisper 모델의 C/C++ 포트로, Python이나 CUDA 없이 실행됩니다. Windows에서는 GGML 양자화 가중치를 사용하며 가속을 위해 DirectML 또는 OpenBLAS를 활용할 수 있습니다. Python 패키지보다 더 빠르게 시작하고, RAM을 적게 사용하며, 다른 앱에 통합하기가 더 쉽습니다.

Windows에서 “모듈명 whisper를 찾을 수 없음” 오류를 어떻게 수정합니까? 이는 보통 pip 설치가 실행 중인 Python 환경과 다른 환경으로 진행되었다는 것을 의미합니다. ‘py -0’으로 설치된 Python을 나열하고, 올바른 virtualenv를 활성화한 후 재설치합니다: ‘pip install openai-whisper’. 또한 PATH에 ffmpeg이 있는지 확인합니다 — Whisper은 오디오 파일을 디코드하기 위해 필요합니다.

결론: 어떤 Whisper 음성 인식 설정이 귀하에게 적합합니까?

SRT/VTT 출력을 사용한 배치 파일 음성 인식이 필요하면 — 비디오 자막, 회의 녹음, 팟캐스트 쇼 노트 — pip 기반 openai whisper windows 설치는 가장 유연한 경로입니다. GPU에 대한 CUDA 지원을 추가하면 medium에서도 거의 실시간에 가까운 처리량을 얻습니다.

더 작은 풋프린트를 원하거나 whisper을 부프로세스로 호출하는 스크립트를 작성 중이라면, GGML 가중치가 있는 whisper.cpp는 Windows에서 더 깔끔한 로컬 설치 옵션입니다 — Python, CUDA, 바이너리와 모델 파일뿐인 것 없음.

터미널 작업 없이 로컬 음성-텍스트 Windows 통합을 원하면 — 특히 앱으로의 라이브 받아쓰기 — VoxBooster은 글로벌 단축키 및 통합 노이즈 억제와 함께 동일한 Whisper 수준 정확도를 번들합니다. Python 없음, 가상 환경 없음, ffmpeg 문제 해결 없음. 음성 변성 또는 사운드보드 작업을 위해 이미 앱을 사용 중이라면 특히 유용합니다; whisper 데스크톱 음성 인식 기능은 동일 인터페이스의 또 다른 탭입니다.

선택한 경로와 상관없이 small 모델로 시작합니다. large-v3 품질의 80% 정도에 도달하고 컴퓨트 비용의 일부입니다. 워크플로우가 실제로 필요한 정확도 수준을 알게 되면 나중에 항상 업그레이드할 수 있습니다.

가격 및 요금제 옵션은 voxbooster.com/#pricing을 참조합니다.