Lokale Spracheingabe für Windows – powered by faster-whisper (OpenAI Whisper) mit GPU-Beschleunigung.
Gesprochener Text wird transkribiert und per Zwischenablage in das aktive Fenster eingefügt – komplett offline, kostenlos und ohne Cloud.
- Lokale Transkription via Whisper (kein Internet nötig)
- GPU-Beschleunigung (NVIDIA CUDA)
- Gute Erkennung für Deutsch und andere Sprachen
- Einfacher Hotkey:
Strg + Alt + Leertastehalten → sprechen → loslassen - Text wird direkt ins aktive Fenster eingefügt
- System-Tray-Symbol zeigt Status (grau = bereit, rot = Aufnahme, blau = Transkription)
- Kein Admin-Modus nötig
- Windows 10/11
- Python 3.10+
- NVIDIA GPU mit CUDA (empfohlen) – funktioniert auch auf CPU, aber langsamer
pip install faster-whisper sounddevice numpy pynput pystray Pillow pywin32Doppelklick auf VoiceInput starten.bat
Oder direkt:
python voice_input.pyBeim ersten Start wird das Whisper-Modell automatisch heruntergeladen (~1,5 GB für medium, ~3 GB für large-v3).
| Aktion | Hotkey |
|---|---|
| Aufnahme starten/stoppen | Strg + Alt + Leertaste (halten) |
| Programm beenden | Strg + Alt + Q oder Rechtsklick aufs Tray-Symbol |
Beim Start erscheint ein Dialog zur Auswahl von Modell und Sprache:
| Modell | Größe | Qualität | Geschwindigkeit |
|---|---|---|---|
tiny |
~75 MB | ausreichend | extrem schnell |
base |
~145 MB | gut | sehr schnell |
small |
~500 MB | gut | sehr schnell |
medium |
~1,5 GB | sehr gut | schnell |
large-v2 |
~3 GB | sehr gut | langsamer |
large-v3 |
~3 GB | beste | langsamer |
Deutsch, Englisch, Französisch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Polnisch, Russisch, Japanisch, Chinesisch, Arabisch, Türkisch, Koreanisch – und viele mehr.
MIT License – siehe LICENSE