No description
Ersetzt die einfache zeitbasierte -Fortschrittsschätzung durch eine präzisere Methode, die auf den Timestamps der verarbeiteten Audio-Segmente basiert. Der Fortschrittsbalken zeigt nun den tatsächlichen Transkriptionsfortschritt anhand der bereits verarbeiteten Zeitstempel an. |
||
---|---|---|
.gitignore | ||
instruct.md | ||
README.md | ||
requirements.txt | ||
whisper_transcriber.py |
Audio Processing Tools
Eine umfassende Sammlung von Python-Tools für Audio-Verarbeitung mit OpenAI's Whisper AI und erweiterten Funktionen.
Installation
- Abhängigkeiten installieren:
python -m venv .venv
source ./venv/bin/activate
pip install -r requirements.txt
Whisper Transcriber
Erweiterte Audio-Transkription mit Unterstützung für einzelne Dateien und ganze Verzeichnisse.
Grundlegende Verwendung
# Einzelne Datei
python whisper_transcriber.py audio.mp3
# Ganzen Ordner verarbeiten
python whisper_transcriber.py /pfad/zum/ordner
# Rekursiv alle Unterordner
python whisper_transcriber.py /pfad/zum/ordner --recursive
Erweiterte Optionen
# Spezifisches Modell und GPU verwenden
python whisper_transcriber.py ordner/ --recursive --model medium --device cuda
# Deutsche Audiodateien mit SRT-Untertiteln
python whisper_transcriber.py audio/ -r --language de --format srt
# Mehrere Output-Formate gleichzeitig
python whisper_transcriber.py audio/ -r --format txt srt csv
# Alle Audioformate in Ordner verarbeiten
python whisper_transcriber.py /multimedia/ordner --recursive --format json
# CPU forcieren für niedrige GPU-Speicher
python whisper_transcriber.py audio.wav --device cpu --model large
Features
- Batch-Verarbeitung: Verarbeitet ganze Ordner mit allen Unterordnern
- Mehrere Output-Formate: Erstellt gleichzeitig mehrere Dateiformate (txt, srt, vtt, json, csv)
- Smart Skip: Überspringt bereits vorhandene Output-Dateien
- Lokaler Output: Speichert Ergebnisse neben den Original-Dateien
- Fortschritts-Tracking: Detaillierte Fortschrittsanzeige und Statistiken
- Fehler-Handling: Robuste Fehlerbehandlung mit detaillierten Berichten
- Type Annotations: Vollständig typisierter Python-Code für bessere IDE-Unterstützung
Verfügbare Modelle
tiny
: Schnellstes, aber ungenauestes Modell (~39 MB)base
: Gute Balance zwischen Geschwindigkeit und Genauigkeit (~74 MB)small
: Bessere Genauigkeit (~244 MB)medium
: Hohe Genauigkeit (~769 MB)large
: Höchste Genauigkeit (~1550 MB)large-v2
: Verbesserte Version des large Modellslarge-v3
: Neueste Version mit bester Genauigkeit
Unterstützte Audioformate
Das Tool unterstützt alle gängigen Audioformate:
- MP3, WAV, MP4, M4A, FLAC, OGG, WMA, AAC, etc.
Output-Formate
txt
: Einfacher Text mit Zeitstempel-Format [MM:SS - MM:SS] Textsrt
: SubRip Untertitel für Videosvtt
: WebVTT Untertitel für Web-Playerjson
: Vollständige Whisper-Ausgabe mit allen Metadatencsv
: CSV-Format mit starttime;endtime;text (Semikolon-getrennt)
Mehrere Formate gleichzeitig
Das Tool unterstützt die gleichzeitige Erstellung mehrerer Output-Formate:
# Erstellt .txt, .srt und .csv Dateien
python whisper_transcriber.py audio.mp3 --format txt srt csv
# Alle verfügbaren Formate
python whisper_transcriber.py audio.mp3 -f txt srt vtt json csv
Beispiele
# Deutsche Audiodateien in Ordner transkribieren
python whisper_transcriber.py audio_ordner/ --recursive --language de --model medium
# Untertitel für alle Videos in Ordner erstellen
python whisper_transcriber.py videos/ --recursive --format srt --device cuda
# Höchste Qualität für wichtige Aufnahmen mit mehreren Formaten
python whisper_transcriber.py interviews/ -r --model large-v3 --device cuda --format txt srt csv
# CSV-Export für Datenanalyse
python whisper_transcriber.py meeting.mp4 --format csv --language de
GPU-Unterstützung (CUDA)
Alle Tools unterstützen NVIDIA GPU-Beschleunigung über CUDA:
--device auto
: Automatische Erkennung (Standard)--device cuda
: GPU verwenden (falls verfügbar)--device cpu
: CPU verwenden
Die GPU-Beschleunigung kann die Verarbeitungszeit erheblich verkürzen, besonders bei größeren Modellen und vielen Dateien.
Unterstützte Audioformate
Alle Tools arbeiten mit den gängigsten Audioformaten:
- Audio: MP3, WAV, FLAC, OGG, WMA, AAC, M4A