No description
				
			
		
				Block für Dateiformat-Erstellung korrekt eingerückt, sodass alle Formate wie vorgesehen gespeichert werden feat: timestamp-basierte Fortschrittsanzeige für Transkription implementiert Ersetzt die einfache zeitbasierte -Fortschrittsschätzung durch eine präzisere Methode, die auf den Timestamps der verarbeiteten Audio-Segmente basiert. Der Fortschrittsbalken zeigt nun den tatsächlichen Transkriptionsfortschritt anhand der bereits verarbeiteten Zeitstempel an. striped out useless progressbar  | 
			||
|---|---|---|
| .gitignore | ||
| instruct.md | ||
| README.md | ||
| requirements.txt | ||
| whisper_transcriber.py | ||
Audio Processing Tools
Eine umfassende Sammlung von Python-Tools für Audio-Verarbeitung mit OpenAI's Whisper AI und erweiterten Funktionen.
Installation
- Abhängigkeiten installieren:
 
python -m venv .venv
source ./venv/bin/activate
pip install -r requirements.txt
Whisper Transcriber
Erweiterte Audio-Transkription mit Unterstützung für einzelne Dateien und ganze Verzeichnisse.
Grundlegende Verwendung
# Einzelne Datei
python whisper_transcriber.py audio.mp3
# Ganzen Ordner verarbeiten
python whisper_transcriber.py /pfad/zum/ordner
# Rekursiv alle Unterordner
python whisper_transcriber.py /pfad/zum/ordner --recursive
Erweiterte Optionen
# Spezifisches Modell und GPU verwenden
python whisper_transcriber.py ordner/ --recursive --model medium --device cuda
# Deutsche Audiodateien mit SRT-Untertiteln
python whisper_transcriber.py audio/ -r --language de --format srt
# Mehrere Output-Formate gleichzeitig
python whisper_transcriber.py audio/ -r --format txt srt csv
# Alle Audioformate in Ordner verarbeiten
python whisper_transcriber.py /multimedia/ordner --recursive --format json
# CPU forcieren für niedrige GPU-Speicher
python whisper_transcriber.py audio.wav --device cpu --model large
Features
- Batch-Verarbeitung: Verarbeitet ganze Ordner mit allen Unterordnern
 - Mehrere Output-Formate: Erstellt gleichzeitig mehrere Dateiformate (txt, srt, vtt, json, csv)
 - Smart Skip: Überspringt bereits vorhandene Output-Dateien
 - Lokaler Output: Speichert Ergebnisse neben den Original-Dateien
 - Fortschritts-Tracking: Detaillierte Fortschrittsanzeige und Statistiken
 - Fehler-Handling: Robuste Fehlerbehandlung mit detaillierten Berichten
 - Type Annotations: Vollständig typisierter Python-Code für bessere IDE-Unterstützung
 
Verfügbare Modelle
tiny: Schnellstes, aber ungenauestes Modell (~39 MB)base: Gute Balance zwischen Geschwindigkeit und Genauigkeit (~74 MB)small: Bessere Genauigkeit (~244 MB)medium: Hohe Genauigkeit (~769 MB)large: Höchste Genauigkeit (~1550 MB)large-v2: Verbesserte Version des large Modellslarge-v3: Neueste Version mit bester Genauigkeit
Unterstützte Audioformate
Das Tool unterstützt alle gängigen Audioformate:
- MP3, WAV, MP4, M4A, FLAC, OGG, WMA, AAC, etc.
 
Output-Formate
txt: Einfacher Text mit Zeitstempel-Format [MM:SS - MM:SS] Textsrt: SubRip Untertitel für Videosvtt: WebVTT Untertitel für Web-Playerjson: Vollständige Whisper-Ausgabe mit allen Metadatencsv: CSV-Format mit starttime;endtime;text (Semikolon-getrennt)
Mehrere Formate gleichzeitig
Das Tool unterstützt die gleichzeitige Erstellung mehrerer Output-Formate:
# Erstellt .txt, .srt und .csv Dateien
python whisper_transcriber.py audio.mp3 --format txt srt csv
# Alle verfügbaren Formate
python whisper_transcriber.py audio.mp3 -f txt srt vtt json csv
Beispiele
# Deutsche Audiodateien in Ordner transkribieren
python whisper_transcriber.py audio_ordner/ --recursive --language de --model medium
# Untertitel für alle Videos in Ordner erstellen
python whisper_transcriber.py videos/ --recursive --format srt --device cuda
# Höchste Qualität für wichtige Aufnahmen mit mehreren Formaten
python whisper_transcriber.py interviews/ -r --model large-v3 --device cuda --format txt srt csv
# CSV-Export für Datenanalyse
python whisper_transcriber.py meeting.mp4 --format csv --language de
GPU-Unterstützung (CUDA)
Alle Tools unterstützen NVIDIA GPU-Beschleunigung über CUDA:
--device auto: Automatische Erkennung (Standard)--device cuda: GPU verwenden (falls verfügbar)--device cpu: CPU verwenden
Die GPU-Beschleunigung kann die Verarbeitungszeit erheblich verkürzen, besonders bei größeren Modellen und vielen Dateien.
Unterstützte Audioformate
Alle Tools arbeiten mit den gängigsten Audioformaten:
- Audio: MP3, WAV, FLAC, OGG, WMA, AAC, M4A