No description

Find a file

Zenny 01d0452bbd feat: timestamp-basierte Fortschrittsanzeige für Transkription implementiert Ersetzt die einfache zeitbasierte -Fortschrittsschätzung durch eine präzisere Methode, die auf den Timestamps der verarbeiteten Audio-Segmente basiert. Der Fortschrittsbalken zeigt nun den tatsächlichen Transkriptionsfortschritt anhand der bereits verarbeiteten Zeitstempel an.		2025-09-10 10:06:29 +02:00
.gitignore	feat: timestamp-basierte Fortschrittsanzeige für Transkription implementiert	2025-09-10 10:06:29 +02:00
instruct.md	docs: restructure project as multi-tool audio processing suite	2025-09-09 13:40:49 +02:00
README.md	feat: add multiple output formats support and comprehensive type annotations	2025-09-10 08:52:29 +02:00
requirements.txt	feat: Fortschrittsbalken für Transkription, Dateispeicherung und Batch-Verarbeitung hinzugefügt	2025-09-10 09:21:33 +02:00
whisper_transcriber.py	feat: timestamp-basierte Fortschrittsanzeige für Transkription implementiert	2025-09-10 10:06:29 +02:00

README.md

Audio Processing Tools

Eine umfassende Sammlung von Python-Tools für Audio-Verarbeitung mit OpenAI's Whisper AI und erweiterten Funktionen.

Installation

Abhängigkeiten installieren:

python -m venv .venv
source ./venv/bin/activate
pip install -r requirements.txt

Whisper Transcriber

Erweiterte Audio-Transkription mit Unterstützung für einzelne Dateien und ganze Verzeichnisse.

Grundlegende Verwendung

# Einzelne Datei
python whisper_transcriber.py audio.mp3

# Ganzen Ordner verarbeiten
python whisper_transcriber.py /pfad/zum/ordner

# Rekursiv alle Unterordner
python whisper_transcriber.py /pfad/zum/ordner --recursive

Erweiterte Optionen

# Spezifisches Modell und GPU verwenden
python whisper_transcriber.py ordner/ --recursive --model medium --device cuda

# Deutsche Audiodateien mit SRT-Untertiteln
python whisper_transcriber.py audio/ -r --language de --format srt

# Mehrere Output-Formate gleichzeitig
python whisper_transcriber.py audio/ -r --format txt srt csv

# Alle Audioformate in Ordner verarbeiten
python whisper_transcriber.py /multimedia/ordner --recursive --format json

# CPU forcieren für niedrige GPU-Speicher
python whisper_transcriber.py audio.wav --device cpu --model large

Features

Batch-Verarbeitung: Verarbeitet ganze Ordner mit allen Unterordnern
Mehrere Output-Formate: Erstellt gleichzeitig mehrere Dateiformate (txt, srt, vtt, json, csv)
Smart Skip: Überspringt bereits vorhandene Output-Dateien
Lokaler Output: Speichert Ergebnisse neben den Original-Dateien
Fortschritts-Tracking: Detaillierte Fortschrittsanzeige und Statistiken
Fehler-Handling: Robuste Fehlerbehandlung mit detaillierten Berichten
Type Annotations: Vollständig typisierter Python-Code für bessere IDE-Unterstützung

Verfügbare Modelle

tiny: Schnellstes, aber ungenauestes Modell (~39 MB)
base: Gute Balance zwischen Geschwindigkeit und Genauigkeit (~74 MB)
small: Bessere Genauigkeit (~244 MB)
medium: Hohe Genauigkeit (~769 MB)
large: Höchste Genauigkeit (~1550 MB)
large-v2: Verbesserte Version des large Modells
large-v3: Neueste Version mit bester Genauigkeit

Unterstützte Audioformate

Das Tool unterstützt alle gängigen Audioformate:

MP3, WAV, MP4, M4A, FLAC, OGG, WMA, AAC, etc.

Output-Formate

txt: Einfacher Text mit Zeitstempel-Format [MM:SS - MM:SS] Text
srt: SubRip Untertitel für Videos
vtt: WebVTT Untertitel für Web-Player
json: Vollständige Whisper-Ausgabe mit allen Metadaten
csv: CSV-Format mit starttime;endtime;text (Semikolon-getrennt)

Mehrere Formate gleichzeitig

Das Tool unterstützt die gleichzeitige Erstellung mehrerer Output-Formate:

# Erstellt .txt, .srt und .csv Dateien
python whisper_transcriber.py audio.mp3 --format txt srt csv

# Alle verfügbaren Formate
python whisper_transcriber.py audio.mp3 -f txt srt vtt json csv

Beispiele

# Deutsche Audiodateien in Ordner transkribieren
python whisper_transcriber.py audio_ordner/ --recursive --language de --model medium

# Untertitel für alle Videos in Ordner erstellen
python whisper_transcriber.py videos/ --recursive --format srt --device cuda

# Höchste Qualität für wichtige Aufnahmen mit mehreren Formaten
python whisper_transcriber.py interviews/ -r --model large-v3 --device cuda --format txt srt csv

# CSV-Export für Datenanalyse
python whisper_transcriber.py meeting.mp4 --format csv --language de

GPU-Unterstützung (CUDA)

Alle Tools unterstützen NVIDIA GPU-Beschleunigung über CUDA:

--device auto: Automatische Erkennung (Standard)
--device cuda: GPU verwenden (falls verfügbar)
--device cpu: CPU verwenden

Die GPU-Beschleunigung kann die Verarbeitungszeit erheblich verkürzen, besonders bei größeren Modellen und vielen Dateien.

Unterstützte Audioformate

Alle Tools arbeiten mit den gängigsten Audioformaten:

Audio: MP3, WAV, FLAC, OGG, WMA, AAC, M4A