No description
Find a file
Zenny 01d0452bbd feat: timestamp-basierte Fortschrittsanzeige für Transkription implementiert
Ersetzt die einfache zeitbasierte -Fortschrittsschätzung durch eine präzisere Methode, die auf den Timestamps der verarbeiteten Audio-Segmente basiert.
Der Fortschrittsbalken zeigt nun den tatsächlichen Transkriptionsfortschritt   anhand der bereits verarbeiteten Zeitstempel an.
2025-09-10 10:06:29 +02:00
.gitignore feat: timestamp-basierte Fortschrittsanzeige für Transkription implementiert 2025-09-10 10:06:29 +02:00
instruct.md docs: restructure project as multi-tool audio processing suite 2025-09-09 13:40:49 +02:00
README.md feat: add multiple output formats support and comprehensive type annotations 2025-09-10 08:52:29 +02:00
requirements.txt feat: Fortschrittsbalken für Transkription, Dateispeicherung und Batch-Verarbeitung hinzugefügt 2025-09-10 09:21:33 +02:00
whisper_transcriber.py feat: timestamp-basierte Fortschrittsanzeige für Transkription implementiert 2025-09-10 10:06:29 +02:00

Audio Processing Tools

Eine umfassende Sammlung von Python-Tools für Audio-Verarbeitung mit OpenAI's Whisper AI und erweiterten Funktionen.

Installation

  1. Abhängigkeiten installieren:
python -m venv .venv
source ./venv/bin/activate
pip install -r requirements.txt

Whisper Transcriber

Erweiterte Audio-Transkription mit Unterstützung für einzelne Dateien und ganze Verzeichnisse.

Grundlegende Verwendung

# Einzelne Datei
python whisper_transcriber.py audio.mp3

# Ganzen Ordner verarbeiten
python whisper_transcriber.py /pfad/zum/ordner

# Rekursiv alle Unterordner
python whisper_transcriber.py /pfad/zum/ordner --recursive

Erweiterte Optionen

# Spezifisches Modell und GPU verwenden
python whisper_transcriber.py ordner/ --recursive --model medium --device cuda

# Deutsche Audiodateien mit SRT-Untertiteln
python whisper_transcriber.py audio/ -r --language de --format srt

# Mehrere Output-Formate gleichzeitig
python whisper_transcriber.py audio/ -r --format txt srt csv

# Alle Audioformate in Ordner verarbeiten
python whisper_transcriber.py /multimedia/ordner --recursive --format json

# CPU forcieren für niedrige GPU-Speicher
python whisper_transcriber.py audio.wav --device cpu --model large

Features

  • Batch-Verarbeitung: Verarbeitet ganze Ordner mit allen Unterordnern
  • Mehrere Output-Formate: Erstellt gleichzeitig mehrere Dateiformate (txt, srt, vtt, json, csv)
  • Smart Skip: Überspringt bereits vorhandene Output-Dateien
  • Lokaler Output: Speichert Ergebnisse neben den Original-Dateien
  • Fortschritts-Tracking: Detaillierte Fortschrittsanzeige und Statistiken
  • Fehler-Handling: Robuste Fehlerbehandlung mit detaillierten Berichten
  • Type Annotations: Vollständig typisierter Python-Code für bessere IDE-Unterstützung

Verfügbare Modelle

  • tiny: Schnellstes, aber ungenauestes Modell (~39 MB)
  • base: Gute Balance zwischen Geschwindigkeit und Genauigkeit (~74 MB)
  • small: Bessere Genauigkeit (~244 MB)
  • medium: Hohe Genauigkeit (~769 MB)
  • large: Höchste Genauigkeit (~1550 MB)
  • large-v2: Verbesserte Version des large Modells
  • large-v3: Neueste Version mit bester Genauigkeit

Unterstützte Audioformate

Das Tool unterstützt alle gängigen Audioformate:

  • MP3, WAV, MP4, M4A, FLAC, OGG, WMA, AAC, etc.

Output-Formate

  • txt: Einfacher Text mit Zeitstempel-Format [MM:SS - MM:SS] Text
  • srt: SubRip Untertitel für Videos
  • vtt: WebVTT Untertitel für Web-Player
  • json: Vollständige Whisper-Ausgabe mit allen Metadaten
  • csv: CSV-Format mit starttime;endtime;text (Semikolon-getrennt)

Mehrere Formate gleichzeitig

Das Tool unterstützt die gleichzeitige Erstellung mehrerer Output-Formate:

# Erstellt .txt, .srt und .csv Dateien
python whisper_transcriber.py audio.mp3 --format txt srt csv

# Alle verfügbaren Formate
python whisper_transcriber.py audio.mp3 -f txt srt vtt json csv

Beispiele

# Deutsche Audiodateien in Ordner transkribieren
python whisper_transcriber.py audio_ordner/ --recursive --language de --model medium

# Untertitel für alle Videos in Ordner erstellen
python whisper_transcriber.py videos/ --recursive --format srt --device cuda

# Höchste Qualität für wichtige Aufnahmen mit mehreren Formaten
python whisper_transcriber.py interviews/ -r --model large-v3 --device cuda --format txt srt csv

# CSV-Export für Datenanalyse
python whisper_transcriber.py meeting.mp4 --format csv --language de

GPU-Unterstützung (CUDA)

Alle Tools unterstützen NVIDIA GPU-Beschleunigung über CUDA:

  • --device auto: Automatische Erkennung (Standard)
  • --device cuda: GPU verwenden (falls verfügbar)
  • --device cpu: CPU verwenden

Die GPU-Beschleunigung kann die Verarbeitungszeit erheblich verkürzen, besonders bei größeren Modellen und vielen Dateien.

Unterstützte Audioformate

Alle Tools arbeiten mit den gängigsten Audioformaten:

  • Audio: MP3, WAV, FLAC, OGG, WMA, AAC, M4A