Transcribir audio con Whisper

Sat, 16 Mar 2024 16:00:00 +0200

Whisper es un modelo de reconocimiento de voz multilingüe de código abierto creado por OpenAI. Permite transcribir audio a texto con alta precisión sin depender de servicios en la nube.

Requisitos

Python 3.8 o superior.
Pip y virtualenv.
FFmpeg instalado en el sistema (necesario para convertir formatos de audio).
GPU opcional (CUDA) para acelerar inferencias con modelos grandes.

Instala FFmpeg en Linux con sudo apt install ffmpeg o usa los binarios oficiales en Windows/macOS.

IA on Ingenium MX

Transcribir audio con Whisper

Requisitos