Cómo extraer texto de un audio (Audacity con IA)

Extraer texto de un audio ayuda a documentar y organizar de manera eficiente conferencias, entrevistas, clases, reuniones y cualquier otro contenido verbal. Te mostraré cómo usar un plug-in gratuito de Audacity que te permite transcribir el texto a partir del audio con ayuda de inteligencia artificial.

Te explico en esta publicación cómo obtener texto a partir de una grabación de audio para obtener la transcripción detallada instantáneamente. ¡Descubre cómo la inteligencia artificial puede extraer el texto directamente de tus grabaciones de audio, abriendo nuevas puertas para la transcripción rápida y precisa.

¿Te imaginas tener el poder de dialogar ante tu micrófono y luego obtener rápidamente el texto en tu idioma o incluso traducirlo incluyendo signos de puntuación? Te da más posibilidades al momento de elaborar un nuevo contenido educativo, un nuevo tema musical, elaborar una nueva clase de música, aprovechar para hacer memorias sobre tu aprendizaje del día, y muchas cosas más. ¡Esto te lo voy a enseñar usando la versión más reciente de Audacity en dispositivos Windows para que descubras ya cómo la inteligencia artificial puede convertir tus audios a texto y así potenciar tu actividad musical como nunca antes!"

Cómo extraer texto de un audio (Audacity con IA)

Ventajas de extraer texto a partir de un audio

  1. Ahorro de tiempo: La IA te permite transcribir el audio con una velocidad y precisión sorprendentes, lo que ahorra tiempo y esfuerzo en comparación con la transcripción manual.
  2. Acceso a contenido auditivo: Convertir el audio en texto le facilita el acceso al contenido auditivo para personas con discapacidad auditiva o para personas que prefieren leer en lugar de escuchar.
  3. Documentar y organizar: Extraer texto de un audio te ayuda a documentar y organizar de manera eficiente conferencias, entrevistas, clases, reuniones y cualquier otro contenido verbal.
  4. Búsqueda y referencia rápida: La transcripción del audio te permite realizar búsquedas rápidas de contenido específico dentro del texto, lo que facilita la referencia y la recuperación de información importante dentro de tu disco duro o en el drive donde guardas la información.
  5. Traducción automática: Puedes obtener directamente la traducción al idioma seleccionado. O una vez que el texto se ha extraído, es más fácil y rápido traducirlo a diferentes idiomas utilizando herramientas de traducción automática.
  6. Generación de subtítulos automáticos: La transcripción de audio facilita la creación de subtítulos para videos y contenido multimedia, lo que mejora la accesibilidad y la comprensión del material para personas sordas o con dificultades de audición.
  7. Creación de contenido escrito: El texto extraído del audio puede servir como base para la creación de contenido escrito, como artículos, publicaciones en redes sociales, libros electrónicos, entre otros.

Ya que hemos visto todas las posibilidades sobre la transcripción automática de audio a texto, empecemos a ver cuál es ese plug-in que lo hace posible en Audacity.

OpenVINO™
Es un conjunto de efectos, generadores y analizadores habilitados con inteligencia artificial para Audacity®. Descargas el paquete de OpenVINO™ y con esta tecnología, tienes todo el poder de la inteligencia artificial disponible justo en tu propio sistema. Al final de esta publicación te dejo el enlace al video donde te explico cómo descargarlo e instalarlo en Audacity. Pero primero veamos cómo funciona esta herramienta para extraer texto de un audio.

Audacity
Audacity es un software de edición de audio gratuito y de código abierto disponible para Windows, Mac y Linux. Audacity incluye una serie de funciones para la edición de audio, incluida la capacidad de extraer texto de un audio.

Aclaro que el funcionamiento de la separación de voces con el plugin OpenVINO™ a la fecha de esta publicación, solo está disponible en Windows y con Audacity actualizado a partir de la versión 3.4.2 de 64-bit.

Cómo extraer texto de un audio con Audacity

Esta función realiza la transcripción o traducción de voz para una pista mono o estéreo, produciendo una nueva pista de etiqueta. Veamos cómo funciona.

  1. primero seleccionas el track o el fragmento al que le vas a aplicar la transcripción.
  2. Vas al menú Analizar: OpenVINO Whisper Transcription.

Sígueme cuidadosamente en estas instrucciones porque luego de mostrarte todo lo que hace este plugin también te mostraré el enlace al video con instrucciones para descargarlo e instalarlo.

Se abre una ventana que contiene la siguiente información

1. Dispositivo de inferencia OpenVINO: El dispositivo OpenVINO™ que se utilizará para ejecutar el modelo de codificación de Whisper . En este caso usa en primer lugr la opción que te muestra la ventana por defecto. En mi caso aparece GPU con la cual funcionó perfectamente. Lo cambié a CPU y no me funcionó, pero experimenta en tu caso y sabrás cuál te funciona y cuál te da más calidad o más velocidad.
2. Modelo Whisper: El modelo de Whisper a utilizar. En este momento, solo soporta el modelo base, pero quizás haya soporte para otros que puedan venir en el futuro.

  1. Idioma de origen: Permite establecer explícitamente el idioma de origen. El valor predeterminado es auto, que realizará la detección automática.

4. Modo: Seleccionas entre transcribir y traducir. Traducir si deses que la salida sea en inglés, independientemente del idioma de origen. Estableces transcribir si quieres que la salida sea en el mismo idioma que el audio de origen.

Das clic en Aplicar.

Esto suele tardar entre unos 10 y 30 segundos si es la primera vez que se ejecuta en tu equipo, ya que se necesita compilar el modelo específicamente para el dispositivo que has elegido. Sin embargo, este modelo compilado se almacenará en caché en el disco, por lo que debería ejecutarse mucho más rápido la próxima vez que se cargue.

Observemos que el resultado es un nuevo track con etiquetas que separan por frases el texto a lo largo del audio

  1. Voy a reproducirlo para que sigas el resultado de audio con el texto extraído.
  2. Seleccionamos el canal de las etiquetas, dando clic en el extremo izquierdo del canal.
  3. vamos al menú Archivo > Exportar otro > Exportar etiqueta. le asignas un nombre y lo guardas en el lugar deseado.
  4. Cuando lo abres ves un archivo que incluye las marcas de tiempo. Si no las necesitas para subtítulos entonces las puedes eliminar fácilmente a través de copiar / pegar en ChatGPT, Gemini, Copilot solicitando en el prompt tu deseo de que se retiren las marcas de tiempo del siguiente texto y fácilmente obtienes esto.
  5. Pero si el texto es muy largo debemos tener en cuenta que los modelos de inteligencia artificail tienen un límite en la longitud de la respuesta entonces te muestro otra solución con Excel. Seleccionas todo el contenido del Bloc de notas, copias todo el contenido. Abres Excel y lo pegas. Excel automaticamente identificará las marcas de tempo de inicio y fin en las dos primeras columnas que podrás omitir, tanto la columna A como la columna B. Ahora entonces puedes seleccionar el texto restante de la columna C y podrás llevarlo nuevamente con copiar pegar a un documento de texto.

Te dejo el enlace al video donde te explico cómo descargar el paquete de plugins OpenVINO para que veas cómo instalarlo y activarlo en Audacity. Pero además verás también mis videos donde te explico cómo

Edita audio GRATIS con Inteligencia Artificial en Audacity
En este video te enseñaré a instalar un paquete de plug-ins llamado OpenVINO para Audacity para que le des la bienvenida a la Inteligencia artificial
En la siguiente publicación vas a aprender cómo eliminar el ruido de fondo de una grabación de audio con ayuda de la inteligencia artificial. Lo aplicarás a archivos de audio que contengan voz hablada con ayuda del Plug-in OpenVINO de inteligencia artificial que puedes obtener completamente gratis. Para que sepas el tipo de resultado te cuento que este audio fue procesado con eliminación de ruido de fondo con ayuda de este procedimiento.
Audacity: Eliminar RUIDO de audio con Inteligencia artificial
Elimina el ruido de fondo de una grabación de audio con la inteligencia artificial en Audacity y el Plug-in OpenVINO, completamente gratis.