Home Ciencia y Tecnología ¿Convertir algún libro a un audiolibro de bricolaje?

¿Convertir algún libro a un audiolibro de bricolaje?

42
0

Si la thought de leer un libro físico suena como un trabajo duro, [Nick Bild’s] último proyecto, el PageProtpodría ser para ti. Si bien la IA obtiene muchas críticas en estos días, una cosa que hacen los modelos multimodales modernos excepcionalmente bien es la interpretación de imágenes, y PageProt demuestra cuán accesible se ha vuelto.

[Nick] Demuestra bastante claramente cuán poco código se necesita para obtener de esos crípticos glifos en blanco y negro a los sonidos que el humano promedio puede entender, específicamente una insignia de 80 líneas de Python. Es cierto que muchas de esas líneas están atrayendo bibliotecas, y algunas están en blanco, tan funcionalmente hablando, es aún más corto que eso. Por supuesto, toda la aplicación es principalmente código de pegamento, uniendo el trabajo duro de otras personas, pero todavía es instructivo y divertido de tocar.

El {hardware} requerido es una Raspberry Pi Zero 2 W, una cámara (en este caso, una cámara net USB) y algo para mantenerlo por encima del libro. Sin embargo, cualquier PI con la capacidad de conectarse a una cámara también debería funcionar, con solo una pequeña configuración.

En el lado del software program, [Nick] tira en el Biblioteca CV2 (¿Cuál es la interfaz a OpenCV) para manejar la interfaz de la cámara, programándola a la resolución Full HD? Genai de Google se usa para interactuar el Gemini 2.5 Flash LLM a través de un punto closing API. Esto toma una imagen capturada y un aviso trivial, y devuelve toda la página de texto, rápidamente como un flash.

Finalmente, el script entrega ese texto a Flautistaque convierte eso en un archivo de habla en formato WAV. Esto se puede reproducir en un dispositivo de audio con una llamada a la herramienta de aplay de consola. Todo es muy easy en este nivel de abstracción.

Sí, sabemos que esencialmente está haciendo lo mismo que OCR Software program ha estado haciendo durante décadas. Aún así, la versión de IA es notablemente de bajo esfuerzo y sorprendentemente precisa, especialmente cuando se maneja diseños inusuales que confunden los algoritmos OCR tradicionales. Las extensiones a esta herramienta serían triviales; Por ejemplo, ajustar el aviso para pedirle que traduzca el texto a un idioma diferente podría abrir un mundo completamente nuevo a algunas personas.

Si quieres jugar en casa, entonces dirígete al Pageprot Github Página y descargar el script.

Si esta configuración se siente acquainted, sería bastante correcto. Cubrimos algo comparable hace un par de años, que usó Tesseract OCR, alimentando texto a la herramienta CMU Flite de Festvox. Mientras estamos hablando de texto a voz, aquí hay un divertido fonema de software program basado en ESP32 sintetizador a Recree esa distintiva década de 1980 Converse & Spell Voice.

https://www.youtube.com/watch?v=w-vdooevl00

fuente