Buscar
Social
Ofertas laborales ES
« Liberada la versión 1.5.5 de Marvin Framework | Main | Torneo de desarrollo seguro de software de CyberCamp 2016 – Últimas plazas disponibles »
martes
nov292016

TextDalek edición de texto y conversión a voz.

TextDalek es un editor de texto al estilo de WordPad o de gedit. Posee la mayoría de los rasgos comunes (y los atajos de teclado) de este tipo de editores. Además de algunas características propias.

Conversión a voz.
Este rasgo se basa en The Festival Speech Synthesis System por lo que debéis instalar este framework por separado.



En entorno Windows podéis ver este enlace del Junichi Yamagishi - The Centre for Speech Technology Research. O buscar e instalar el paquete FreeVoices-WindowsBinary.zip Importante el mismo debe instalarse en la carpeta “C:\festival”. Dado que no reconoce la configuración/setup establecida desde otra carpeta. Este defecto es de la versión de festival para Windows no del editor.

Para sistemas basados en Debian, solo basta con bajarlo del repositorio y configurar las voces en español, tal cómo se muestra en el siguiente enlace.
http://hojsoftware.blogspot.com.ar/2009/11/instalar-festival-en-espanol-en-ubuntu.html

Para Raspbian, existe este otro
https://www.raspberrypi.org/forums/viewtopic.php?f=76&t=123283

¿Para los Mac OSX?
No tengo ni idea :o(. Teóricamente es posible pero no está probado.

Una vez instalado Festival, basta con abrir el editor, posicionar el cursor al inicio del testo y darle al botón de play o a las teclas (Alt+P).

El editor primero marcará el párrafo a leer y por segundo evento (vuelva a darle al play) lo leerá y preseleccionara el párrafo siguiente.

Si no deseáis estar presionando el botón play o las teclas (Alt+P) párrafo a párrafo, deberéis seleccionar el texto a leer y presionar una sola vez.

Para parar la lectura presionar el botón stop o las teclas (Alt+T). Esto no siempre reacciona de forma inmediata en entornos Linux. Por lo que conviene ir por la opción de párrafo a párrafo.

Configuración de Festival Speech en TextDalek.
En el menú “Speech” -> “Config” -> “Load config..” se encuentra un acceso directo al archivo de configuración de arranque de Festival empleado por el editor para el proceso de lectura.
En entornos Windows / Linux / Raspberry y con idioma español no debería darse el caso, no obstante es posible que necesitéis ajustar alguno de los parámetros de configuración.

Para esto vasta con acceder a la misma, alterarlas, y presionar (Ctrl+S) para guardar los cambios.

Es necesario reiniciar el editor para que los mismos cumplan efecto.

Ajuste de vocabulario.
Aun instaladas correctamente las voces en español para Festival Speech, este suele tener algunos problemas de pronunciación. Siendo generoso, digamos que choca un poco con las formas locales de nuestro idioma.

Para lidiar con esto existe en el menú “Speech” -> “Config” –> “Load phonetics..” un acceso directo al archivo de definición de vocabulario.

Solo basta con agregar o cambiar algún termino / letra, guardar (Ctrl+S), presionar (Alt+T) [para parar la instancia del Festival en memoria]. Y TextDalek aplicara el nuevo vocabulario en la siguiente lectura.

Rasgos adicionales.
Además de la conversión de texto a voz. TextDalek ofrece las siguientes características adicionales.

  • Invocación por línea de comando.
  • Opción de arrastre y soltar para la apertura de archivos.
  • Barra vertical de numeración de líneas y salto a línea (Ctrl+G).
  • Soporte de múltiples encoding, tanto de lectura como de grabación. Lo que resulta muy útil si (al igual que vuestro servidor) estáis permanentemente saltando de un sistema operativo a otro.
  • Ajuste de testo a ventana (sin scroll horizontal).
  • Permite trabajar con múltiples archivos de forma simultánea.
  • Componente de teclado en pantalla.
  • Encoding de emoticones.

Adicional mente.
El editor es bastante potente, se lo ha empleado para navegar archivos de log de varias desenas de megas, y se ha comportado de forma más que respetable. Aunque esto se suele hacer en hardware x64 con 8GB de memoria.

La interfaz de usuario sigue la filosofía de “navegación sin mouse” por lo que todas sus funciones son accesibles por teclado.

De la licencia.
TextDalek está disponible bajo OpenSource/MIT

Comentario final.
TextDalek se desarrolló tanto como prueba de concepto (de una plataforma de síntesis de voz portable) como para cubrir necesidades personales.
Por lo que los rasgos implementados están en línea con esas necesidades.

Dicho esto, podéis comentar o sugerir cualquier otro rasgo deseable.

O podéis implementarlo por vuestra cuenta.

Descarga de: sourceforge

 

Download TextDalek

 

 

PrintView Printer Friendly Version

EmailEmail Article to Friend

Reader Comments (3)

Muy interesante Eduardo. Por curiosidad ¿Qué necesidades personales tuyas cubre este proyecto?

noviembre 29, 2016 | Registered CommenterAbraham

Hola Abraham,
Hace tiempo.

En la empresa en la que trabajo, están bastante densos en cuanto al software que tienes instalado o no en tu máquina.

No importa si es gratuito o de pago, tiene que ser autorizado por global.

Y si la aplicación requiere permisos de instalación o deja marcas en la registry de Windows, la cosa va a peor.

En mi caso necesitaba (además del conversor de texto a voz) de un buen editor que soporte múltiples encoding dese UTF-8 (Linux) a Cp1252 (Windows) y que pueda lidear con archivos de log de decenas de megas.

noviembre 29, 2016 | Registered Commenterefrigerio

Muy útil lo de leer y guardar con diferentes encoding.
Y muy divertida la voz del lector.
:D

noviembre 30, 2016 | Unregistered CommenterJorge

PostPost a New Comment

Enter your information below to add a new comment.

My response is on my own website »
Author Email (optional):
Author URL (optional):
Post:
 
Some HTML allowed: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>