5 tips para que la voz sintética se escuche más natural

Recientemente agregué a Telencuestas la opción de utilizar una voz sintética para el audio de las preguntas de los cuestionarios, y también para los mensajes de voz que puedes enviar masivamente.

Cuando inicié este viaje con la publicación de Telencuestas en 2014, escogí no ofrecer la opción de utilizar voces sintéticas porque, en primer lugar, la calidad de las voces en ese momento era muy pobre (era como escuchar a Robotina de los Supersónicos), y en segundo lugar, porque el hecho de responder preguntas a una voz pregrabada es de por sí algo impersonal, hacer las preguntas utilizando la voz de un robot que se escuchaba así lo hacía muchísimo más impersonal.

Pero las cosas han cambiado. Por un lado, las voces sintéticas han mejorado exponencialmente, y por otro, en estos momentos muchas personas interactuan con robots a diario. Cuando utilizan cualquier aplicación de navegación, como Google Maps o Waze, están recibiendo instrucciones de un robot. Y al utilizar Alexa o Siri, están hablando con un robot. Este es un factor muy importante y que no debemos pasar por alto: las personas están cada vez más dispuestas a interactuar con robots, y está tendencia seguirá en aumento.

Hoy día las redes neuronales permiten lograr voces sintéticas de altísima calidad, como es el caso de las voces WaveNet de Google que utiliza Telencuestas. De seguro estas tecnologías continuarán mejorando y harán cada vez más difícil la tarea de diferenciar una voz sintética de una humana. Estoy convencido de que, en el futuro, cada vez utilizaremos más la voz para intercambiar información con cualquier sistema, esta es la forma en que nos comunicamos naturalmente.

En Telencuestas, las voces sintéticas se usan para generar el audio de los cuestionarios a partir de un texto. Aunque la calidad de la voz es excelente, por la forma en que el robot "lee" lo que escribimos, algunas frases se escuchan poco naturales. En este artículo comparto 5 tips que he aprendido durante muchas pruebas con las voces sintéticas. Espero que te ayuden a lograr que las preguntas de tus cuestionarios se escuchen lo más natural posible.

Tip #1: Tu texto no debe cumplir con las reglas de puntuación

Cuando escribimos un texto para generar una voz sintética, no tenemos que ser estrictos con las reglas de puntuación. Debemos entender que el propósito del texto que estamos escribiendo es lograr que la voz sintética se escuche los más natural posible, y que no estamos participando en un concurso de redacción. El texto final puede que no haga mucho sentido a un humano, pero el audio resultante sí lo hará. Como verás más adelante, a veces es necesario insertar una coma en lugares poco ortodoxos, solo para lograr una pequeña pausa que hará que la pregunta se escuche mucho mejor.

Tip #2: Utiliza el punto y coma con mayor frecuencia que las comas

Cuando el robot “lee” el texto, hace una pausa cuando encuentra una coma, pero es muy breve para lo que los humanos estamos acostumbrados. Por ejemplo, escucha estas dos versiones de la misma pregunta, la primera utiliza solo comas, y la segunda utiliza punto y coma.

Versión con comas

¿Qué edad tiene usted? Presione 1 si tiene menos de 18 años, presione 2 si tiene entre 18 y 29 años, presione 3 si tiene entre 30 y 39 años, presione 4 si tiene entre 40 y 49 años, presione 5 si tiene entre 50 y 59 años, presione 6 si tiene 60 años o más, o presione asterisco para repetir la pregunta.

Versión con punto y coma

¿Qué edad tiene usted? Presione 1 si tiene menos de 18 años; presione 2 si tiene entre 18 y 29 años; presione 3 si tiene entre 30 y 39 años; presione 4 si tiene entre 40 y 49 años; presione 5 si tiene entre 50 y 59 años; presione 6 si tiene 60 años o más; o presione asterisco para repetir la pregunta.

La primera versión suena como si alguien hubiese leído el párrafo en una sola respiración, mientras que en la segunda versión las pausas son un poco más prolongadas y la entonación al final de cada oración es diferente. Estas pequeñas diferencias hacen que la voz se parezca más a la de un humano.

Tip #3: Inserta una coma donde escuches una cacofonía

Las cacofonías son combinaciones de sonidos en una frase que la hacen desagradable al oído, sencillamente no suenan bien. Tal vez percibiste varias de ellas en las grabaciones anteriores, por ejemplo en la frase:

…presione 3 si tiene entre 30 y 39 años…

A primera vista no se nota, pero si escribimos los números en letras, el problema se hace evidente.

…presione tres si tiene entre treinta y treinta y nueve años…

Normalmente no lo escribiríamos así, pero en este caso debemos insertar una coma después del “30” para lograr una pequeña pausa que elimine la cacofonía, de la siguiente forma:

…presione 3 si tiene entre 30, y 39 años…

La misma cacofonía se produce en los lugares donde aparecen las frases cuarenta y cuarenta y nueve, cincuenta y cincuenta y nueve, y también debemos corregirlas. Al final, la pregunta completa quedaría de la siguiente forma:

¿Qué edad tiene usted? Presione 1 si tiene menos de 18 años; presione 2 si tiene entre 18 y 29 años; presione 3 si tiene entre 30, y 39 años; presione 4 si tiene entre 40, y 49 años; presione 5 si tiene entre 50, y 59 años; presione 6 si tiene 60 años o más, o presione asterisco para repetir la pregunta.

Y se escucha muchísimo mejor:

Tip #4: Solo utiliza punto cuando quieras pausas muy prolongadas

Te habrás preguntado en los ejemplos anteriores: ¿y por qué no utilizo mejor punto y seguido, en lugar de punto y coma? Algo como:

¿Qué edad tiene usted? Presione 1 si tiene menos de 18 años. Presione 2 si tiene entre 18 y 29 años. Presione 3 si tiene entre 30, y 39 años. Presione 4 si tiene entre 40, y 49 años. Presione 5 si tiene entre 50, y 59 años. Presione 6 si tiene 60 años o más. O presione asterisco para repetir la pregunta.

Esta versión de la misma pregunta se escucha así:

Las pausas que introduce el punto son mucho más prolongadas y hacen que la pregunta tenga poca fluidez. Para que tengas una idea de qué tan grande es la diferencia, en el ejemplo anterior, cuando reemplazamos las comas por punto y coma, la duración del audio solo se extendió de 23 a 24 segundos. Sin embargo, al utilizar puntos, el audio de la pregunta alcanzó los 27 segundos de duración.

Tip #5: Separa los dígitos con espacios cuando se trata de un número telefónico

El robot lee cualquier número como una cantidad. El típico ejemplo es la pregunta del nivel socioeconómico:

¿Cuál de las siguientes opciones refleja mejor su ingreso familiar mensual? Incluyendo todas las personas que aportan al hogar. Presione 1 si es menos de 400 dólares; presione 2 si está entre 400 y 799 dólares; presione 3 si está entre 800 y 1499 dólares; presione 4 si está entre 1500 y 2499 dólares; presione 5 si es de 2500 dólares o más; presione 6 si no sabe, o presione asterisco para repetir la pregunta.

Que se escucha así:

Sin embargo, hay situaciones en las que necesitas que el robot lea un número dígito por dígito, como cuando incluyes un teléfono en un mensaje de voz:

Si deseas una cotización, envíanos un mensaje de WhatsApp al 5501235678, y en breve te atenderemos.

El único problema es que el robot lo lee como una cantidad, y se escucha así:

La solución es sencilla, separa el número de teléfono con espacios de la siguiente forma:

Si deseas una cotización, envíanos un mensaje de WhatsApp al 5 5 0 1 2 3 5 6 7 8, y en breve te atenderemos.

Y el robot leerá el número telefónico dígito por dígito:

Conclusión

Cuando utilizamos voces sintéticas, pequeños cambios en los signos de puntuacion hacen que las frases tengan la pausa y entonación adecuadas, las que nos hacen olvidar por un momento que estamos escuchando a un robot. Espero que estos tips te ayuden a lograr que tus cuestionarios se escuchen tal y como quieres, y sin tener que grabarlos.

¡Regístrate gratis!

Reclama tu crédito de $10 dólares y empieza a encuestar hoy.
No necesitas una tarjeta de crédito.

El Manual de Sabotaje

Descubre las tácticas de sabotaje utilizadas por la OSS durante la Segunda Guerra Mundial y explora las similitudes con comportamientos en tu equipo de trabajo.

Leer más

Cuántas entrevistas son suficientes

Descubre cuál es el tamaño de la muestra más adecuado para tu encuesta. Aprende sobre los parámetros que inciden en el margen de error de tus resultados.

Leer más

Cómo hacer una encuesta electoral telefónica

Aprende cómo hacer una encuesta electoral telefónica automática. Utiliza una plantilla para crear tu cuestionario con voces sintéticas.

Leer más

Qué es la ponderación de encuestas y cómo funciona

Aprende cómo funciona la ponderación de encuestas y cómo aplicarla para obtener muestras que representen a la población.

Leer más

Qué preguntas hacer en una encuesta electoral telefónica

Descubre cuáles son las preguntas más importantes para determinar la preferencia de los votantes con una encuesta electoral telefónica.

Leer más

Cómo analizar datos con tablas dinámicas de Excel

Aprende cómo utilizar las poderosas tablas dinámicas de Excel para automáticamente agrupar, sumar, contar, promediar y cruzar tus datos.

Leer más