Durante décadas nos han prometido interacciones de voz con nuestras máquinas. Promesas en forma de ciencia ficción, sobretodo del sector audiovisual, que nos han mostrado que los dispositivos que nos rodean pueden comprender lo que les decimos e incluso mantener una conversación con nosotros.
Seguimos esperando a que llegue una tecnología de semejante avance, mientras nuestro deseo ha permanecido intacto. La habilidad de hablar con nuestro smartphone o nuestro ordenador personal debería ser una evolución natural y obvia en la forma en que interactuamos con las máquinas.
La promesa de una interfaz de voz nos libera del contacto manual, es una tercera mano cuando las dos están ocupadas, nos permite controlar termostatos, sistemas de navegación, cambiar de música, mandar un WhatsApp o hacer una compra inmediata.
Dando poder a los que más lo necesitan
Pero antes de evaluar el estado actual de esta tecnología, tenemos que remarcar que lo que más nos apasiona en Puentes Digitales de las Interfaces de Voz es que claramente mejorarán la vida de los más necesitados.
Para las personas con deficiencias neuromotoras, la interacción por voz no es sólo una comodidad, sino que les dará poder real y les devolverá la dignidad. Podrán valerse más por sí solos y en muchas ocasiones podrán vencer barreras que ahora mismo les son insalvables.
Además, la falta de alfabetización que aún hay en muchos lugares del planeta se convertirá en un obstáculo menor. Aún hay mucha gente con nula o baja alfabetización, que no utiliza más las nuevas tecnologías porque simplemente no puede, aunque las tenga a su alcance. Poder dar órdenes a las máquinas por medio de la voz les dará un acceso inmediato.
Por último, personas de edad avanzada, que no tienen la habilidad de interactuar con los dispositivos electrónicos como los más jóvenes, podrán usar las nuevas tecnologías más fácilmente. Incluso, por qué no, podrán encontrar un compañero digital con el cual conversar, que muchas veces es lo que más necesitan.
La comunicación por voz con las máquinas se convertirá en una influencia liberadora en toda la sociedad y a todos los niveles. Será la continuación más social de nuestra expansión digital del siglo XXI.
Amazon, el rey de la Interfaz por Voz
Hoy en día, la Interfaz por Voz ya no es sólo una promesa. En este caso es Amazon quien tiene una visión más potente y un desarrollo más impecable de esta tecnología.
Amazon quiere revolucionar la forma en que usamos los smartphones gracias a Alexa
A finales de 2014, Amazon introdujo Echo, una línea de “altavoces inteligentes” activados por voz. Bezos & Co. han apostado desde el principio por la Inteligencia Artificial en este desarrollo, dotando a Alexa, la voz inteligente de Echo en la Nube, de una gama cada vez mayor de “Habilidades Inteligentes”, por así decirlo.
El desarrollo de Alexa está contando con la comunidad de desarrolladores, lo cual les está dando muy buenos resultados. Además, el apoyo de Amazon para los nuevos usuarios es bastante bueno. La compañía proporciona una guía de “habilidades” o “skills” bien diseñada y que orienta a los usuarios más novicios en este nuevo mundo sin menús, ratones, pantallas ni teclados.
Para colmo, Amazon publica un boletín semanal a los propietarios de Echo que demuestra nuevas y probadas maneras de hablar con Alexa. Es un desarrollo vivo y que avanza a muy buen ritmo, lo cual anima a los usuarios a seguir trasteando con sus dispositivos y no abandonarlos en la estantería. Estas nuevas ayudas no son meras newsletters, los usuarios obtienen nuevas utilidades. Por ejemplo, cada semana, Amazon les dice a los usuarios de Echo cómo hacer un mejor uso de una compra que hicieron hace meses o años.
Una encuesta realizada a finales de 2016 (hace mucho tiempo si tenemos en cuenta la velocidad que lleva todo esto) reveló que “la característica principal probada por los usuarios de Echo es el simple hecho de ajustar un temporizador”. Un estudio más reciente dice que los usuarios de Eco “compran más cosas”. Ambos resultados son muy jugosos para los apetitos de negocio de Amazon y por eso su apuesta es muy fuerte.
¿Dónde están Google y Apple?
Aunque destaquemos a Amazon, los otros dos líderes tecnológicos no se duermen.
Los Smartphones con Android dominan el mercado, y hay indicios de que Google Assistant están haciendo maravillas en países donde la alfabetización todavía no es universal (ej. India). La integración de Google Assistant con TODOS los servicios de Google puede suponer un cambio en el podio en muy poco tiempo. Sus avances en IA y la dominancia en software pueden convertir a Google en un líder en esta tecnología.
Siri de Apple es un sistema pulcro, que funciona de forma elegante, donde los usuarios nuevos y viejos tienen muchas posibilidades al ser el sistema más rodado. Aún así, sus avances parecen más estancados. Amazon y Google han adelantado por la derecha a la Manzana en este aspecto.
Es importante analizar cómo el desarrollo de la Interfaz por Voz se ajusta al negocio de estas compañías. Google no vende productos a “civiles”, hace su dinero vendiendo herramientas publicitarias a grandes comerciantes. Aunque Google Assistant tiene el masivo alcance de los dispositivos Android, no tiene la integración única de Amazon de publicidad más comercio electrónico.
Por la otra parte, Apple no vende detergente para ropa o publicidad, hace dinero vendiendo hardware. Al igual que todos los demás componentes del ecosistema de Apple, el único propósito de Siri es ayudar a vender más iPhones, Macs, iPads y relojes.
Viendo esta situación, Amazon tiene muchas papeletas de mantener el reinado. Tienen una buena estrategia corporativa y un ecosistema con mucho potencial.
Empezando por chatbots
Los chatbots, cada vez son más frecuentes en nuestro día a día. En China, los chatbots de WeChat ya permiten a los usuarios pagar facturas, pedir taxis o incluso reservar estaciones de karaoke. Cada día, millones de personas saludan, se despiden e incluso dan gracias a lo que son esencialmente máquinas. A muchos nos puede parecer raro, pero es una tendencia de interacción muy normal, pues somos criaturas sociales, que nos comunicamos en gran porcentaje por el habla.
Pero crear chatbots no es tarea fácil. No vale crear un algoritmo con frases prediseñadas, se necesita mucha más riqueza conversacionale. Es necesario combinar una gran gama de nuevas tecnologías para mantener una conversación de alta calidad, con preguntas y respuestas adecuadas al contexto.
Se necesitan muchos bloques diferentes para gestionar y comprender una conversación, basada en algoritmos de inteligencia artificial y aprendizaje automático. Gracias a la evolución de tecnologías como Natural Language Processing (NLP) y Natural Language Understanding (NLU), los chatbots en plataformas de mensajería instantánea como Facebook Messenger, Amazon Echo Alexa y Google Home son capaces de analizar con éxito el texto y la voz y, en algunos casos, incluso analizar el sentimiento de un usuario.
Los chatbots tratan de detectar las intenciones del usuario final y extraer lo que llamamos “entidades nombradas“, como por ejemplo la ciudad a la que quiere viajar o un producto que desea pedir. Con la gestión de diálogos y Natural Language Generation (NLG), el chatbot puede proporcionar respuestas apropiadas en formato de voz o texto y entablar una conversación fluida con el usuario final.

En el estado actual de desarrollo, gracias a la arquitectura arriba mostrada, los chatbots no sólo crean conversaciones útiles y fluidas, sino también un bucle de mejora continua, en el que los chatbots aprenden de las preguntas y respuestas del usuario y mejoran su comprensión todo el tiempo.
Estos primeros pasos en el desarrollo de chatbots son también nuestros primeros pasos en una verdadera Interacción por Voz basada en un procesamiento avanzado del lenguaje.
“La pieza crítica del rompecabezas para la próxima era de la informática”
Las palabras de arriba son de Ben Bajarin, un experto de este mundillo. La Interfaz por Voz es la pieza que nos falta para potenciar los desarrollos de Inteligencia Artificial. Si queremos que las máquinas piensen como nosotros, debemos hablar con ellas. No debemos tener miedo o pensar que HAL nos pondrá en peligro por un bien mayor. Estamos muy lejos de plantearnos cuestiones filosóficas tan complejas.
Debemos dar a nuestras máquinas la capacidad conversar. Nosotros aprendimos conversando, ellas también lo harán. Tal y como explicamos en el reciente artículo “Los 8 increíbles avances en Inteligencia Artificial para este 2018“, la cognición conversacional va a abrir una nueva puerta a múltiples desarrollos computacionales.
La Interfaz por Voz es la llave que abre dicha puerta.
Fuente: Mondaynote; Atos
5 comentarios en “Cuál es el desarrollo actual de las Interfaces por Voz y qué ocurrirá cuando conversemos con las máquinas”