La tecnología de reconocimiento de voz
de iFlytek se ha infiltrado en casi todos los sectores del país y ya se utiliza
para cosas como ayudar a la conducción, recibir a pacientes en hospitales,
crear registros médicos y traducir la comunicación entre interlocutores de
distintos idiomas
Cuando Gang Xu, un ciudadano de Beijing
de 46 años, necesita comunicarse con su arrendatario canadiense para consultar
cosas sobre el pago de su alquiler o las facturas, abre una aplicación llamada
iFlytek Input en su teléfono inteligente y pulsa un icono con aspecto de
micrófono; entonces, comienza a hablar. El software convierte sus mensajes
verbales chinos en mensajes de texto en inglés y los envía al inquilino
canadiense. También traduce al chino los mensajes escritos por el inquilino,
creando un ciclo de conversación bilingüe.
En China, más de 500 millones de
personas utilizan iFlytek Input para superar obstáculos en la comunicación,
como al que se enfrenta Xu. Algunos también lo usan para enviar mensajes de
texto a través de comandos de voz mientras conducen, o para comunicarse con un
interlocutor de otro dialecto chino. La aplicación fue desarrollada por
iFlytek, una compañía china de inteligencia artificial (IA) que aplica
aprendizaje profundo en una amplia gama de campos como el reconocimiento de
voz, el procesamiento de lenguaje natural, la traducción automática y la
minería de datos. Esta empresa se ha alzado con el puesto número 6 de la selección
de las 50 empresas más inteligentes de 2017 de MIT Technology Review.
Los sistemas judiciales utilizan su
tecnología de reconocimiento de voz para transcribir procedimientos muy
extensos; los negocios de centros de llamadas utilizan sus herramientas de
síntesis de voz para generar respuestas automatizadas; y Didi, una popular
aplicación china de taxis, utiliza la tecnología de iFlytek para transmitir
órdenes a los conductores.
Para que Xu sea capaz de comunicarse
con su inquilino canadiense han sido necesarios varios progresos impresionantes
en el reconocimiento de voz y la traducción instantánea. Sin embargo, la
comprensión del idioma y la traducción sigue siendo una tarea muy desafiante
para las máquinas.
Xu recuerda un malentendido cuando
trató de preguntar a su inquilino cuándo saldría del trabajo para firmar la
renovación del contrato. Pero el mensaje de texto enviado por la aplicación
decía: "¿A qué hora vas a trabajar hoy?". En retrospectiva, cree que
este error probablemente se debió a la redacción de su pregunta: "¿hasta
qué hora trabajará hoy?". Xu, que todavía depende de la app para
comunicarse, afirma: "A veces, en función del contexto, no puedo hacer
llegar mi mensaje".
La historia de Xu pone de relieve por
qué es tan importante para una empresa como iFlytek reunir tantos datos como
sea posible sobre las interacciones del mundo real. La aplicación, que es
gratuita, ha estado recopilando datos desde su lanzamiento en 2010.
La plataforma de desarrolladores de
iFlytek, llamada iFlytek Open Platform, proporciona tecnologías de IA basadas
en voz a más de 400.000 desarrolladores en diversas industrias como la domótica
y el internet móvil. La empresa tiene un valor de 80.000 millones de yuanes
(más de 10.000 millones de euros) y tiene ambiciones internacionales, incluida
una filial en los Estados Unidos y un intento por expandirse a otros idiomas
que no sean chinos. Mientras tanto, la empresa está cambiando la forma en que
muchas industrias, como la conducción, la atención de la salud y la educación,
interactúan con sus usuarios en China.
En agosto, iFlytek lanzó un asistente
de voz para conductores llamado Xiaofeiyu (Pequeño Pez Volador). Para
garantizar una conducción segura, no tiene pantalla ni botones. Una vez
conectado a internet y al smartphone del conductor, puede realizar llamadas,
reproducir música, buscar direcciones y restaurantes mediante comandos de voz.
A diferencia de los asistentes de voz destinados a los hogares, Xiaofeiyu fue
diseñado para reconocer las voces en un ambiente ruidoso.
El vicepresidente de AISpeech, otra
empresa china que trabaja en tecnologías de interacción hombre-máquina basadas
en voz, Min Chu, dice que los asistentes de voz para los conductores son en
cierto modo más prometedores que los altavoces inteligentes y los asistentes
virtuales integrados en los smartphones. Cuando los ojos y las manos del
conductor están ocupados, es cuando más sentido tiene confiar en comandos de
voz. Además, una vez que los conductores se acostumbren a hacer cosas con la
voz, el asistente también podrá convertirse en un proveedor de contenido,
recomendando opciones de entretenimiento en lugar de tratar las solicitudes de
forma pasiva. De esta manera, podría aparecer un nuevo modelo de negocio.
En la industria de la atención médica,
aunque la inteligencia artificial tiene el potencial de reducir los costes y
mejorar los resultados de los pacientes, muchos hospitales son reacios a dar el
paso por miedo a perturbar un sistema ya tenso que tiene pocos médicos pero
muchos pacientes. En el Hospital Provincial de Anhui (China), que está probando
una serie de ensayos utilizando IA, las tecnologías basadas en voz están
transformando muchos aspectos de su servicio. Diez auxiliares de voz en forma
de niñas robóticas utilizan la tecnología de iFlytek para saludar a los
visitantes en el vestíbulo del departamento de pacientes externos y aliviar el
trabajo de los sobrecargados recepcionistas. Los pacientes pueden decirle al
asistente cuáles son sus síntomas para que averigüe qué departamento puede ayudarles.
Según los datos recogidos por el
hospital desde junio, el asistente de voz dirigió a los pacientes al
departamento correcto en el 84% de los casos.
Los médicos del hospital también están
usando iFlytek para dictar a una app móvil los signos vitales de un paciente,
los medicamentos que toma y otras piezas de información. El sistema convierte
estos datos en registros escritos. La aplicación utiliza la tecnología de
impresión por voz como un sistema de firma que no se puede falsificar. Además,
está recopilando datos que mejorarán sus algoritmos con el tiempo.
Aunque las técnicas de IA basadas en
voz se están volviendo más útiles en diferentes escenarios, su avance sigue
teniendo por delante un desafío fundamental: las máquinas no comprenden las
respuestas que generan, advierte el profesor de la Universidad de Pekín (China)
Xiaojun Wan, que investiga el procesamiento del lenguaje natural. La IA
responde a las consultas de voz buscando una respuesta relevante dentro de la
gran cantidad de datos de los que se alimentó, pero no tiene una comprensión
real de lo que dice.
En otras palabras, la tecnología de
procesamiento de lenguaje natural que sustenta a los asistentes de voz hoy en
día se basa en un conjunto de reglas rígidas, y da lugar a situaciones como la
del malentendido que le sucedió a Xu. Cambiar la forma en que la que las
máquinas procesan el lenguaje ayudará a las empresas a crear dispositivos de
voz basados en inteligencia
artificial, que se convertirán en una parte integral de nuestra vida diaria.
"Quien haga un gran avance en el procesamiento del lenguaje natural
disfrutará de una ventaja en el mercado", concluye Chu.
Fuente: MIT Technology Review