En Tucuvi hemos desarrollado un asistente de voz que permite la automatización de las llamadas clínicas, desde los cuestionarios previos a la consulta hasta el seguimiento posterior al alta y la monitorización domiciliaria de los pacientes crónicos. ¿A qué desafíos nos hemos enfrentado?

En la última década, se ha producido un enorme aumento en el uso de asistentes de voz, que han logrado una penetración muy alta en muy poco tiempo con productos como Siri, Alexa o Google Assistant. La mayoría de estos asistentes virtuales están diseñados para comprender y realizar tareas específicas, que suelen completarse en una o varias frases cortas, como reproducir una canción o comprobar el tiempo.

Sin embargo, cuando quieras involucrar al usuario en una conversación real, como ocurre cuando automatizar las llamadas telefónicas, el desafío se hace mucho más complejo y el campo de trabajo se encuentra en una fase muy temprana.

En Tucuvi hemos desarrollado un asistente de voz que permite la automatización de llamadas clínicas, desde los cuestionarios previos a la consulta hasta el seguimiento posterior al alta y la monitorización domiciliaria de los pacientes crónicos. En este post queremos compartir nuestra experiencia y los desafíos a los que nos hemos enfrentado durante estos dos años de trabajo.

Reconocimiento automático de voz

El reconocimiento automático de voz (ASR) es un aspecto fundamental de nuestra solución. A ASR de alta precisión es esencial para capturar información clínica que es relevante para la experiencia del paciente, ya que da como resultado fMenos transcripciones faltantes o defectuosas.

Hay varias causas que dificultan este proceso, como las condiciones acústicas en las que se realiza la llamada, el ruido ambiental, el vocabulario específico de cada paciente o las características de la forma de hablar del propio paciente. La distinción entre el ruido de fondo y la propia voz del paciente es compleja, lo que puede llevar a la transcripción de información irrelevante. Esto dificulta que los algoritmos de procesamiento del lenguaje natural (PNL) entiendan la transcripción y permiten al asistente responder correctamente al paciente.

La mayoría de los asistentes de voz están diseñados para empezar a funcionar con una palabra clave, como el nombre del propio asistente. Esta palabra proporciona un punto de partida claro a partir del cual el asistente comienza a escuchar la tarea o solicitud a la que debe responder.

Sin embargo, por teléfono iEs más difícil encontrar una distinción clara entre cuándo el paciente comienza a hablar y cuándo termina de hablar.. Además, las frases son más largas y elaboradas y tienen un mayor número de pausas, lo que puede interpretarse como el final de lo que el paciente quiere comunicar, lo que provoca interrupciones no deseadas o, alternativamente, latencias muy largas.

Duración de la llamada

Para que un asistente de voz virtual gestione una llamada telefónica, el sistema debe comprender el contexto de las interacciones anteriores, lo que se hace más difícil con llamadas de mayor duración.

A medida que las conversaciones se alargan, se puede encontrar información relevante en un mayor número de interacciones. Además, cuanto más larga sea la llamada, mayor será la cantidad de puntos en los que el tema de la conversación puede cambiar, y es necesario que el sistema comprenda que el contexto del tema anterior puede no ser relevante para el tema actual. Estos aspectos implican un sistema de diálogo más complejo, compuesto por un combinación de modelos de PNL para detectar intentos y entidades y para gestionar las interacciones y cambios de contexto basados en las respuestas de interacciones anteriores.

Latencia

La mayoría de los dispositivos que admiten asistentes de voz tienen algún tipo de respuesta visual, como una luz o un icono, que permite a los usuarios saber que el sistema los ha escuchado y está procesando la solicitud. En el teléfono, no existe esa confirmación visual, por lo que la gestión de la latencia es más compleja, ya que se compensa entre las interrupciones y la velocidad de respuesta del asistente. Todas las partes del sistema de voz deben ser lo más eficientes posible, desde el reconocimiento de voz hasta los modelos utilizados para la PNL, las consultas a las bases de datos y las llamadas a la API.

Por ello, uno de los desafíos más importantes en los que hemos estado trabajando es lograr que la latencia llegue a un punto en el que las conversaciones entre el asistente y los pacientes son fluidas y naturales.

Experiencia de usuario: expectativas, confianza y seguridad.

Cuando los pacientes reciben una llamada de nuestro asistente virtual por primera vez, a menudo hay una falta de confianza en cuanto a si el asistente virtual realmente puede entender y gestionar la conversación, y es habitual que las primeras respuestas que dé el paciente sean muy breves, predominando los monosílabos. A medida que el paciente ve que puede hablen con naturalidad y que el asistente los entienda, comienzan a abrirse y a expresarse de una manera más manera personal, dando respuestas más elaboradas con sus propias expresiones.

Además, la preocupación por la deshumanización de la atención es un tema recurrente cada vez que se habla de la IA conversacional en la atención médica. La clave para evitarlo es entender que las llamadas realizadas por nuestro asistente de voz no sustituyen la actividad clínica, pero sirven para complementar eso. Es una herramienta de apoyo para poder llegue a más pacientes con mayor rapidez y para discernir dónde es más urgente y prioritario que los profesionales actúen. De este modo, permite ampliar la atención y mejora la eficiencia de los procesos hospitalarios, lo que ahorra tiempo a los profesionales y les permite priorizar a los pacientes con situaciones más graves.

A medida que el espacio madure y cada vez más pacientes tengan experiencias positivas al usar asistentes virtuales por teléfono, este problema comenzará a desaparecer. A pesar de la novedad de nuestra solución, todos los avances que hemos logrado nos han llevado a una 4.7/5 de satisfacción calificación de los pacientes que hablan con el asistente de voz clínico. Además, el adherencia de estos pacientes a las llamadas ha alcanzado un valor único en el mercado: 98%.

Tucuvi:
Clinically Validated
AI for Healthcare

Book a demo