Perspectivas desde la experiencia sobre el mayor desafío de los agentes de IA y los factores clave para tomar una decisión

En los últimos dos años, el debate en torno a los Agentes de IA (Agentic AI) en el sector sanitario ha dado un giro radical. Hoy en día, nadie cuestiona su relevancia; todas las organizaciones de salud la tienen ya en su hoja de ruta. La verdadera pregunta ahora es cómo implementarlos de manera efectiva: ¿debería desarrollar su propio sistema o confiar en plataformas de IA especializadas? No existe una respuesta única.
Con años de experiencia implementando flujos de trabajo de voz clínicos y administrativos en entornos sanitarios complejos, en Tucuvi hemos constatado que la respuesta rara vez es una simple decisión entre desarrollar o contratar. La elección correcta depende de varios factores: dónde quiere diferenciarse la organización, la complejidad del flujo de trabajo, los requisitos regulatorios regionales y la capacidad del equipo para mantener un sistema de Agentes de IA en rápida evolución. También exige comprender que los Agentes de IA no son una solución milagrosa, aunque su impacto pueda parecer revolucionario a primera vista.
La mayoría de las organizaciones sanitarias comienzan de manera similar: se desarrolla un prototipo rápido que, a menudo, funciona sorprendentemente bien. Puede responder preguntas, concertar citas simuladas y hablar con suficiente naturalidad como para sugerir que la ampliación a un sistema listo para producción será sencilla. Esta fase inicial resulta emocionante, pero también es cuando las expectativas empiezan a divergir de las realidades de operar sistemas de Agentes de IA de voz seguros, estables y de grado clínico en entornos sanitarios reales.
En este artículo encontrará una visión profunda de lo que los equipos de salud encuentran al desarrollar internamente sistemas de Agentes de IA de voz para flujos de trabajo telefónicos (incluyendo la programación de citas, la gestión de la atención y la monitorización remota de pacientes), basándose en años de experiencia práctica trabajando con organizaciones que van desde clínicas individuales hasta grandes sistemas de salud con redes de más de 50 hospitales, pasando por instituciones gubernamentales.
Del prototipo al desarrollo: Los desafíos en escalar Agentes de IA
Casi todos los desarrollos internos comienzan con entusiasmo. Un prototipo rápido puede sentirse transformador. Los equipos están orgullosos, la dirección está impresionada y la organización comienza a imaginar lo que sería posible si el prototipo se expandiera a un flujo de trabajo clínico completo. Con el tiempo y el talento suficientes, puede parecer un proceso directo.
El cambio ocurre cuando el equipo pasa del entorno controlado de una demostración (demo) a un flujo de trabajo real. En esta etapa, los desafíos se multiplican.
Un Agente de IA de voz clínico debe identificar a los pacientes de forma fiable, hacer preguntas estructuradas, interpretar respuestas no estructuradas, detectar síntomas, clasificar el riesgo, gestionar citas y preguntas frecuentes (FAQs), decidir cuándo escalar la situación, documentar los encuentros y manejar comportamientos inesperados. Nada de esto es determinista. Métricas estándar como la Tasa de Error de Palabras (WER) dejan de ser suficientes. Las preguntas aquí son si este sistema es capaz de completar la tarea de principio a fin de forma fiable, cómo de observables son sus fallos y cuáles podrían ser las consecuencias clínicas si falla inadvertidamente.
A medida que crece la complejidad, los ingenieros ya no son los únicos involucrados. Se suman líderes clínicos, equipos de calidad y riesgo, protección de datos, seguridad, operaciones y la gestión del centro de llamadas. La cadencia de las reuniones aumenta. La documentación se dispara. El diseño del flujo de trabajo se reduce a medida que aparecen las excepciones. Lo que parecía una extensión de dos semanas se convierte en un proyecto multifuncional de varios meses.
Finalmente, llega un piloto y el sistema parece estar lo suficientemente listo para probar en un entorno real. Es entonces cuando el tráfico real comienza a fluir y aparecen nuevos desafíos. La latencia es más alta de lo esperado cuando hay picos de llamadas. El reconocimiento de voz se comporta de manera diferente con pacientes reales que con voluntarios internos. Algunas llamadas entran en bucle. Algunas llamadas se caen. Algunas respuestas se malinterpretan porque la jerga del mundo real no coincide con el conjunto de pruebas. Su Historia Clínica Electrónica (HCE) recibe miles de solicitudes cuando no debería. Para abordar estos problemas, el equipo de ingeniería necesita construir observabilidad, nuevos paneles de control, nuevas alertas, nuevas métricas, lo que a menudo tarda meses en estabilizarse.
Mientras tanto, el panorama tecnológico sigue evolucionando. Los modelos de voz se actualizan, aparecen nuevos modelos optimizados, y las principales actualizaciones de los Modelos de Lenguaje de Gran Escala (LLM) de proveedores como OpenAI, Anthropic, Meta o Mistral cambian las características de rendimiento. Los sistemas que acaban de pasar la validación ya pueden estar desactualizados.
Las actualizaciones introducen sus propios efectos secundarios. La precisión mejora en un idioma y empeora en otro. La latencia disminuye, pero los sistemas de contención (guardrails) se comportan de forma diferente. Los costes fluctúan. Pequeñas diferencias en la transcripción activan los filtros de seguridad. La precisión se acumula a través de los pasos, por lo que un sistema que parece sólido de forma aislada rinde mucho peor en una conversación real de múltiples pasos. Y nada de esto cubre aún lo que sucede cuando el sistema se equivoca en algo clínicamente importante.
Esta es la realidad de desarrollar Agentes de IA para flujos de trabajo clínicos complejos: los flujos son complejos, las conversaciones están llenas de matices y el stack de IA subyacente evoluciona cada trimestre. Es todo un desafío, y esto sin incluir las integraciones, la privacidad, la seguridad, la gobernanza y la formación operativa.
Por qué los consultores externos pueden aumentar la complejidad
Dada la complejidad de los Agentes de IA en el sector sanitario, muchas organizaciones recurren a consultores externos. Las expectativas varían: algunos consultores son contratados para construir una primera versión del sistema, mientras que en otros casos, apoyan la definición de procesos, el rediseño de flujos de trabajo, la gestión del cambio o la gobernanza. Estos representan tipos de colaboración muy diferentes.
Los consultores que desarrollan software aportan marcos de trabajo y aceleradores y, a menudo, avanzan rápidamente en la fase inicial. Sin embargo, no son los propietarios de sus flujos de trabajo clínicos, los requisitos de gobernanza, las restricciones de protección de datos o la carga de mantenimiento a largo plazo. No están integrados en la organización cuando el stack de IA subyacente evoluciona meses después.
El resultado es predecible: un sistema que funciona bien en una demo y aceptablemente en un piloto, pero una vez que finaliza el proyecto, la propiedad vuelve al equipo interno. La capacidad interna es limitada, el conocimiento está fragmentado, las solicitudes de cambio se vuelven costosas y, en un año, el sistema queda obsoleto.
Los consultores centrados en el rediseño de procesos y la gobernanza pueden ser muy valiosos en este punto. Ayudan a remodelar los flujos de trabajo, preparar a los equipos del centro de llamadas y alinear a los stakeholders (actores clave). Pero no pueden reemplazar la evolución continua y el trabajo de seguridad necesarios para operar un sistema de Agentes de IA en producción en entornos clínicos.
Esto no es una crítica a los consultores; sus incentivos y alcance son simplemente diferentes. Lo que esta sección destaca, y la idea clave, es que depender de socios de desarrollo externos sin un modelo de propiedad a largo plazo a menudo crea más desafíos de los que resuelve.
Y refuerza el punto central: la parte más difícil de los Agentes de IA no es lanzar la primera versión, sino mantenerlos seguros, alineados y modernos mientras la tecnología subyacente sigue evolucionando.
TCO: El coste de propiedad real
Cuando la mayoría de las organizaciones sanitarias discuten los costes de la IA, el foco suele empezar en el desarrollo. Pero el desarrollo es la parte más pequeña de la inversión. Para cuando un equipo llega a un piloto, ya se han invertido varios meses de trabajo en ingeniería, líderes clínicos, calidad, privacidad, seguridad, integraciones y operaciones, lo que a menudo representa varios cientos de miles de dólares. Involucrar a consultores externos puede aumentar esta cifra significativamente. Sin embargo, este sigue siendo solo el coste de convertir un experimento prometedor en algo seguro para pilotar. No es el coste que realmente importa.
El coste verdadero surge después del piloto, cuando el sistema debe seguir siendo fiable mientras el stack de IA evoluciona por debajo.
Un Agente de IA de voz clínico es un sistema estocástico y multietapa construido sobre reconocimiento de voz, voces, capas de recuperación (retrieval), sistemas de contención (guardrails) y LLMs. Ninguno de estos componentes evoluciona anualmente. Evolucionan mensualmente. Esta rápida evolución es la dimensión más subestimada de los Agentes de IA y la razón principal por la que el mantenimiento domina el coste total de propiedad (TCO).
Los últimos dos años lo ilustran claramente. Whisper transformó la transcripción multilingüe a finales de 2022. Meses después, nuevos modelos optimizados para telefonía redujeron drásticamente la latencia, las arquitecturas de contexto amplio mejoraron la continuidad y los motores de voz médica mejoraron el reconocimiento de terminología. Un modelo considerado tecnología de vanguardia a principios de 2023 estaba obsoleto a finales de año.
Los modelos de lenguaje han evolucionado aún más rápido. Desde el primer lanzamiento de GPT, solo OpenAI ha lanzado casi veinte versiones principales. En 2025, aparecieron una docena en un solo año, y la mayoría de las versiones anteriores fueron descontinuadas. Un sistema construido sobre lo más avanzado del mercado en febrero, podría necesitar ser reconstruido, revalidado o reaprobado en agosto. Ninguna hoja de ruta interna está diseñada para esto.
Cada generación requiere nuevas pruebas, recalibración de prompts y capas de seguridad, actualización de la documentación de riesgos, obtención de la aprobación clínica y realineación del comportamiento operativo. Debido a que el sistema es no determinista, todo esto requiere evaluar el comportamiento bajo incertidumbre. A diferencia del software tradicional, donde el mantenimiento rara vez supera el 20% del coste de desarrollo por año, un Agente de IA Clínico requiere habitualmente entre el 30% y el 50%. Un flujo de trabajo que cuesta el equivalente a $500.000 desarrollar puede requerir otros $250.000 anuales para mantenerse seguro y actualizado.
Los costes de operación (COGS) añaden otra capa. El reconocimiento de voz, la síntesis de voz (TTS), la inferencia del LLM, la recuperación y la lógica de seguridad añaden varios céntimos por llamada. A escala, estos costes importan y deben incluirse en cualquier comparación honesta con los flujos de trabajo manuales.
Por ejemplo, un sistema de salud que gestiona 200.000 llamadas de seguimiento cada año gasta cientos de miles solo en personal, sin contar el coste de oportunidad de los escasos recursos clínicos realizando trabajo telefónico repetitivo. Un agente de voz autónomo bien mantenido puede aliviar gran parte de esta carga. Pero ese beneficio aparece solo si el sistema mantiene altas tasas de resolución a lo largo del tiempo. Y mantener esas tasas requiere seguir el ritmo de un panorama tecnológico que se mueve varias veces durante el ciclo de vida de un único flujo de trabajo desarrollado internamente.
Para muchas organizaciones, el desafío no es la capacidad técnica, sino operar al ritmo necesario. Los Agentes de IA requieren una cadencia de mantenimiento que se mide en semanas, no en años. Los grandes sistemas de salud a veces pueden absorber esta cadencia, pero muchos hospitales operan con equipos de TI pequeños que ya están desbordados con múltiples prioridades. El sector sanitario está construido para la seguridad, la continuidad y la excelencia clínica, no para rastrear constantemente cada lanzamiento incremental del ecosistema tecnológico más rápido del mundo.
Por eso, el mantenimiento, no el desarrollo, es lo que determina en última instancia el coste total de propiedad, y por qué la decisión de desarrollar o contratar debe evaluarse en función de lo que viene después del prototipo, no del prototipo en sí.
Regulación, gobernanza y el beneficio del alcance
Una vez que las organizaciones comprenden la verdadera carga de mantenimiento de los Agentes de IA, la regulación y la gobernanza surgen como un factor crítico. En el sector sanitario, un agente de voz que influye en las decisiones clínicas, el triaje o el seguimiento no es solo software.
En Europa, está regulado como producto sanitario bajo el Reglamento de Productos Sanitarios (MDR). En Estados Unidos, los sistemas de salud aplican cada vez más marcos internos de gobernanza de IA tanto a proveedores externos como a modelos desarrollados internamente. Estos requisitos de cumplimiento a menudo cambian el debate de desarrollar o contratar de maneras que no son visibles al comienzo de un proyecto.
Bajo el MDR, los sistemas clínicos requieren gestión de calidad ISO 13485, evaluación clínica, vigilancia post-comercialización, trazabilidad, gestión de riesgos y auditorías anuales de organismos notificados. En EE. UU., los marcos de gobernanza introducen clasificación de riesgos de IA, estándares de documentación, monitorización, transparencia, respuesta a incidentes, alineación con HIPAA, controles de seguridad y políticas de IA federales o estatales emergentes. Mantener estas expectativas año tras año es un compromiso organizacional significativo.
En Tucuvi, un equipo dedicado se centra exclusivamente en calidad, regulación, seguridad y gobernanza de IA. Este no es un trabajo accesorio. Es fundamental para operar una plataforma de voz clínica que se utiliza en vías de atención reales. Cuando un sistema de salud decide desarrollar internamente, estas obligaciones no desaparecen; se convierten en responsabilidades internas, que requieren equipos dedicados, procesos e inversión recurrente.
Aquí es donde el alcance cambia la economía.
Una plataforma certificada como Tucuvi se audita en su conjunto, no flujo de trabajo por flujo de trabajo. Cada mejora en seguridad, mitigación de riesgos, evaluación de modelos y revisión regulatoria beneficia a todas las vías. La misma arquitectura es compatible con el seguimiento tras el alta, la gestión de la atención, el screening, la programación de citas, los flujos de trabajo de medicación y más. La misma capa de integración, motor de orquestación, sistemas de seguridad, sistemas de contención clínicos y marcos de monitorización se reutilizan en docenas de flujos de trabajo. Una vez que el primer flujo de trabajo está en funcionamiento, se pueden lanzar otros nuevos en semanas, desde la definición del alcance hasta la producción.
Esto transforma la ecuación de desarrollar o contratar. Un sistema de salud podría decidir que construir un solo flujo de trabajo es factible si se ve de forma aislada. Pero mantener docenas a un nivel de auditoría clínica, mientras la tecnología cambia varias veces al año, es un desafío diferente. Las plataformas existen precisamente porque ningún equipo interno puede reconstruir de manera sostenible la infraestructura, los procesos de certificación, los motores de orquestación, las capas de seguridad, los sistemas de monitorización y los marcos de validación clínica para cada nuevo flujo de trabajo.
Cuando la regulación, el mantenimiento y el alcance se consideran conjuntamente, la decisión se vuelve más clara: desarrollar puede parecer una capacidad potente al principio, pero escalar de forma segura en todo un sistema de salud requiere infraestructura diseñada para la innovación continua y el rigor clínico.

¿Desarrollar o Contratar? El momento de tomar una decision
Los sistemas de salud deben desarrollar, sin duda. Deben crear prototipos, experimentar y acercarse a la tecnología. Hay un inmenso valor en comprender cómo se comportan los Agentes de IA, dónde sobresalen, dónde fallan y qué se necesita para operar de forma segura. Los equipos que han desarrollado pequeños proyectos internos toman mejores decisiones al evaluar socios porque comprenden tanto las promesas como las limitaciones. Entienden lo que se puede lograr en unos pocos días frente a lo que lleva meses, y qué expectativas son realistas.
Invertir en la gobernanza de IA interna es igual de importante. La capacidad de evaluar riesgos, supervisar la monitorización y comprender la toma de decisiones internas beneficia a cada iniciativa de IA. De hecho, hay todo un debate de desarrollar o contratar solo dentro de la gobernanza de IA, pero eso merece un artículo propio.
El desarrollo interno tiene más sentido en áreas donde el problema está bien delimitado y donde el coste de un fallo es bajo. Los procesos de backend como la conciliación de datos, el resumen, la elaboración de informes y la automatización interna ofrecen un entorno donde la IA tiene menos margen para "alucinar" y el fallo no es costoso. El desarrollo se vuelve desafiante en los flujos de trabajo de cara al paciente de alta dimensión, como las llamadas telefónicas clínicas. Estos flujos de trabajo dependen de una delicada cadena de tecnologías que deben funcionar juntas en tiempo real: reconocimiento de voz, modelos de lenguaje grandes, orquestación, capas de seguridad, lógica de escalado, monitorización, auditabilidad y supervisión clínica. Cada componente evoluciona rápidamente, introduce complejidad y requiere pruebas recurrentes bajo incertidumbre. El mantenimiento crece con cada nuevo flujo de trabajo añadido.
Por esta razón, un enfoque selectivo a menudo es lo que mejor sirve a los sistemas de salud. Desarrollar donde el conocimiento de la organización cree una ventaja natural y donde la experimentación sea segura. Contratar donde la seguridad, la regulación y la rápida innovación hagan que las plataformas externas sean mucho más sostenibles.
Algunas organizaciones optarán por construir sus propias plataformas porque se alinea con su estrategia a largo plazo y están preparadas para comprometer los recursos de ingeniería, clínicos y regulatorios necesarios para sostenerlas. Para la mayoría, la pregunta real no es si pueden construir un flujo de trabajo, sino si quieren mantener toda la infraestructura necesaria para soportar docenas de ellos.
Plataformas como Tucuvi existen para aliviar esa carga. Proporcionan el motor de voz, la orquestación, las capas de seguridad, los sistemas de contención clínicos, la monitorización, la documentación regulatoria y las auditorías anuales requeridas para operar de forma segura a escala. Permiten a los equipos desplegar agentes de voz clínicamente validados en semanas en lugar de años, y permiten que el talento interno se centre en la gobernanza, la transformación y la experiencia del paciente en lugar de reinventar repetidamente los mismos fundamentos.
El futuro de los Agentes de IA en el sector sanitario no se trata de elegir entre desarrollar o contratar. Se trata de elegir con inteligencia qué desarrollar y para qué confiar en una plataforma.
Desarrolle donde refuerce la ventaja de su organización. Contrate donde la excelencia requiere innovación constante, madurez regulatoria y un ritmo de innovación que es difícil de sostener para cualquier equipo individual
Y en la IA de voz clínica, el peso de la decisión de contratar aumenta cada trimestre.