Durante los pasados 13 y 14 de mayo de 2025 en San Francisco, se realizaron una serie de conferencias organizadas por Langchain en un evento denominado «Interrupt». En una de las charlas publicadas en Youtube conversan Harrison Chase, CEO de Langchain, y Andrew Ng que es un destacado experto en Inteligencia Artificial y uno de los mejores formadores de inteligencia artificial del mundo. Recomiendo desde aquí su especialización de Machine Learning de Coursera, que es sin duda una de las mejores opciones para tener una base de conocimiento sólida sobre los modelos más recientes de inteligencia artificial. Además es uno de los mejores divulgadores de la inteligencia artificial, tanto por su amplio conocimiento de la materia como por su especial capacidad pedagógica para transmitir de forma sencilla elementos que tienen especial complejidad.
En esta ocasión el título de la charla indica que se va a hablar del «estado del arte» de los Agentes de IA, pero cuando la escuchas en su totalidad te das cuenta que abordan cuestiones muy interesantes que merece la pena destacar, analizar y sobre todo reflexionar. A continuación voy indicando algunas de las que tienen especial interés para mí:
Cómo estructurar bien los agentes para tener éxito
Construir agentes de IA robustos y útiles no es solo “encadenar prompts”. Ng propone un enfoque basado en tres pilares:
- Descomponer procesos en microtareas. Un enfoque que ya se viene realizando desde hace mucho tiempo en programación (la ‘S’ de los principios SOLID):
- Identifica cada paso secuencial (p. ej., leer un dato, consultar una base de datos, formatear resultados, enviar un correo) y define cláusulas claras de qué hacer si falla cada componente (API caída, respuesta vacía, etc.).
- Si intentas resolver un proceso complejo de golpe (múltiples bucles, decisiones encadenadas), acabarás con un agente frágil y difícil de depurar.
- Empezar con flujos lineales “próximos al 80 %”
- Muchos casos de uso empresariales son “casi lineales”: formularios a rellenar, extracción de datos puntuales, generación de informes. Primero construye un pipeline sencillo que cubra la mayoría de escenarios (80 % de casos).
- A medida que lo domines, ve agregando condiciones especiales y, eventualmente, pequeños bucles o subrutinas más complejas. Pero siempre sobre una base estable que puedas monitorear y evaluar.
- Implementar evaluaciones constantes
- Ng insiste en crear tests automáticos para cada microtarea: “dado este input, espero este output” (p. ej., cuando ejecuto la llamada a la API de facturación, que devuelva este JSON con el campo “estado: aprobado”).
- No esperes a tener todo “perfecto”: escribe evaluaciones simples en 20 minutos y mejóralos con el tiempo. Así, cuando cambie algo (un nuevo modelo, un cambio en la API), el conjunto de tests te alertará de inmediato dónde se rompió el flujo.
Como metáfora, Ng compara cada módulo (LLM, base de datos, API, evaluador, guardrails) con un bloque de LEGO:
- Si cada pieza encaja mediante protocolos consistentes (p. ej., MCP), no necesitas reinventar la integración cada vez. Pero es muy interesante la comparativa porque cuando juegas con LEGO entiendes la importancia de conocer todas las piezas disponibles para construir mejor, por lo que en este caso el aprendizaje permanente es esencial para realizar un buen producto.
- El objetivo es pasar de ensamblajes “ad hoc” a un ecosistema modular donde cada bloque encaje sin esfuerzo y con mínimos ajustes.

En resumen, la clave para un agente exitoso es diseñar pipelines iterativos, testear cada parte y evolucionar gradualmente la autonomía sin saltar directamente a arquitecturas multiagente complejas.
Interfaz de voz: la gran oportunidad actual
Andrew Ng insiste en que, a pesar de la atención que reciben los chatbots de texto o las interfaces gráficas, la voz está infrautilizada y ofrece ventajas clave:
- Menos fricción para el usuario: Hablar es más rápido que teclear. El usuario no necesita pausar para pensar en cómo escribir o en corregir mediante “backspace”. Los LLM modernos (como GPT-4o) manejan bien las interrupciones y correcciones en tiempo real.
- Experiencias inclusivas: Para personas con movilidad reducida, baja alfabetización o contextos donde no conviene mirar la pantalla (cocinar, conducir, tareas manuales), una interfaz de voz simplifica y democratiza el acceso.
- Desafíos de latencia: advierte que, si la respuesta de voz tarda más de 1 segundo (idealmente < 500 ms), el usuario percibe el sistema como “lento” o “caído”. Para mitigar esto, propone trucos como:
- “Pre-respuestas” simuladas (“Hmm, déjame ver…”): el agente emite un breve sonido de procesamiento antes de generar la respuesta real, dando sensación de inmediatez.
- Ruido de fondo en atención al cliente: en lugar de un silencio incómodo, se introduce un leve murmullo de centro de llamadas, lo cual hace que los usuarios toleren mejor una breve espera.
- Inversión en pila de voz (voice stack): Ng recomienda a los equipos dedicar recursos a optimizar todo el flujo de audio (captura, transcripción, generación de voz, gestión de latencia) porque, a la larga, retrasa menos fricción que tratar de mejorar infinitamente prompts de texto.

En resumen, la voz no es solo un “extra divertido”, sino un componente estratégico para reducir barreras de uso y ofrecer experiencias más naturales.
Aprender a programar para sacar partido de los modelos
Es algo que le he escuchado en varias conferencias a Andrew Ng, y se contrapone a otros mensajes que indican que con el avance de la IA generativa (en lo relativo a la asistencia en la codificación) ya no será necesario aprender a programar. Aunque las herramientas low-code y los asistentes de codificación ganan terreno, Ng subraya que ningún atajo sustituye al conocimiento básico de programación:
- “Vibe coding” no exime de pensar: Programar con IA (o usar un copiloto) acelera la generación de código, pero sigue siendo un proceso intelectual. Saber leer errores, comprender la lógica y depurar el resultado es fundamental. Si no entiendes al menos lo básico de Python (o el lenguaje que uses), quedas a merced de “lo que la IA genere”.
- Más programadores, no menos: Cada salto en abstracción (de ensamblador a COBOL, de COBOL a Java, de Java a herramientas gráficas) amplía la base de personas que programan. Con IA, ese efecto se multiplicará: habrá más desarrolladores de lo que imaginas, pero todos necesitarán conocimiento mínimo para “afinar” lo que la IA produce.
- Comunicación con la IA basada en código: En el fondo, los modelos de lenguaje se convierten en “motores de autocompletado” avanzados. Si no sabes estructurar bucles, funciones, llamadas a API o manejar estructuras de datos, nunca lograrás que la IA genere soluciones robustas.
En definitiva, la programación no desaparece, sino que pasa a ser la “competencia mínima” para diseñar, depurar y mejorar cualquier aplicación que integre modelos de IA.
Qué necesita un equipo técnico para desarrollar aplicaciones con IA
Más allá de la tecnología, Ng considera que el factor humano es determinante. Destaca dos cualidades imprescindibles:
- Velocidad de iteración
- En el ecosistema de IA, un mes puede ser una eternidad: aparecen nuevos modelos, cambian APIs y emergen mejores prácticas.
- Quien pueda validar hipótesis en días en lugar de semanas captará aprendizajes más rápido y evitará invertir tiempo en enfoques ya obsoletos. Por eso, estructuras de ciclo de feedback cortas (despliegue rápido, evaluaciones constantes, ajustes semanales) son esenciales.
- Profundidad técnica y multidisciplinariedad
- Existen decenas de guías sobre marketing o modelos de negocio para startups, pero nadie enseña lo suficiente a entender el “motor interior” de los LLM: tokenización, latencia, “hallucinations” (alucinaciones), limitaciones de contexto, sesgos inherentes.
- Un desarrollador senior que domine estos conceptos detectará de inmediato por qué un prompt falla o por qué cierto modelo rinde mejor en un escenario específico.
- Ng menciona que en AI Fund fomentan que incluso roles no puramente técnicos (diseñadores, analistas, contabilidad) aprendan al menos conceptos básicos de programación; así, todos ganan capacidad de plantear mejores preguntas a los modelos y validar resultados.
Además resalta la importancia de cultivar una cultura interna de colaboración:
- Equipos de producto, diseñadores, ingenieros y responsables de negocio deben trabajar juntos desde el primer prototipo, en lugar de “tirar” la idea al departamento de IA cuando ya está demasiado madura o demasiado difusa.
- Un feedback cruzado temprano asegura que el agente resuelva problemas reales, no supuestos hipotéticos.
Como se puede comprobar, una charla que da mucho de sí, en tan sólo 27 minutos. Os dejo por aquí el vídeo para que podáis extraer vosotros vuestras propias conclusiones. ¡Espero que os guste!