Asistente de datos: por qué el contexto importa más que el modelo

Asistente de datos: por qué un agente sin contexto es un charlatán

–

Asistente de Datos, conocimiento tácito, Context, Contexto, data assistant, Interfaz, language_es, modelo, porqué, why

He estado probando una nueva idea de asistente de datos interno construido alrededor de una idea muy simple y muy potente: en vez de pedirle a un modelo de IA que mágicamente lo sepa todo, le das un workspace curado con el contexto adecuado y conversas con ese contexto en lenguaje natural.

Suena obvio. Intuitivamente debiera funcionar. Y por eso es tan interesante. Pasamos de tomar acciones complejas cuyas razones no acabamos de explicar al 100% para mejorar el rendimiento de los agentes a hacer algo que tiene sentido. Pasamos de ‘poner velas en el altar de la IA para mejorar su rendimiento’ a hacer algo lógico. A veces nos saltamos las cosas obvias mientras corremos, a veces como pollo sin cabeza, en pos de lo que brilla.

Qué es el asistente de datos, conceptualmente

A alto nivel, el AD es una interfaz conversacional que contiene conocimiento tácito, curado y convertido en explícito. Es decir: un sistema en el que el asistente no se apoya solo en lo que el modelo “sabe”, sino en un cuerpo de contexto preparado para un dominio concreto.

En el caso del AD que he estado probando, ese contexto específico está en un workspace. Un workspace le dice al asistente en qué mundo está, qué conceptos importan, qué documentos o conocimiento estructurado debe usar y cómo interpretar la petición del usuario. Dicho de forma más llana: el modelo deja de improvisar en el amplio páramo y empieza a trabajar con mapa.

Y esta idea me gusta mucho porque es conceptualmente limpia. Separa tres cosas que tendemos a mezclar constantemente:

la interfaz donde ocurre la conversación,
el modelo que genera las respuestas, y
el contexto que hace que esas respuestas sean útiles.

Y esto importa porque estamos redescubriendo, una vez más, que el modelo no es el producto. El framing del problema, el contexto, la estructura, las asunciones y la usabilidad de la respuesta importan tanto o más. Los agentes pueden inferir bastante a partir de artefactos, prototipos, código, ejemplos y pruebas. Pero lo que todavía les cuesta inferir de forma fiable es la intención, el porqué y esas reglas no escritas que los humanos comprimimos alegremente en un “ya sabes a qué me refiero”. Esa frase, por cierto, probablemente ha patrocinado más de la mitad de las alucinaciones de Internet.

La probatura

Planteé la prueba desde un dominio deliberadamente simple. O mejor dicho: desde un dominio que parece simple hasta que lo intentas. Eso fue intencional. Cuando pruebas un sistema así con un workspace aparentemente sencillo, enseguida descubres si la simplicidad era real.

Y vaya. El sistema tenía una capa de invisibilidad.

Hacer explícito el conocimiento tácito

El asistente se comportó de forma prometedora. A veces me sorprendió; fue impresionante. Y en otras ocasiones se equivocó de forma muy explicativa. No eran errores aleatorios. No es que el modelo fuera tonto, sino más bien, “¿Y por qué nadie le ha dicho esto?”.

Eso lo cambia todo.

Incluso en un dominio relativamente acotado hay una cantidad sorprendente de conocimiento tácito: reglas, exclusiones, fronteras entre categorías, convenciones interpretativas y pequeñas asunciones “obvias” que no lo son si no vives dentro del sistema. Es decir, el reto no era solo dar hechos al asistente. El verdadero reto era hacer explícito suficiente conocimiento experto implícito como para que el asistente razonara de una forma en la que el usuario pudiera confiar.

Hacer explícitas las asunciones

También observé un segundo patrón. En varios casos, el asistente hacía una asunción razonable, daba una respuesta y luego mencionaba esa asunción en una nota o en un pie de página. Técnicamente eso es mucho mejor que ocultarla por completo. Pero, en la práctica, sigue siendo arriesgado. ¿Por qué? Porque los usuarios escanean. I mean. Escaneamos.

La investigación clásica How Users Read on the Web de Jakob Nielsen mostró que la mayoría de usuarios no leían palabra por palabra, sino que escaneaban buscando información saliente. En 1997 reportó que el 79% de los usuarios escaneaban y solo el 16% leían. Eso ya era así en 1997 y con la sobrecarga informativa y el texto generado por IA no pienso que haya mejorado en absoluto.

Así que cuando un asistente responde primero y aclara sus asunciones después, existe una probabilidad muy real de que el usuario se quede con la respuesta y se salte el matiz. El sistema puede ser transparente en teoría y aun así resultar engañoso en la práctica.

Eso me llevó a una conclusión muy simple: cuando las asunciones afectan materialmente a la respuesta, el asistente debería muchas veces confirmarlas antes de responder, no después. Sí, eso hace que la interacción sea un poco más lenta. Pero más lenta y más fiable gana a la rápida y sutilmente incorrecta.

Busquemos la usabilidad de lectura

Efectivamente. Si el objetivo no es simplemente generar texto sino conseguir que la información aterrice en la cabeza del usuario, la formulación de la respuesta importa. La estructura importa. La saliencia importa. El orden importa. No deberíamos preocuparnos solo por si el asistente “sabe” algo, sino por si lo presenta de una forma que los humanos realmente absorbemos.

Usabilidad de Lectura? Así se llama, sí. Measuring the Usability of Reading on the Web.

Así que la prueba no me hizo pensar “el modelo ha fallado”. Me hizo pensar esto: el workspace es el producto. O, más exactamente, el workspace más las convenciones, los prompts, las asunciones explícitas, las preguntas de evaluación y el proceso de liberación.

Recap en fascículos al estilo Wittgenstein

El conocimiento tácito es el verdadero monstruo debajo de la cama.
- Muchas veces solo lo descubres cuando el asistente se equivoca de una forma que revela una regla ausente, una distinción ausente o un propósito ausente.
La IA sin contexto curado es básicamente una gastadora de tokens con modales.
- Cuanto más listo parece el modelo, más fácil es olvidar que sigue necesitando anclaje.
Las asunciones deberían aparecer explícitas antes de la respuesta, no enterradas después.
- Si se pide confirmación, miel sobre hojuelas.
- Las notas al pie son nobles. Las notas al pie son civilizadas. Las notas al pie también se ignoran con una frecuencia casi deportiva.
Existe una cosa que se llama usabilidad de lectura.
- Cuando la salida de un sistema IA es para un humano o puede ser leída por un humano, esta salida debe de ser adaptada de manera acorde.
Necesitamos un proceso de staging antes de tratar los workspaces de Data Assistants como maduros.
- Si los workspaces se vuelven consultables antes de estar suficientemente probados, corremos el riesgo de crear asistentes confiados pero inmaduros.
- La ownership importa. Un workspace debería tener owner, y ese owner debería ser responsable de su madurez, su cobertura de pruebas, sus límites y la decisión final de “está suficientemente bien para salir”.
En sistemas de IA relacionados con datos, la confianza lo es todo.
- La IA introduce no determinismo, pero el trabajo con datos depende de la confianza. Eso no significa que debamos evitar estos sistemas. Más bien al contrario: creo que los necesitamos. Pero sí significa que debemos ser cuidadosos con la madurez, las pruebas, el framing y la usabilidad.

Así que sí, salí de la prueba entusiasmado. No porque el sistema sea mágico, sino porque no pretende serlo. Apunta en una dirección que me parece bastante más madura: mejor contexto, límites más claros, mejores preguntas y mejor disciplina de liberación.

Y honestamente, eso me encanta.

Spread the word

JOIN us!

Fancy getting RemoteFrog updates? - ¿Quieres estar al día de lo que pasa en RemoteFrog?