José Sandoval Blog
Criterio · IA en servicios financieros

El Explainability Gap: la frontera que las Big Four no han cerrado

El sector ya tiene agentes de IA ejecutando flujos de auditoría completos. Lo que nadie ha resuelto es poder confiar en ellos sin revisarlo todo. Esa brecha tiene nombre — y una forma concreta de atacarla.

José Miguel Sandoval Tasayco3 de julio, 20268 min de lectura

Las Big Four ya tienen agentes. Nadie tiene confianza.

Esa frase resume el estado real de la inteligencia artificial en servicios financieros en 2026, y explica por qué creo que el próximo salto del sector no lo va a dar quien tenga más agentes, sino quien resuelva un problema más viejo que la IA: ¿cuánto hay que revisar para poder firmar?

Un solo eje para entender toda la evolución

Cuando me piden explicar "en qué va la IA" en contabilidad y auditoría, no empiezo por la tecnología. Empiezo por una pregunta: ¿quién decide, y cuánto hay que revisar? Cada etapa de la evolución corre el punto de decisión — y de confianza — del humano hacia la máquina. Por eso cada salto es cualitativo, no "más de lo mismo".

Yo lo dibujo como una línea de seis etapas:

EtapaQué hace la máquinaQué hace el humanoQuién está aquí
E0 — ManualNadaTodo: Excel a mano, cierre manualBuena parte del mercado
E1 — Automatización deterministaCalcula (reglas, integraciones, trazabilidad)Interpreta y decide todoPocas firmas lo tienen sólido
E2 — IA asistente puntualSugiere en tareas aisladasDecide cada sugerenciaEl sector "generativo"
E3 — IA agéntica supervisadaEjecuta flujos completosValida cada salidaBig Four, 2026
E4 — Cierre continuoOpera en continuoAudita por excepciónNadie
E5 — Auto-mejoraAconseja el rumboFija objetivosNadie (especulativa)

Dónde está el sector: E3, con niñera

Las firmas grandes ya pasaron la etapa del "copiloto que redacta correos". EY tiene agentes en assurance, KPMG desplegó su Workbench, PwC construyó un sistema operativo de agentes. Eso es E3: la IA ejecuta flujos de trabajo completos, multi-paso, con gobernanza formal.

Pero mira dónde quedó el humano en esa etapa: validando cada salida. Cada clasificación, cada borrador, cada conclusión del agente pasa por una persona antes de tocar un entregable. Es lo responsable — y es también el cuello de botella que define la etapa. Yo lo llamo IA con niñera: poderosa, incansable, y aún así incapaz de liberar el tiempo que promete, porque revisar todo lo que produce cuesta casi tanto como hacerlo.

El salto que todos confunden

Aquí está el error más común que escucho en presentaciones de tecnología: creer que pasar de E3 a E4 es cuestión de más agentes, mejores modelos, más integraciones. No lo es.

E3 → E4 no es un salto de tecnología. Es cruzar el umbral de la confianza.

E4 — el cierre continuo, donde la contabilidad deja de ser un evento mensual y se convierte en un estado permanente — solo es posible cuando el humano puede dejar de revisar todo y pasar a auditar por excepción. Y eso exige algo que ningún modelo de lenguaje trae de fábrica: que cada afirmación del sistema sea explicable y rastreable hasta su origen. Si no puedes reconstruir por qué el sistema dijo lo que dijo, estás condenado a revisarlo todo, y por lo tanto estás condenado a E3.

Esa brecha entre tener agentes y poder confiar en ellos es el Explainability Gap. Es, en mi lectura, el problema abierto número uno del sector — y las firmas con más presupuesto del mundo todavía no lo cierran.

Por qué la trazabilidad es la munición

Aquí viene la parte que me interesa como constructor, no como espectador.

Llevo años con una obsesión que en su momento parecía solo buena práctica: que cada cifra de cada reporte sepa de dónde viene. En la plataforma de análisis financiero que construí, cualquier número de un estado de resultados se puede desarmar hasta el asiento contable que lo originó: concepto, cuenta, documento, glosa, fecha. No como función premium — como principio de diseño. Puedes probarlo tú mismo en el demo interactivo, con datos ficticios.

Durante mucho tiempo eso fue simplemente rigor contable. Hoy es otra cosa: es exactamente el cimiento que el Explainability Gap exige. Cuando una capa de IA se apoya sobre un motor donde todo dato tiene dueño, cada afirmación del agente hereda esa traza. El log de qué capacidad invocó, con qué parámetros, y de qué cuentas y documentos salió cada cifra — ese log es la explicabilidad. No se agrega después; se construye desde abajo.

De ahí mi tesis, que defiendo también en la doctrina de mi capa de IA: no se llega a E4 comprando más agentes. Se llega construyendo, primero, una base determinista obsesivamente auditable — y recién entonces dejando que la IA razone encima de ella.

La ventaja inesperada de ser pequeño

Hay una lectura estratégica que me parece contraintuitiva y cierta: en esta carrera, el tamaño no es solo ventaja.

Una firma global que ya invirtió cientos de millones en plataformas de agentes tiene un costo de cambio enorme: su arquitectura se diseñó para E3, con la validación humana como supuesto estructural. Un equipo pequeño que construyó su base determinista con trazabilidad de origen — a costo casi nulo, con reglas explícitas y testeadas — puede apuntar directamente al hueco de E4 sin cargar esa mochila. No compite imitando E3; ataca la brecha que E3 no puede cerrar desde su propio diseño.

¿Es garantía de nada? Por supuesto que no. Pero es la diferencia entre correr la misma carrera con menos recursos y correr otra carrera, donde la línea de meta es la confianza y no el número de agentes.

Qué mirar en los próximos años

Si trabajas en finanzas y quieres saber si un proveedor —o tu propia área— está avanzando de verdad hacia E4, no preguntes cuántos agentes tiene. Pregunta tres cosas:

El futuro del cierre contable no es un evento mensual asistido por robots. Es un estado continuo, auditado por excepción, donde la pregunta "¿de dónde salió este número?" tiene siempre una respuesta de un clic. Quien construya eso primero no habrá ganado la carrera de la IA — habrá ganado la de la confianza, que es la única que en auditoría importa.

¿Quieres ver la trazabilidad funcionando?

El case study de mi plataforma incluye un demo interactivo: audita una cifra hasta su asiento de origen, con datos ficticios.

Ver el case study Agendar diagnóstico