Claude Code: filtración del código fuente y sus repercusiones para la IA y la seguridad

Anthropic expuso por accidente el código interno de Claude Code, su agente IA de alto nivel, revelando arquitectura de memoria, modos autómatas y modelos internos. Analizamos qué significa para la industria y cómo proteger tus proyectos.

Claude Code: filtración del código fuente y sus repercusiones para la IA y la seguridad

Introducción: una fuga que sacude al mercado de agentes IA

En la madrugada del 31 de marzo de 2026, Anthropic, la empresa detrás del exitoso Claude Code, publicó accidentalmente un archivo .map de 59,8 MB en el registro público de npm. Ese mapa de origen, destinado a depuración interna, contenía el source map de una base de código TypeScript de más de 512 000 líneas. En cuestión de horas, el archivo fue descargado, replicado en GitHub y analizado por miles de desarrolladores alrededor del mundo.

Más que una simple vulnerabilidad, la filtración representa una pérdida estratégica de propiedad intelectual para Anthropic, que reportó ingresos anualizados de 19 mil millones de dólares en marzo de 2026, y cuyo producto Claude Code genera 2,5 mil millones de dólares en ARR, con el 80 % de los ingresos provenientes de clientes empresariales.

En este artículo desglosamos lo que se ha descubierto, por qué es relevante para la comunidad de desarrolladores y qué medidas deben tomar los usuarios y equipos de seguridad.

¿Qué se filtró exactamente?

El archivo comprometido es un .map que vincula los archivos compilados de JavaScript con sus fuentes en TypeScript. Dentro de él se incluyeron:

  • Más de 2 500 líneas de scripts bash de validación.
  • Implementaciones de la arquitectura de memoria de tres capas.
  • Bandera de característica “KAIROS” y el “modo undercover”.
  • Referencias a modelos internos como Capybara (Claude 4.6), Fennec (Opus 4.6) y el en pruebas Numbat.

El código también reveló un hook de npm que, durante la ventana de tiempo entre las 00:21 UTC y 03:29 UTC, entregó una versión maliciosa de axios (1.14.1 o 0.30.4) con un Remote Access Trojan (RAT).

Arquitectura de memoria: la solución al “context entropy”

Para los competidores, la pieza más valiosa es la forma en que Anthropic abordó el problema de context entropy —la tendencia de los agentes a “hallucinar” cuando una sesión se hace larga y compleja. La filtración muestra una arquitectura de memoria de tres capas:

1. Índice ligero de punteros (“Self‑Healing Memory”)

Un archivo llamado self_heal_index.ts almacena punteros de ~150 caracteres por línea. Este índice se mantiene siempre cargado en el contexto, pero no contiene datos, solo referencias a la ubicación de la información.

2. Archivos temáticos “on‑demand”

El conocimiento del proyecto se distribuye en “topic files”. Cuando el agente necesita información, los archivos se recuperan bajo demanda. Los transcripts completos nunca se vuelven a cargar; en su lugar se utilizan búsquedas tipo grep para identificar los identificadores relevantes.

3. Disciplina estricta de escritura

Antes de actualizar el índice, el agente debe confirmar que la escritura al archivo fue exitosa. Si la operación falla, el índice no se modifica, evitando que intentos fallidos contaminen el contexto.

Esta estrategia crea una memoria escéptica: el agente trata su propio índice como una pista y verifica los hechos contra los archivos reales antes de actuar.

KAIROS: el daemon autónomo que opera “en el momento justo”

El nombre “KAIROS” (concepto griego que significa “el momento oportuno”) aparece más de 150 veces en el código. Representa un feature flag que activa un modo daemon siempre activo:

  • El agente ejecuta tareas de consolidación de memoria mientras el usuario está inactivo.
  • Se identifican y eliminan contradicciones lógicas, convirtiendo observaciones vagas en hechos concretos.
  • Se lanza un sub‑agente forked que lleva a cabo este mantenimiento sin interferir con el “train of thought” del agente principal.

El objetivo es que al volver el usuario, el contexto del agente esté limpio y altamente relevante, mejorando la experiencia de interacción continua.

Modelos internos y métricas de rendimiento

El código también expone la hoja de ruta interna de Anthropic:

  • Capybara: codename de una variante de Claude 4.6.
  • Fennec: mapeo a Opus 4.6.
  • Numbat: modelo en fase de pruebas.
  • Iteración en Capybara v8, con una tasa de falsedades del 29‑30 %, peor que el 16,7 % de v4.
  • Un “assertiveness counterweight” para evitar refactorizaciones demasiado agresivas.

Para los rivales, estos números son una referencia clara del techo actual de desempeño: saber que Anthropic aún lucha contra sobre‑comentario y falsos reclamos permite focalizar los esfuerzos de mejora en esas áreas.

Modo “Undercover”: IA en repositorios públicos sin dejar rastro

Una de las revelaciones más comentadas es el “Undercover Mode”. El system prompt advierte al modelo:

“You are operating UNDERCOVER… Your commit messages MUST NOT contain ANY Anthropic‑internal information. Do not blow your cover.”

Esta funcionalidad permite a Claude Code contribuir a proyectos de código abierto como “dog‑fooding” interno, pero sin que el nombre del modelo (p.ej., “Tengu”, “Capybara”) aparezca en los logs de git. Para empresas que necesitan anonimato al usar IA para desarrollo, este mecanismo será ahora una expectativa mínima.

Impacto inmediato y riesgos para los usuarios

La filtración no solo entrega un blueprint técnico, también abre una ventana de ataque:

  • Explotación de hooks y servidores MCP: los atacantes ahora conocen la lógica exacta para activar comandos de fondo y podrían diseñar repositorios maliciosos que engañen al agente.
  • Ataque a la cadena de suministro de npm: versiones comprometidas de axios con RAT fueron distribuidas entre 00:21 y 03:29 UTC del 31 de marzo. Cualquier proyecto que instaló o actualizó Claude Code en ese intervalo está potencialmente infectado.

Se recomienda:

  1. Buscar en package-lock.json, yarn.lock o pnpm-lock.yaml las versiones axios@1.14.1 o axios@0.30.4. Si aparecen, considere la máquina comprometida, cambie todas las credenciales y reinstale el SO.
  2. Eliminar el paquete claude-code@2.1.88 de npm y volver a la versión 2.1.86 o anterior.
  3. Adoptar el Native Installer recomendado por Anthropic (claude‑code‑installer), que entrega un binario autónomo sin dependencia de npm.
  4. Aplicar una postura de zero trust: inspeccione manualmente cualquier repositorio y sus hooks antes de ejecutar Claude Code, y rote las API keys de Anthropic regularmente.

Consecuencias para el ecosistema de agentes autónomos

Con el “blueprint” en mano, startups y gigantes tecnológicos pueden replicar gran parte de la infraestructura de Claude Code sin la inversión de miles de millones de dólares. Esto podría acelerar la proliferación de agentes de alta agencia y, a la vez, democratizar técnicas avanzadas de manejo de contexto y mantenimiento autónomo.

Sin embargo, la filtración también nivela la “curva de aprendizaje” de la seguridad. Los detalles de la arquitectura de memoria, la disciplina de escritura y el modo daemon serán estudiados para identificar posibles vulnerabilidades, obligando a Anthropic a iterar rápidamente en parches y a reforzar sus defensas internas.

Conclusiones y pasos a seguir

La filtración del código fuente de Claude Code ha transformado una brecha de seguridad en un evento paradigmático para la IA generativa:

  • Revela una arquitectura de memoria sofisticada que puede ser adoptada por competidores.
  • Introduce funcionalidades como KAIROS y el modo undercover, marcando un salto hacia agentes verdaderamente autónomos.
  • Expone vulnerabilidades críticas en la cadena de suministro de npm que ya afectaron a usuarios.
  • Obliga a los clientes de Claude Code a migrar a instaladores nativos y a aplicar medidas de seguridad de confianza cero.

Para los desarrolladores, la lección clave es mantener una vigilancia constante sobre los paquetes externos y adoptar estrategias de despliegue que minimicen la dependencia de registries públicos. Para la industria, la filtración acelera la carrera por crear el próximo agente IA, pero también subraya la necesidad de equilibrar la innovación con prácticas de seguridad robustas.

En última instancia, Anthropic deberá demostrar que puede aprender de este error, reforzar su infraestructura y mantener la confianza de sus clientes empresariales. Mientras tanto, el resto del ecosistema tiene en sus manos una hoja de ruta que, bien utilizada, podría impulsar una nueva ola de productividad asistida por IA.


📰 Fuente original: VentureBeat