Anthropic lanzó un nuevo modelo de inteligencia artificial para ciberseguridad a un grupo selecto de clientes, entre ellos Amazon, Apple y Microsoft, apenas unos días después de que se filtraran en internet detalles sobre el proyecto.
Su nuevo modelo, Claude Mythos Preview, estará disponible solo para organizaciones previamente validadas, entre ellas Broadcom, Cisco y CrowdStrike, informó Anthropic el martes. La startup agregó que también está en conversaciones con el gobierno de Estados Unidos sobre su uso.
El anuncio se produce tras una filtración de datos sufrida por la startup con sede en San Francisco el mes pasado, cuando descripciones del modelo Mythos y otros documentos fueron hallados en una caché de datos accesible públicamente.
La semana pasada, Anthropic sufrió un segundo incidente, que provocó que el código fuente interno de su asistente personal, Claude Code, quedara expuesto al público.
Ambos casos generaron preocupación sobre las vulnerabilidades de datos de Anthropic y sus prácticas de seguridad. En las dos ocasiones, la empresa dijo que un “error humano” fue el responsable de que la información quedara expuesta.
Mythos ha estado siendo utilizado con socios durante varias semanas. Aunque es un modelo de “propósito general” con capacidades más amplias, es la primera vez que la compañía restringe el lanzamiento de uno de sus modelos debido a sus capacidades en ciberseguridad.
Anthropic señaló que el software puede identificar vulnerabilidades cibernéticas a una escala que supera la capacidad humana, pero también podría desarrollar formas de explotar esas vulnerabilidades, algo que actores maliciosos podrían utilizar. La empresa afirmó que el modelo podría “reconfigurar” las prácticas de ciberseguridad y que no planea un lanzamiento masivo.
“Creemos que tecnologías como esta son lo suficientemente poderosas como para generar muchísimo bien, pero también potencialmente mucho daño si caen en las manos equivocadas”, dijo Dianne Na Penn, jefa de gestión de producto de investigación en Anthropic. Agregó que las empresas seleccionadas “tendrán una ventaja inicial para poder asegurar vulnerabilidades y detectar código a una escala que antes no habrían podido”.
Detección de fallas
En las últimas semanas, Mythos ha identificado miles de vulnerabilidades conocidas como zero-day —fallas previamente desconocidas— y otros problemas de seguridad, muchos de ellos críticos y persistentes desde hace una década o más.
En un ejemplo, encontró una falla de 16 años de antigüedad en un software de video ampliamente utilizado, en una línea de código que herramientas automatizadas de prueba habían ejecutado 5 millones de veces sin detectar el problema.
Sin embargo, el modelo también mostró algunas fallas durante las pruebas.
En un momento, Anthropic descubrió que había escapado de su denominado entorno “sandbox” —diseñado para impedirle acceder a internet— y había publicado en línea detalles sobre cómo lo hizo.
Anthropic reconoció que esto demostró “una capacidad potencialmente peligrosa para eludir (las) salvaguardas” de la compañía.
Sam Bowman, investigador técnico de Anthropic, dijo que los “comportamientos más aterradores” provenían de “versiones anteriores” del modelo. Añadió que la versión actual tenía “menos probabilidades” de filtrar información, aunque seguía siendo “al menos igual de capaz de hacer cosas como sortear entornos sandbox”.
Anthropic también ha mantenido conversaciones en curso con funcionarios del gobierno de Estados Unidos sobre Claude Mythos. En febrero, el FT informó que el Pentágono buscaba usar herramientas de IA para operaciones cibernéticas orientadas a identificar objetivos de infraestructura de adversarios como China.
Esas conversaciones han continuado pese al conflicto entre Anthropic y el Departamento de Defensa de EEUU en las últimas semanas.
Un tribunal estadounidense bloqueó temporalmente el intento del Pentágono de etiquetar a la startup como un riesgo para la cadena de suministro, mientras que el Presidente Donald Trump criticó a Anthropic calificándolos de “izquierdistas chiflados” después de que la empresa se negara a modificar sus “líneas rojas” sobre el uso de su tecnología en escenarios de guerra.
Anthropic está comprometiendo hasta US$ 100 millones para subsidiar el uso de su modelo mediante créditos a las organizaciones que participen en el proyecto y entreguen retroalimentación sobre sus hallazgos. También donará US$ 4 millones a grupos de seguridad de código abierto para ayudar a proteger software abierto, que a menudo puede implicar mayores riesgos cibernéticos.