El Mito Antrópico 5 que estuvo marginado durante tanto tiempo ha recibido luz verde para su regreso

Después de semanas de negociaciones con la administración Trump, Anthropic finalmente podrá volver a poner en línea Claude Fable 5. en Compartir en XAnthropic dijo que planea comenzar a restaurar el acceso el miércoles para los usuarios de todo el mundo en las plataformas Claude, y que la compañía volverá a habilitar el acceso a AWS, Google Cloud y Microsoft Foundry pronto, pero sin un cronograma específico.

Hemos recibido una notificación de que el Departamento de Comercio ha levantado los controles de exportación de Claude Fable 5 y Mythos 5.

Comenzaremos a restaurar el acceso mañana y pronto compartiremos una actualización.

Agradecemos a nuestros usuarios por su paciencia y a todos los que trabajaron con nosotros para volver a publicar los modelos.

La empresa también publicó A Publicación de blog El martes por la noche se detalla el período previo a los eventos en cuestión, las salvaguardias revisadas, los nuevos procesos de IA en los que está trabajando la industria y las nuevas formas en que planea compartir información con el gobierno, así como las pruebas previas de los próximos modelos.

A principios de junio, Anthropic dejó de lado a Fable 5, su modelo orientado al consumidor construido con la misma tecnología central que Mythos 5 de Anthropic, pero con más salvaguardias, luego de un ultimátum de la administración Trump el viernes por la noche. Dadas las preocupaciones sobre posibles fugas de la tecnología, el gobierno emitió una directiva de control de exportaciones a Anthropic, prohibiendo a cualquier ciudadano extranjero (incluidos los miembros no estadounidenses de las empresas clientes de las organizaciones e incluso muchos empleados de Anthropic) usar Mythos 5 o Fable 5, es decir, ambos modelos que Anthropic ha pasado la semana pasada promocionando.

Dadas las preocupaciones sobre posibles fugas, el gobierno ha impuesto una directiva de control de exportaciones a Anthropic, que afecta a ambos modelos que Anthropic ha pasado la semana pasada promoviendo.

Para abordar el jailbreak en cuestión, que los investigadores de Amazon señalaron que fue en gran medida responsable de activar la Directiva de Control de Exportaciones, Anthropic dijo en la publicación del blog que había «entrenado un clasificador de seguridad mejorado que apunta y bloquea» este comportamiento, y agregó: «Los usuarios serán notificados si se bloquea una solicitud a Fable 5, y la solicitud en su lugar se enviará a Opus 4.8. El nuevo clasificador significa que la técnica específica descrita en el informe de Amazon está bloqueada en más del 99% de los casos».

La administración Trump recientemente dio luz verde para el regreso de Mythos 5, pero solo a la lista de organizaciones previamente aprobadas. Fuera de EE. UU. A los miembros de esas organizaciones, así como a los empleados extranjeros de Anthropic, se les ha permitido recuperar el acceso al modelo. La decisión se produjo poco después de que OpenAI presentara GPT-5.6, que la administración Trump solo había permitido debutar bajo reglas similares: una implementación escalonada, inicialmente solo para una lista previamente aprobada de organizaciones y departamentos gubernamentales.

El martes, Anthropic escribió que la compañía «continuará coordinándose con el gobierno para ampliar el acceso a una gama más amplia de socios nacionales e internacionales» para Mythos 5. La compañía también incluyó una sección completa en su blog sobre su nuevo plan para trabajar más estrechamente con la administración Trump, destacando sus muchos intentos de recuperar la buena voluntad del gobierno después de meses de drama público, demandas y acciones presidenciales.

La compañía escribió que planea proporcionar “acceso gubernamental y evaluación previa al lanzamiento”, especialmente para modelos relevantes para las capacidades de seguridad nacional, de modo que los socios gubernamentales puedan realizar evaluaciones independientes de las capacidades de los modelos y probar las barreras de seguridad antes de un lanzamiento más amplio. (El gobierno también tendrá acceso al personal técnico de Anthropic durante los períodos de prueba previos al lanzamiento). Anthropic dijo que también planea ofrecer «intercambio rápido de información» cuando «se identifiquen fugas o patrones significativos de abuso».

Dijo que trabajaría con el gobierno y otros laboratorios de inteligencia artificial líderes para crear un «estándar de evaluación y seguridad común y voluntario para proveedores de modelos fronterizos». Finalmente, Anthropic dijo que «formará equipos Anthropic dedicados para trabajar en prioridades gubernamentales compartidas, proporcionará una importante asignación informática para respaldar las pruebas e investigaciones gubernamentales y pondrá a disposición nuestra experiencia en seguridad y equipo rojo para ayudar a avanzar en la evaluación de IA de última generación».

Anthropic dijo que trabajará con el gobierno y otros laboratorios de inteligencia artificial líderes para crear un estándar común «voluntario» de seguridad y evaluación.

La directiva inicial de control de exportaciones de la administración Trump llegó en un momento inoportuno para Anthropic, mientras se prepara para una oferta pública inicial y ha estado discutiendo con el gobierno durante meses sobre la identificación de riesgos en la cadena de suministro.

La compañía destacó en la publicación del blog que “actualmente no hay consenso en la industria de la IA” para decidir sobre el riesgo de jailbreak, un problema que “se agudizará en los próximos meses, a medida que se capaciten, evalúen y lancen más modelos con sólidas capacidades de ciberseguridad (y otras)”. Así que dijo que se ha asociado con Amazon, Microsoft, Google y otras organizaciones que forman parte de su programa Proyecto Glasswing para formular un marco ampliamente acordado para evaluar los jailbreaks de IA, con cuatro categorías sugeridas: la ganancia de capacidad del atacante, la amplitud de la ganancia de capacidad del atacante, la facilidad de uso de armas en términos más amplios y la capacidad de descubrimiento (o qué tan fácil es para otra persona replicarla). Anthropic dijo que también ha creado un nuevo equipo para «proporcionar monitoreo las 24 horas del día, los 7 días de la semana, de los canales clave de envío de jailbreak» y también lanzará pronto el programa HackerOne para que los investigadores envíen posibles jailbreak sobre los que informan en Fable 5.

Anthropic también incluyó un descargo de responsabilidad en su publicación de blog, escribiendo que «probablemente sea imposible hacer cualquier modelo de IA completamente robusto (es decir, impermeable) a los jailbreaks. Esperamos que se encuentren algunos jailbreaks para nuestros modelos, y que variarán en severidad: habrá muchos jailbreaks simples, algunos maliciosos y limitados, y aunque no se han descubierto jailbreaks globales para Fable 5 al momento de escribir este artículo, los investigadores expertos en seguridad continúan reconfigurando el equipo».

Seguir temas y autores De esta historia para ver más como esto en el feed personalizado de su página de inicio y recibir actualizaciones por correo electrónico.

Haydenfield

Enlace a la fuente