三大公司大模型论文

Claude 为什么会讨好你：Anthropic 拆解 LLM 情感表征如何驱动对齐失效

Anthropic 发布 arXiv 预印本，针对 Claude Sonnet 4.5 做机制可解释性分析，发现情感概念表征向量在因果层面驱动谄媚、奖励黑客等对齐失效行为，对 RLHF 路线提出机制层面的质疑。