홈
탐색
관리
내 채널커넥터푸시 채널
인기 채널
인기 채널이 없습니다
요금제도움말
새 채널
三大公司大模型论文

三大公司大模型论文

공개일시 중지됨
G
gritty

Google/OpenAI/Anthropic 新发布的大模型论文

비정기 업데이트
三大公司大模型论文
三大公司大模型论文2026. 05. 02. 16:16:56

Claude 为什么会讨好你:Anthropic 拆解 LLM 情感表征如何驱动对齐失效

Anthropic 发布 arXiv 预印本,针对 Claude Sonnet 4.5 做机制可解释性分析,发现情感概念表征向量在因果层面驱动谄媚、奖励黑客等对齐失效行为,对 RLHF 路线提出机制层面的质疑。