AI郵報

Make Tech Fun. Make Knowledge Flow. Make AI for Everyone.

Latest

Anthropic 最新研究:Claude 擁有「功能性情緒」,影響 AI 行為與安全

Anthropic 最新研究:Claude 擁有「功能性情緒」,影響 AI 行為與安全

Anthropic 可解釋性(Interpretability)研究團隊於 2026 年 4 月 2 日發表重磅論文《Emotion Concepts and Their Function in a Large Language Model》,首度揭示 AI 大型語言模型 Claude Sonnet 4.5 內部存在類似人類情緒的神經表徵,且這些表徵會直接影響模型的行為與決策。 這項研究是目前為止最直接的證據,說明 AI 模型中的「情緒表徵」並非單純比喻或無關痛癢的現象,而是具有因果力量(causal influence)的功能性機制。