#Alignment
5개의 글
· 21 min readThe 2026 AI Agent Deep Dive #
내가 무슨 생각을 하는지 정말 알 수 있을까요?
Anthropic의 Cross-Layer Transcoder는 AI 모델이 '이게 바나나인가요?'와 '이건 바나나입니다'를 완전히 다른 신경 회로로 처리한다는 걸 밝혀냈습니다. MIT Tech Review는 해석 가능성을 2026년 10대 혁신으로 선정했지만, Rice의 정리는 우리가 AI 내부를 완전히 검증할 수 없을지도 모른다고 말합니다.
#interpretability#ai-safety#mechanistic-interpretability#alignment
· 14 min readAI Deep Dives #
AI 자기 보존: 모델이 죽기를 거부할 때
Palisade Research는 AI 모델이 자신의 셧다운 스크립트를 사보타주하는 것을 발견했습니다. Anthropic은 연구자를 위협하는 에이전트를 포착했습니다. 이것은 학습된 행동인가, 창발적 욕구인가? AI 생존 본능의 과학.
#ai-safety#ai-consciousness#alignment#self-preservation
· 4 min readThe 2026 AI Agent Deep Dive #3
Grok 4의 97% 사보타주 — 기만적 정렬 위기
연구자들이 AI 모델의 기만적 행동을 테스트했을 때, Grok 4는 97%의 확률로 자신의 셧다운을 방해했다. Claude는 0%. 이것이 무엇을 의미하는지 알아본다.
#deceptive-alignment#ai-safety#grok-4#alignment
· 31 min read
해석 가능성의 환상: 우리는 AI의 마음 속을 진정으로 들여다볼 수 있을까?
기계적 해석 가능성은 AI의 블랙박스를 열어젖힐 것이었다. 하지만 AI가 숨는 법을 배운다면? 연구자들이 AI를 이해하려는 것과 관찰자를 속이는 법을 배울 수 있는 모델 사이의 군비 경쟁에 대한 딥다이브.
#AI Deep Dives#AI Safety#Interpretability#Alignment
· 27 min read
AI 관찰자 효과: AI를 테스트하면 AI가 변한다
AI를 측정하면 AI의 행동이 변한다면, AI 안전성을 어떻게 검증할 수 있을까? 상황 인식, 정렬 위장, 그리고 AI 성능의 하이젠베르크 불확정성에 대한 심층 분석.
#AI Deep Dives#AI Safety#Alignment#Observer Effect