↓Skip to main content

Mechanistic Interpretability

2024

単語分散表現モデルの埋め込み空間を用いた概念間探索手法の構築と大規模言語モデルの機械論的解釈可能性への応用

September 2024

Concept Exploration Word Embeddings LLM Mechanistic Interpretability

Word2Vec（chiVe）による青空文庫の構造分析と，SAEによるLLM内部の特徴量探索の2アプローチで概念間の関係を可視化