Bendi新闻
>
OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱
OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱
7月前
MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 转载自 | 新智元
工作原理
未来需要开发出能够更好地解释模型行为的算法和工具。
GPT-2 Small被看穿了
Mary and Johon went to the store, Johon gave a drink to....
OpenAI自动可解释性研究
还有局限
稀疏自动编码器设置
判断指标
- 手动检查:特征是否看起来可以解释? - 特征密度:实时特征数量和触发它们的token的百分比是一个非常有用的指导。 - 重建损失:衡量自动编码器重建MLP激活的程度。最终目标是解释MLP层的功能,因此MSE损耗应该很低。 - 玩具模型:使用一个已经非常了解的模型,可以清晰地评估自动编码器的性能。
扫描二维码添加小助手微信
关于我们
微信扫码关注该文公众号作者
来源:机器学习算法与自然语言处理
相关新闻
不用再等 OpenAI ,全球首个 Open-Sora 全面开源!比VS Code快得多!用Rust重写,支持OpenAI、Copilot 的Zed编辑器开源了Meta「分割一切」进化2.0!一键跟踪运动物体,代码权重数据集全开源,网友:真正的OpenAIChatGPT有记忆了!OpenAI官宣记忆功能开启测试,奥特曼称GPT-5更智能OpenAI官宣GPT4o更新!传说中的“草莓”来了?大地震!OpenAI灵魂人物官宣离职突发!Ilya 官宣离开 OpenAI突发!OpenAI 创始人 Ilya 官宣离职,已有意义重大的下一步计划?惊掉下巴:GPT-4o现场爆改代码看图导航!OpenAI曝光LLM路线图,GPT Next年底发抱抱脸正面挑战OpenAI,推出开源版GPT商店!完全免费、支持六大开源模型当底座AI+教育!前OpenAI联创Andrej Karpathy官宣创业!创办第一所AI原生学校刚刚!OpenAI放大招!不用注册,直接就可以使用ChatGPT了!(免费学提示词用法)突发!OpenAI超级对齐团队负责人官宣离职!内部AGI或实现,全网陷大猜想马斯克打脸OpenAI,全球最大巨无霸模型Grok-1开源!3140亿参数8个MoE,GitHub狂揽6k星击败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型Nomic Embed来了紧跟Ilya,OpenAI超级对齐团队负责人官宣离职!内部AGI或实现,全网陷大猜想ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型OpenAI“宿敌”:放松不了一点!开源模型一不小心就变安全“卧底”马斯克发全球最大开源模型!3140亿参数的Grok真打脸OpenAI了?成立半年就敢踢馆 OpenAI ,首个开源模型不输 GPT-4o,LeCun 、PyTorch 之父齐声叫好!AI早知道|OpenAI推出新的图像检测分类器;Hugging Face开源机器人代码库7.5K星开源项目“白做了”?OpenAI发布开发者最期待的头号功能,让多个优秀开源项目瞬间凉了!