Bendi新闻
>
OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱
OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱
3月前
![](https://cdnimg.redian.news/mmbiz_png/XQIcm2zHCNktgyhicnl86bnSDZIx7NUyseN9rGMKrOITqiacGeLhQBOVaIatj7iaenjWSrfWZlhL5bF4d9WYBAqhw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)
MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 转载自 | 新智元
工作原理
未来需要开发出能够更好地解释模型行为的算法和工具。
GPT-2 Small被看穿了
Mary and Johon went to the store, Johon gave a drink to....
OpenAI自动可解释性研究
还有局限
稀疏自动编码器设置
判断指标
- 手动检查:特征是否看起来可以解释? - 特征密度:实时特征数量和触发它们的token的百分比是一个非常有用的指导。 - 重建损失:衡量自动编码器重建MLP激活的程度。最终目标是解释MLP层的功能,因此MSE损耗应该很低。 - 玩具模型:使用一个已经非常了解的模型,可以清晰地评估自动编码器的性能。
扫描二维码添加小助手微信
关于我们
微信扫码关注该文公众号作者
来源:机器学习算法与自然语言处理
相关新闻
不用再等 OpenAI ,全球首个 Open-Sora 全面开源!比VS Code快得多!用Rust重写,支持OpenAI、Copilot 的Zed编辑器开源了ChatGPT有记忆了!OpenAI官宣记忆功能开启测试,奥特曼称GPT-5更智能大地震!OpenAI灵魂人物官宣离职突发!Ilya 官宣离开 OpenAI突发!OpenAI 创始人 Ilya 官宣离职,已有意义重大的下一步计划?惊掉下巴:GPT-4o现场爆改代码看图导航!OpenAI曝光LLM路线图,GPT Next年底发抱抱脸正面挑战OpenAI,推出开源版GPT商店!完全免费、支持六大开源模型当底座刚刚!OpenAI放大招!不用注册,直接就可以使用ChatGPT了!(免费学提示词用法)突发!OpenAI超级对齐团队负责人官宣离职!内部AGI或实现,全网陷大猜想马斯克打脸OpenAI,全球最大巨无霸模型Grok-1开源!3140亿参数8个MoE,GitHub狂揽6k星击败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型Nomic Embed来了紧跟Ilya,OpenAI超级对齐团队负责人官宣离职!内部AGI或实现,全网陷大猜想ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型OpenAI“宿敌”:放松不了一点!开源模型一不小心就变安全“卧底”马斯克发全球最大开源模型!3140亿参数的Grok真打脸OpenAI了?AI早知道|OpenAI推出新的图像检测分类器;Hugging Face开源机器人代码库刚刚,OpenAI 正式驳斥马斯克!称造福人类未必要开源,Ilya 久违发声直逼GPT-4开源模型大泄漏,AI社区炸锅!Mistral CEO自曝是旧模型,OpenAI再败一局?Ilya 官宣新公司,主打“恶意”竞争!先拉不缺钱的技术大佬入伙,不盈利也要赢过 OpenAI !OpenAI大招要来了!AI语音助手狙击谷歌苹果,官宣下周二上新,GPT-5年前见苹果为新 iPad 广告道歉;OpenAI 官宣发布会,无 AI 搜索;李彦宏评璩静事件:优秀员工才代表真实百度 | 极客早知道