设为首页|收藏本站|
开启左侧

[问答] 【经典简读】知识蒸馏(Knowledge Distillation) 经典之作

[复制链接]
5157951#
aa制最合理 发表于 2022-5-4 17:37:19 | 只看该作者
 
你好啊,想请教一个问题:如果teacher net使用全特征来训练(假如说100个特征),但是在线上预测的时候,总有20个特征无法获取,那么我是否可以使用蒸馏的方法来学习一个student net来获得即使输入80个特征也能取得和teacher net差不多的效果呢?
回复 支持 反对

使用道具 举报

 
5157952#
LoveBaby712 发表于 2022-5-4 17:38:13 | 只看该作者
 
感觉3.2上面那块L_soft和L_hard关于z_i偏导的推导应该有问题?原文推导是dL_soft/dz_i=(q_i-p_i)/T,和你给出的结果不相同。在分母的求和里也有出现z_i,不能简单地把分子里的系数乘下来吧
回复 支持 反对

使用道具 举报

 
5157953#
@Xizi_UyQVSi6z 发表于 2022-5-4 17:39:11 | 只看该作者
 
知识蒸馏主要是做模型压缩的。如果特征之间完全独立的话,应该80个特征无论如何也达不到100个特征的效果吧。
[思考]
回复 支持 反对

使用道具 举报

 
5157954#
☆F_cuz☆com 发表于 2022-5-4 17:39:25 | 只看该作者
 
如果回答有误欢迎各位纠正
回复 支持 反对

使用道具 举报

 
5157955#
啊A小镜子 发表于 2022-5-4 17:39:54 | 只看该作者
 
确实有问题,近期会更正,谢谢!
回复 支持 反对

使用道具 举报

 
5157956#
天使之馆 发表于 2022-5-4 17:39:59 | 只看该作者
 
理论上是这样的,还是要看一下实际效果啦~
回复 支持 反对

使用道具 举报

 
5157957#
看好你 发表于 2022-5-4 17:40:19 | 只看该作者
 
您好作者~请问现在3.2上面的公式是已经更正完的嘛?
回复 支持 反对

使用道具 举报

 
5157958#
小窗 发表于 2022-5-4 17:40:36 | 只看该作者
 
刚更正完,哈哈
回复 支持 反对

使用道具 举报

 
5157959#
fxwd·十二号 发表于 2022-5-4 17:41:21 | 只看该作者
 
可以 阿里有一篇文章讲过
回复 支持 反对

使用道具 举报

 
5157960#
xixidonger 发表于 2022-5-4 17:41:57 | 只看该作者
 
可以share一下链接吗
回复 支持 反对

使用道具 举报

 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


0关注

6粉丝

458帖子

排行榜
活跃网友
返回顶部快速回复上一主题下一主题返回列表APP下载手机访问
Copyright © 2016-2028 CTLIVES.COM All Rights Reserved.  西兔生活网  小黑屋| GMT+8, 2024-6-20 02:58