设为首页|收藏本站|
开启左侧

[分享] 追寻古老的原始想法

[复制链接]
91073 0
想透气的鱼 发表于 2022-9-3 21:57:32 | 只看该作者 打印 上一主题 下一主题
 
关于受限波尔茨曼机和预训练模型在深度网络中的作用

2006年Hinton在Science发表一篇关于使用RBM技术来预训练多层神经网络,那个时候认为,神经网络初始化非常重要,不好的初始化使得网络容易陷入局部极小点,而一个非常好的初始化技术,能够大大加速网络的收敛进程。该论文在:http://www.cs.toronto.edu/~hinton/science.pdf

追寻古老的原始想法 第1张图片
该论文提出一种使用RBM技术方法,逐层训练多层的神经网络,先训练好一层,然后这一层为新的输入层,训练下一个层,当全部训练完成预训练的层,在使用BP算法,加上监督目标函数,整体微调训练。作者认为,该方法能够大大加速训练进程,并且因为有了一个更好的网络初始化,最终效果会有明显提高。站在今天角度,随着BN、ResNet等网络的发展,该方法开始淡出了人们的视线。今天也有研究表明,例如何凯明的paper,预训练模型作用不大,如果数据足够大的情况下,网络从零开始学习也能达到STOA。整体上Hinton的论文,里面有几个点让我深思。【关于RBM的详细推理后续我再补上(TODO)】。

  • 该方法展示一种前景,这种无监督学习机制,能够让网络自主分离特征,疑问是,我们是否真的需要一个强监督信号,类似contrast learning,让网络尾部的信号监督前面的?能否有种层间优化技术,自主分离特征,类似RBM?如果我们采用层间优化技术,网络是否能够学习到底层-高层分离特征?
  • 如果疑问1能够达成,意味着该网络已经学习得非常好,那么微调会非常简单容易。引出一个问题,是否使用RBM作为预训练模型,和使用其他同等架构下的预训练模型(例如ImageNet上训练的模型),进行微调,那个会收敛更快?当前的技术下,个人认为应该是同等架构下的预训练模型更快。



上一篇:焦虑症要吃药吗?焦虑症断药难受吗
下一篇:健走队的人和事(307)
@



1.西兔生活网 CTLIVES 内容全部来自网络;
2.版权归原网站或原作者所有;
3.内容与本站立场无关;
4.若涉及侵权或有疑义,请点击“举报”按钮,其他联系方式或无法及时处理。
 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

排行榜
活跃网友
返回顶部快速回复上一主题下一主题返回列表APP下载手机访问
Copyright © 2016-2028 CTLIVES.COM All Rights Reserved.  西兔生活网  小黑屋| GMT+8, 2024-5-1 16:32