先聊聊这周学了啥,ML和CV的课都讲了attention,ML的课讲的比较浅,但是从内容理解上更容易深入浅出,感兴趣的朋友可以看看这篇介绍:https://jalammar.github.io/illustrated-transformer/,虽然把word embedding莫名其妙拆解成 query, key, value 这些无厘头的玩意儿听起来很扯淡,但它通过大量的trainable parameter 的参数真的实现了近乎完美的数据拟合。然后cv课里面关于这部分的讲解就更细致,而且借由RNN到后面引出其和attention layer的结合的过渡产物,再到最后的transformer,才会明白为什么那篇经典文章“attention is all you need”为什么会叫这个名字,原来是指只要attention了,rnn的这种层层递进的模式可以直接不要了的意思,连同后来基于RNN改造的LSTM这些思路都直接给抛弃了。这起名字的风格还真的和deep learning一个尿性。对了,这个课的课件其实是半公开的感兴趣的朋友可以自行去这里下载:http://6.8300.csail.mit.edu/sp23/lectures/L11/13_Temporal_and_attention.pdf
从RNN到LSTM,再到Transformer,我们可以看到几个规律:1)这种发展是跳跃式的,我们有理由相信今天学的算法会在很短的时间内被改进,然后又会在相对不长的时间内,有巨大的变化,甚至连框架都大改;2)问题和挑战依然还是有很多,其实依然还有很多的技术难题需要去攻克。其实以前有很长一段时间,我一直不明白视觉领域时序问题是怎么去预测的,总感觉挺玄幻的,直到看到课件里这图的时候,才有点恍然大悟。实际上时间轴,真的只是一根稍微有点特殊的轴而已。。。万物皆可图。。。
麻省理工周记(230318):Deep Change & Deep Bias-2.jpg(273.79 KB, 下载次数: 0)