麻省理工周记（221204）： NN在淘汰其他算法

enter12356789 · 发表于 2022-12-5 07:18:40

转眼学期也就剩下两周了，不能说时间过的真快，而是太快了。或许因为离开学校很久了，自己经常被问是否还适应校园生活，至少我在回来之前已经忘记了这极快的教学节奏了——9月7号开学，到12月17号最后一个ddl结束，中间的时间其实只有3个月整，而且减去各种放假，真正上课的时间其实非常有限，而在这段有限的时间里，自己要完成不小的学业工作量，其实一点也不轻松。
这周我发现线代和AI的课都讲到了早年比较流行的Word Embedding的，两边分别用不同的角度讲了同样的一个算法，侧重点不同。线代会着重讲一下Word Embedding怎么用PCA来实现分解，AI那边则是讲了方法的演变，以及一直在探讨的一个核心问题“到底怎样才算能让机器搞的有智慧一点“。
联想起早年在开公司的时候，有一次一个项目需要做大量的语意义和图像的匹配，然后当时对于语言的匹配一筹莫展，最后经过指点用word2vec这一方式去实现了。当时的自己对于文字的这种骚操作就想当然的以为它和图像是一样的原理，甚至自己傻乎乎的以为词向量就是把一个词分解为一个高维向量，和CNN是一个样的思路。殊不知，处理语言的方式其实完全不是这么一回事，它其实是在研究词与词之间的关系。不得不说发明出这思路其实很有效，而且从大致逻辑上来说，世界语言在这一个思路上是可以通用的，因为语言绝大部分是线性的。当然有些语言肯定还有比较麻烦的操作，比如中文需要先分词，因为单个的中文字并不等同于word。关于word embedding，两边都提到了这篇里程碑式的文章：King – Man + Woman = Queen，(但是查了一下paper原文，citation并不高，才100多)然后说了很多抓眼球的结论，比如利用这种简单粗暴的方法，可以找到各种很有趣的组合，比如 paris – france + poland = warsaw（这里肯定不是相等，应该只是接近），但我自己的看法是这方法是挺不错的，只不过这些组合的出现有一定的巧合。毕竟在一个线性空间里，任意给定的几个向量总能通过特定的系数组合去接近另一个向量，而不同的是在于系数的选择，这里比较抓眼球的是它的几个系数不是1就是-1，所以当老师写出这个式子的时候，很多人会以为 “paris – france + germany = Berlin“，但其实结果是等于一个德国的银行的名字，可见这玩意儿并没有那么智能。

麻省理工周记（221204）： NN在淘汰其他算法第1张图片

chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://arxiv.org/pdf/1509.01692.pdf

顺带说一句，感觉这个词向量空间的方法在过去那阵子其实也蛮风靡的，虽然类似PCA的这种方法很老，但是随着大数据在不同行业的出现用在很多以前想都想不到的地方都可以work，比如那个基因分分解出欧洲地图的文章的，直接上了Nature。https://www.nature.com/articles/nature07331

麻省理工周记（221204）： NN在淘汰其他算法第2张图片

又比如早年NewFlix的电影推荐，也是搞了个和word embedding一样的matrix，然后用SVD来分解计算https://pantelis.github.io/cs301/docs/common/lectures/recommenders/netflix/，充分感觉经典算法充满了智慧。这周的AI课另一节是一个CV的老师Bill Freeman来科普了一下CV的入门，其实当他讲到12年AlexNet横空出世之后，挺无奈的，他说神经网络这一套路子实在是过于好了，直接导致它把其他的算法全部都消灭了。看得出来他在激动技术进步的同时，也在感叹算法世界的弱肉强食，我们不知道这样是好事，还是会有隐患。另一个比较难过的点在于，这个算法在更大的数据、更powerful的硬件加持下，就能提升，这就听起来不太对。期间还有学生问有没有对数据上限做过预估，比如当数据上限达到多少的时候，它这种识别能力的提升效用开始下降，老爷爷听完沉思了一会儿，默默说到他自己没有看到过这方面的研究，他觉得目前人类也还不知道这个上限在哪里，甚至是否存在这个上限。
当然，关于NLP其实后来出现的GPT3这些变态已经远超这些“过时”的玩意儿了。人们甚至为了研究计算机是不是真的懂语言，开发了GLUE这种测试，这看起来其实和ImageNET是一个道理。为了消除internal bias，后面还开发了super GLUE，但搞笑的是，更高更快更强的model依然一下子又爬升到了榜单的头部。或许在更大的数据，更强的算力的加持下，提高精度已经变得不像以前那么困难了。
https://www.quantamagazine.org/machines-beat-humans-on-a-reading-test-but-do-they-understand-20191017
除了这个word embedding，另一个同样两边出现的内容是SVM。我们上课的老师那天说，我们是全美仅有的两个学校上课还教SVM算法的了，能赶上末班车了解这种朴素的工具，gutter boundary，support vectors，说实话我觉得还挺好的。写到这里我把本周的标题改了，因为我觉得如果把算法的世界当成是一个动物世界的话，那么Neural Network在算力和海量数据的加持下，正在肆虐屠戮其他的各种算法，以后或许现在已经是不需要这些算法了。
是不是年纪大的人比较容易怀旧？还是只是因为他们年纪大了，各种忙碌之后没有时间接触新一代的事物，所以他们停留的记忆只愿意让他们为唤起过去回忆的怀旧产品买单。世界杯迎来了诸神黄昏的一站，这帮老家伙们似乎在最后一次的狂欢之后就要各奔东西了，希望他们走的时候开心点（比如梅老板昨天就开心了），希望各位大佬别搞的太伤感。
另外昨天灌篮高手上映了，看了几个泄漏（偷拍不好）的片段，非常燃。可以说这就是井上想要真正表达的，相反网上不断有人吧这个电影和老版tv的背景音乐和在一起，反而让如此有连贯性和张力的画面掉价很多。
anyway，move on.

上一篇：机器人自己造自己，像搭积木一样轻松 | MIT
下一篇：不甘于波士顿动力的硬件平台，这家顶尖机构自主研发的人形 ...

dzh狮子座 · 发表于 2022-12-5 07:19:30

作为一个生物领域的学生其实看到您的文章挺有启发，生物这边现在能发好文章且效果更好的模型很多也都是NN了，所以学习的时候也经常会纠结，要不要学一下传统的算法，一方面考虑有时间成本，另一方面怕只知道NN会成为若干年后的泡沫[捂脸]

小七127 · 发表于 2022-12-5 07:20:28

现实请况就是所有行业都走到这条窄路上了，是挺无奈的，我觉得有条件的话还是要系统的学一下经典算法，神经网络并不是终极解答

白金会员	积分	兔币	帖子
白金会员, 积分 3588, 距离下一级还需 1412 积分	3588	1955	1635
在线时间：0 小时	最后登录：2024-2-8

白金会员	积分	兔币	帖子
白金会员, 积分 3338, 距离下一级还需 1662 积分	3338	1824	1514
在线时间：0 小时	最后登录：2023-10-18

白金会员	积分	兔币	帖子
白金会员, 积分 3313, 距离下一级还需 1687 积分	3313	1830	1483
在线时间：0 小时	最后登录：2023-10-7

[问答] 麻省理工周记（221204）： NN在淘汰其他算法

精彩评论2

MSI入围赛官宣比赛时间，TES首秀对手确定，

重庆环线地铁口某高价楼盘翻车，外墙被业主

解放军军演之际，缅甸反叛军打着“投诚”旗

莫兰德6场，坑苦了杨鸣！CBA将出重磅罚单，

浪5初舞台：柳岩苗苗输给韩雪小向太，在资

特斯拉新款Model 3高性能版中国定价公布：3

布林肯到了，但请打消“施压要价”的念头

2024年4月的广东特大暴雨，到底有多大有多

43岁柳岩首度公开童年旧照，少女时期清纯靓

青岛男童被武术教练打死，父亲称孩子妈已崩

美军中导部署中国家门口，射程覆盖陕西，警

“木头姐”谈特斯拉目标价，说对了吗

巴勒斯坦“入联”遭美阻挠，联合国一票否决

“浪姐”观众爆料MISS被针对：人气稳居前3

郊区房价虽然便宜，但是买房时距离市中心，

出口了却无法收款，卢布跌至2023年10月以来

别人黑他没有成绩，他将世界冠军打成背景板

迪拜暴雨被指系“人祸”，风暴来前还执行了

预测周内冲上3100！

德国海军“黑森”号护卫舰结束红海任务返航

主角脸对女演员有多重要？看《无限超越班》

陈震：出于礼貌和雷军的合影2月就删了，现

20岁谷爱凌惊艳颁奖礼，穿“黄金战袍”气场

花费53万竞买法拍房，拖延近一年多难收房;

用上大疆的换代迈腾成本涨7千，但智驾比特

轰20很快对外公布，台中将：轰20完全隐形，

不许对台军售！以往是美制裁中国，中方首次

美国突然全国变黑，NASA卫星紧急对准！分析

大算力芯片，正在拥抱Chiplet

我老公是国足！球员妻子开保时捷撞车后打人

财神驾到

绿林道的

一抹伤

哇哇的哭

冷香丸