Facebook爆锤深度度量学习该领域13年来并无进展!网友沧海横流方显英雄本色

近日,Facebook AI 和 Cornell Tech 的研究人员近期发表研究论文预览文稿,声称近十三年深度度量学习(deep metric learning) 领域的目前研究进展和十三年前的基线方法(Contrastive, Triplet) 比较并无实质提高,近期发表论文中的性能提高主要来自于不公平的实验比较, 泄露测试集标签,以及不合理的评价指标。

也就是说:新出的ArcFace, SoftTriple, CosFace 等十种算法与十三年前的依赖成对或成三元组的损失函数并没有本质上的区别。

调整度量指标:建议用MAP@R来做平均精度,因为它结合了MAP(Mean Average Precision)和R精度( R-precision)。劝退?不,沧海横流,方显英雄本色!

在指出问题的同时,FB和康奈尔的研究员自然也指出了改进建议,针对上述三个缺点建议进行公平比较和重复性实验、通过交叉验证进行超参数搜索、采用更加准确的信息性、准确性度量。

3丨新冠疫苗二期试验招募志愿者:需要500人,引入安慰剂对照组

经过14天的居家隔离后,他表示自愿捐献血浆,帮助更多新冠肺炎患者。刘占昆 摄

度量学习试图将数据映射到一个嵌入空间,在这个空间中,相似的数据靠得很近,类型不同的数据离的很远。而映射的方式可以通过嵌入损失和分类损失实现,这两种方式各有特点,嵌入损失是根据一批样本之间的关系来操作,而分类损失包括一个权重矩阵,将嵌入空间转化为类logits向量。

三个 toy示例:不同的精确指标如何评分。

其实大可不必心潮澎湃、攻击别人、对该领域前途失望。每当一个研究领域出现一些retlinking、revisiting、comprehensive analysis等类型的文章时,往往都说明了几个现象:

通过测试集反馈进行训练:不仅是度量学习领域,大多数论文都有这一通病:将数据集一半拆分为测试集,一半拆分为训练集,不设验证集。在具体训练的过程中,定期检查模型的测试集精度,并报告最佳测试集精度,也就是说模型选择和超参数调优是通过来自测试集的直接反馈来完成的,这显然会有过拟合的风险。

当然也有网友认为还是有进展的,就是李飞飞用超大规模数据集,告诉大家堆数据要比算法提升更优秀!基本认同。唯一的进展是李飞飞的超大规模数据集,告诉大家堆数据带来的提升效果比算法创新还要大。然而这基本只算一个工程经验,根本也谈不上一个’进展’。

2丨中央:全国性文体活动及跨省跨境旅游等暂不恢复

其实这对于研究而言是个好事。我们在一条路上走了太久,却常常忘记了为什么出发。此时需要有些人敢于“冒天下之大不睫”,出来给大家头上浇盆冷水,重新思考一下这个领域出现了什么问题。哲学上也有“否定之否定”规律。 

所以这应是“沧海横流,方显英雄本色”的时候了。加油吧!

最后,我们引用一下知名博主「王晋东不在家」的话(编者注:有删减)——

据介绍,除新冠肺炎康复者首例捐献恢复期血浆外,当天还有2名新冠肺炎康复者将在南昌大学一附院象湖院区捐献点捐献恢复期血浆。(完)

董某于1月28日被确诊为新冠肺炎,经过医护人员精心救治,2月3日治愈出院。刘占昆 摄

不过也有网友认为,发展还是有的,那就是正则化。

最新的论文也都采用了神经网络技术,例如构建生成网络,用生成器作为建模类中心和类内方差的框架的一部分(Lin et al);使用自适应插值方法,根据模型的强度,产生不同难度的负值(Zheng et al)。除此之外,还有基于注意力的技术、基于聚类和编码器组合的技术等等。

中央应对新冠肺炎疫情工作领导小组印发《关于在有效防控疫情的同时积极有序推进复工复产的指导意见》。《意见》提出,压实地方和单位疫情防控主体责任,落实员工个人防护要求,尽量减少人员聚集和集体活动。低风险地区由经营者自主决定复工复市时间。全国性文体活动及跨省跨境旅游等暂不恢复。

在知乎上迅速激起诸多网友的热烈讨论。

一位曾在Deep Metric Learning中单枪匹马、摸爬滚打过的网友(MS Loss 一作)直言:DML领域大部分方法并无宣称的那么大,其“进步”往往来源于:调参、方法本身以及大的Batch Size。

不能经受得住质疑和时间的洗礼的工作,不是好工作。事实上此类事情并不是第一次发生。

在一些适用分类损失的任务下,当任务是信息检索的某个变体时,通常使用嵌入方法,目标是返回与查询最相似的数据。例如图像搜索:输入是查询图像,输出是数据库中视觉上最相似的图像。

6丨百度:已暂停在公司APP中某些新闻频道上的内容更新

损失函数对度量学习很重要

换句话说损失函数在度量学习中起到了非常重要的作用。很多深度度量学习的损失函数构建在样本对( pair ) 或者样本三元组 ( triplet ) 之上。随着深度学习在众多领域出色表现,逐渐这种方法对度量学习产生了影响,于是度量学习将深度学习方法结合了起来,产生了一个新的领域,即深度度量学习。

5丨各地最新开学时间汇总

据南昌大学一附院副院长、中国医师协会输血科医师分会副会长乐爱平介绍,“新冠肺炎患者治疗康复过程中,体内会产生新冠病毒特异性抗体,康复者一般出院两周左右可捐献血浆。从目前临床治疗情况看,针对重型、危重型患者在接受血浆治疗的12至24小时后,体内血氧饱和度明显上升,主要炎症指标明显下降等,临床体征和症状均有一定的好转。”

该领域确实水文比例挺大的,有些文章为了中,确实会用特别低的baseline, 用resnet甚至densenet和别人googlenet的结果去比,或者用2048维特征去比过去方法的128维的结果。

在综述论文开头,FB和康奈尔先肯定了深度度量学习的重要性,他们表示:深度度量学习已成为近年来机器学习最具吸引力的研究领域之一,如何有效的度量物体间的相似性成为问题的关键。

研究员一共指出了现有文献中的三个缺陷:不公平的比较、通过测试集反馈进行训练、不合理的评价指标不公平的比较:一般大家声明一个算法性能优于另一个算法,通常需要确保尽可能多的参数不变,而在度量学习的论文中不是如此。另外,一些论文中所提到的精度提高其实只是所选神经网络带来的,并不是他们提出的“创新”方法。例如2017年的一篇论文声称使用ResNet50 获得了巨大的性能提升,而实际上他的对比对象是精度较低的GoogleNet。

公平比较和重复性实验:实验使用PyTorch;设置相同的输出嵌入进行预训练;批次大小设置为32;在训练期间,使用随机调整大小的裁剪策略来增强图像;设置固定的学习率;公开配置文件。

“在一附院住院治疗期间,看到医务人员不眠不休奋战在一线,帮助我们抵御病魔,真的特别感动,是他们挽救了我的生命。捐献血浆只是一件小事,是我应该做的,希望这些血浆能帮助到一些患者,让他们和我一样能早日治愈出院。”董某如是说。

不合理的评价指标:为了体现准确性,大多数度量学习论文都会报告Recall@K、归一化相互信息(NMI)和F1分数。但这些一定是最好的衡量标准吗?如下图三个嵌入空间,每一个recall@1指标评价都接近满分,而事实上,他们之间的特征并不相同。此外,F1和NMI分数也接近,这在一定程度上说明,其实,这几个指标并没带来啥信息。

通过交叉验证进行超参数搜索:多用交叉验证;优化超参数,并以最大程度地提高平均验证准确性;多使用最佳超参数进行训练,然后报告运行的平均值以及置信区间。

深度度量学习,是否有用?是否还值得入坑?!!

在血浆捐献点,董某经过一系列的问询、身体检查等评估后,符合捐献要求,并成功捐献恢复期血浆300ml。董某捐献的血浆除了按照无偿献血相关要求进行严格检测外,南昌大学一附院还将对其血浆标本进行新型冠状病毒核酸和特异性抗体效价检测,所有检验结果均合格后,将用于该省新冠肺炎重型、危重型患者治疗。

不信你看,作为当下ICML、ICLR、NIPS等顶会的“宠儿”,meta-learning可谓风头一时无两。然而,大家都清楚,meta-learning的一大部分工作都是在few-shot的任务上进行算法开发和评测的。从18年开始到今年的ICLR,就已经不断地有人“质疑”其有效性了。“质疑”的核心问题之一是:用简单的pretrain network去学习feature embedding,然后再加上简单的分类器就可以在few-shot那几个通用任务上,打败很多“著名”的meta-learning方法。所以到底是meta-learning的这种“学会学习”的思想没用,还是它只是被不恰当地使用了?或者说,meta-learning的正确用法是什么?我认为这也是要思考的。我个人是非常喜欢meta的思想的。

在列举了一系列技术方法之后,研究员开始针对各种损失函数进行实验,研究结果表明:通过交叉验证对超参数进行适当调整时,大多数方法的性能相似。

2、这个领域的文章同质化太严重,到了传说中的“瓶颈期”;

领域的进展实际并不存在

一位网友提到,度量学习在数学上优雅,在可视化上炫酷,在论文结果上漂亮,但在实际应用中却毫无效果。

据人民日报,9日,新冠疫苗Ⅱ期临床研究启动志愿者招募。和Ⅰ期试验不同,这次的研究规模更大,且引入了安慰剂对照组。Ⅱ期临床研究最终选择了低中剂量,疫苗二期志愿者无需接受14天集中观察,自行完成安全性观察即可。在此期间,研究组会派专人对志愿者进行随访,指导其完成安全性观察和记录。按照研究方案要求,每位志愿者要于接种当天、第14天、第28天和第6个月完成一次研究访视,共需采血4次。 此前,中国疾病预防控制中心流行病学首席专家吴尊友表示,即使特事特办,完成重组新冠疫苗三期临床试验,最后认定疫苗有效,最短也需要6个月的时间。

4丨黑龙江绥芬河:出租车和客运车禁止驶出城区

我觉得这可能是个实验科学的误区:我们实验设定本来就需要完善,并不能因此否定一类方法的有效性。深度学习大部分都是建立在实验科学的基础上,因此实验很关键。

有了广泛的质疑,才会有更广泛的讨论,于是会有更广泛的反质疑、新范式、新思想。从整个领域的发展来看,这无疑是好事。

为做好新冠肺炎康复者恢复期血浆采集工作,南昌大学一附院及时制定了新冠肺炎康复者恢复期血浆捐献流程、技术操作规范等,配备了固定捐献点及工作人员,并积极与新冠肺炎康复者取得了联系,协同做好招募工作。

3、研究人员思考为什么已经有这么多好工作,却好像觉得还差点意思,还“不够用”、“不好用”、“没法用”。

据绥芬河市人民政府网站消息,4月9日,绥芬河疫情防控指挥部发布通告,要求出租车和客运车禁止驶出绥芬河城区。此前,黑龙江通报昨日新增境外输入确诊病例40例。

雷锋网原创文章,。详情见转载须知。

然后,在某些情况下无法使用分类损失。例如,在构建数据集时,为每个样本分配类别标签可能很困难或成本很高,并且可能更容易以配对或三元组关系的形式指定样本之间的相对相似性。另外,样本对( pair ) 或者样本三元组(triplets)还可以为现有数据集提供额外的训练信号。所以在这两种情况下都没有显式标注,因此嵌入损失成为合适的选择。

董某于1月28日被确诊为新冠肺炎并收入南昌大学一附院象湖院区隔离病房。经过医护人员的精心救治,董某于2月3日治愈出院,经过14天的居家隔离后,表示自愿捐献血浆。

在血浆捐献点,董某经过一系列的问询、身体检查等评估后,符合捐献要求,并成功捐献恢复期血浆300ml。刘占昆 摄

Metric learning在数学上推得很优雅,在可视化上很酷炫,在论文结果上表现得很漂亮,但实际应用上却毫无效果。asoftmax am amm等在某些数据集上确实拟合很好,适合刷指标,但实际在跨数据开集上,还是最简单的softmax更香。

(雷锋网(公众号:雷锋网))、(雷锋网)、(雷锋网)

回到metric learning的问题上来。其实想想看,机器学习的核心问题之一便是距离。Metric learning这种可以自适应地学习度量的思想,真的是没用吗?还是说它只是被目前的方法、实验手段、评测数据集等等束缚了手脚,阴差阳错地导致了不好的结果这也是这个问题的提出者原文作者质疑的问题。

FB和康奈尔科技此论无疑是对深度度量学习过去十三年研究成果盖棺定论,斩钉截铁表示,虽然深度度量学习非常重要,但是学界这些年一直在灌水。

那么metirc learning有没有发展呢,我认为最主要的发展还是近几年的normalization,这个东西明确了几何空间的定义,使得研究人员能够更好的在几何层面设计metric,最后无论是训练的收敛速度还是最后的准确率都有了极大的提升。

百度:已暂停在公司APP中某些新闻频道上的内容更新,除此之外,百度APP将保持正常运行;预计暂停可能会影响相关营销服务方面的营收。

今天,广东、河北、上海三省市公布开学时间。①广东:4月27日,高三、初三年级开学,5月11日后,各地根据疫情防控情况分期、分批、错峰安排中小学其他年级学生返校;②河北:4月23日,高三年级开学,初中学校毕业年级学生和中职学校毕业年级报名参加高考学生5月7日开学;③上海:4月27日,高三、初三年级开学,各高校及中等职业学校可从27日起开始安排毕业年级学生返校。

1、这个领域发展的还可以,出现了很多相关的工作可以参考;

或者用另一位网友的说法:公式超级多,论文看起来就专业可视化好看,类间离散图很优雅