您现在的位置是:主页 > 深圳助孕价格 >

CVPR论文经不起复现推敲?是学术会议水了还是我飘了

2024-02-25 11:55深圳助孕价格 239人已围观

简介与上面实现相同,但是使用—no-unique_masks参数,这表示相同一组掩码会作用于每一个输入通道,测试准确率为82.4%训练噪声掩码,测试准确率为85.9%,噪声掩码每一个批量更新一次,与常...

po主在Reddit中称,「《PerturbativeNeuralNetworks》一文提出用1x1卷积代替3x3卷积,输入中应用了一些噪声。作者称这种做法表现良好,但我的复现结果并不理想,因此我决定对其进行测试。作者提供了他们用的代码,但是经过仔细检查,我发现他们的测试准确率计算有误,导致得出的所有结果无效。」

po主测试地址:

CVPR论文复现发现问题

下面,先让我们细致过一遍po主在复现这篇论文时发现的问题,他主要发现测试准确率计算无效,因此加噪声或采用1×1的卷积也没有更好的效果。

原始实现在第一层上使用常规卷积,其余各层使用fanout=1,这意味着每个输入通道都被一个噪声掩码扰乱。

然而,原始实现最大的问题在于测试准确率计算有误。作者没有使用常用的计算方法算出测试集中正确样本与全部样本的比值,而是在以每批为基础计算准确率,并应用平滑权重(测试准确率=0.7*prev_batch_accuracy+0.3*current_batch_accuracy)。

以下是论文中所用方法与正确准确率计算的比较:

运行这个模型(在CIFAR10上训练noiseresnet18),原始代码得出的最佳测试准确率为90.53%,而实际最佳测试准确率为85.91%。

在纠正了这个问题之后,我进行了大量的测试,想看看扰乱的输入和噪音覆盖会不会带来什么好处,但最终我得出的结论是:并没有。

下面的例子展示了几个ResNet-18变体的不同:降低过滤器数量以保证相同参数数量的基线模型;除了第一层,其它层都只使用1×1卷积(无噪音)的模型;以及除第一层外所有层使用扰动后接1×1卷积。这三个模型大约都有550万个参数:

在整个训练过程中,常规resnet基线模型和PNN之间的准确率差值保持在5%左右,并且添加噪声掩码比没有任何噪声的等效「受损」resnet提升不到1%。

作者对源代码,尤其是PerturbLayerclass进行了一些修正,包括--nmasks、--mix_maps和--train_masks等等。最后,作者使用了基线模型resnet18和原实现中的noiseresnet18。此外,perturb_resnet18在使用合适的参数下有足够的能力替代基线模型与noiseresnet18。

CIFAR-10:

基线测试准确度:91.8%;采用带有3×3卷积的常规ResNet-18,卷积核的数量降低到与PNN参数量相当的水平。

原始实现的测试准确度:85.7%;相当于下载原始GitHub实现项目的代码并运行。

与原始实现相同,但是将first_filter_size修正为3会将准确度提升到86.2%。

与上面实现相同,但是不带任何噪声会实现85.5%的测试准确度;resnet18在第一层使用3×3的卷积,在后面会保留1×1的卷积。

在PNN的所有层级使用均匀噪声,测试准确度为72.6%。

在PNN除第一层外的所有层使用噪声掩码,测试准确度为82.7%;其中第一层使用常规的3×3卷积。

与上面实现相同,但是使用—no-unique_masks参数,这表示相同一组掩码会作用于每一个输入通道,测试准确率为82.4%

训练噪声掩码,测试准确率为85.9%,噪声掩码每一个批量更新一次,与常规模型参数同时更新。

问题与实验结论

原论文中的第3.3节和3.4节阐述了如何通过找到PNN参数来复现常规CNN的输出。问题在于,它只适用于单个输入x。因此,对于任何给定的输入x,PNN可能找到计算正确输出y所需的权重,但这并不代表它可以为数据集中的所有输入样本找到权重。

直觉告诉我,PNN似乎缺乏常规CNN最主要的特征提取特性:它不能通过卷积核直接匹配任何空间模式。

似乎用噪声干扰层输入没有任何显著的好处,不带噪声掩码的简单1x1卷积性能没有显著提升。不管我们如何应用噪声掩码,使用1x1卷积造成的准确率损失都很严重(即使不修改第一层,在CIFAR-10上的准确率也要下降约5%)。由于准确度计算方法有误,作者发表的结果无效。

作者回应与Reddit讨论

FelixJuefeiXu的回应得到了大家的支持与认可,但同样也引出了另一个问题:同行评审流程中对实验结果的复现。也许,这才是背后的关键。

用户RoboticGreg表示:

用户tkinter76也认为:

实现有时不会随论文一起提交

把一切都弄妥当太耗时间

通常人们缺乏在合理的时间内重新运行所有步骤所需的资源

其实,学术社区已经注意到这一问题。去年ICML学术会议上,「机器学习复现Workshop」就对这一问题进行过讨论,并于2018年举办了ICLR2018复现挑战赛,目的就是保证接收论文公布的结果是可靠的、可复现的。

在机器学习愈发火热的今天,如何在论文提交与参会人数激增的情况下保证接收论文与大会的质量,是学术会议面临的巨大挑战,也急需社区能给出可行的解决方案。

文章网址:
CVPR论文经不起复现推敲?是学术会议水了还是我飘了 http://www.theemw.com/shenchoudaiyunjiage/20240225/14758.html

Tags:

标签云

站点信息