1. 如何读一篇论文(方法论)

内容 第一遍 第二遍 第三遍
title yes yes
abs yes yes
intro related paper yes
method graph yes yes
exp graph yes yes
conclu yes yes

第一遍,这篇论文是做什么,和我相不相关,结果和方法(图表)怎么样,适不适合自己(十几分钟)。
第二遍,从头到尾读一遍,不用过于注意细节,例如公式的证明;但是要清楚地看懂重要的图表,例如方法中的流程图、算法图,实验中的数据的含义(e.s, x、y轴坐标含义);圈出相关文献。
第三遍,在脑海中重复实现这个文章,提出什么问题,用什么方法怎么解决,实验如何做,后续工作可以怎么往前走。

2. 以AlexNet为例子,读一篇论文

第一遍

title:
ImageNet Classification with Deep Convolutional Neural Networks(2012)
author:
Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton
abstract:
很大很深的网络,在ImageNet任务上表现非常好
conclusion:
深度对网络表现很重要,减少一层降低2%;没有做pretrain(历史背景:之前人们主要关注无监督,有监督接近SVM,AlexNet影响后续很长一段时间大家关注于有监督学习,直到Bert出现);未来想训练video数据。
graph: 结果图片

第二遍

intro:
大数据集,ImageNet(15 million, 22000 categories);大模型,CNN虽然很好,但是容易过拟合;3、4章介绍模型结构和减少过拟合。

dataset:
raw RGB values(end-to-end,初始的文本和图片,不需要标记特征)

architecture:

  • ?saturating nonlinearities饱和非线性函数,使用ReLU相比tanh训练快很多。
  • 多GPU训练,系统工程细节(复现相关)。(历史背景:gpt,llm出现后又需要切割模型)
  • Normalization正则化,避免过拟合。(历史背景:之后比这个有更好的正则方法)
  • Pooling池化,做了些改动overlapping。
  • overall, 随着网络加深,图片高宽变窄,通道数增加。(工程上有2个GPU,中间交叉通信最后连接。)知识压缩,变成机器可以理解的向量。

alexnet architecture

reducing overfitting:

  • data augmentation数据增强,抠图,PCA颜色增强。
  • dropout,相当于多个模型做融合(历史背景,之后证明dropout近似L2正则项,目前CNN不会使用特别大的全连接,dropout在全连接上比较有用)。如果没有dropout,过拟合严重,添加dropout收敛变慢。

details of learning:

  • SGD: 历史背景,在AlexNet之后SGD(调参有一定难度)成为了主流,噪音对过拟合降低有好处。momentum,weight decay。
  • Gaussian distribution, neuron biases, learning rate。

experiments:
结果如何?具体实现对于初学者不需要复现的情况下,不需要太关注。