Moeus.site:for sharing

ImageNet Classification with Deep Convolutional Neural Networks

Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton

本文提出的AlexNet在2012年ImageNet竞赛中以显著优势夺冠，首次证明了深度卷积神经网络（CNN）在大规模图像分类任务中的巨大潜力。网络包含5个卷积层和3个全连接层，采用ReLU激活函数解决梯度消失问题，通过数据增强、Dropout正则化和多GPU并行训练提升泛化能力。其Top-5错误率仅为15.3%，远超第二名的26.2%，彻底改变了计算机视觉领域的研究范式，推动了深度学习的复兴。

Very Deep Convolutional Networks for Large-Scale Image Recognition

Karen Simonyan, Andrew Zisserman

VGGNet在2014年ImageNet竞赛中提出，通过堆叠3x3小卷积核构建16-19层的极深网络，证明了增加网络深度可显著提升性能。其设计强调统一的网络结构和小卷积核的组合，例如两个3x3卷积层的感受野相当于一个5x5卷积层，同时参数量更少。VGGNet的模块化设计为后续网络架构（如ResNet）提供了重要参考，至今仍是特征提取的经典基线模型。

Deep Residual Learning for Image Recognition

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

针对深度网络的退化问题，本文提出残差网络（ResNet），通过引入跳跃连接直接学习残差映射，使得训练超深网络（如152层）成为可能。ResNet在2015年ImageNet竞赛中以3.57%的Top-5错误率夺冠，并在COCO检测等任务中刷新纪录。其残差结构不仅解决了梯度消失问题，还通过短路机制增强了特征传递效率，成为计算机视觉领域最具影响力的架构之一。

You Only Look Once: Unified, Real-Time Object Detection

Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi

YOLOv1首次将目标检测任务转化为单阶段回归问题，直接从图像像素预测边界框和类别概率。通过将图像划分为7x7网格，每个网格预测2个框和20个类别，实现了端到端的实时检测。尽管存在小目标检测精度不足等局限，但其创新性的统一框架为后续SSD、RetinaNet等单阶段检测器奠定了基础，显著提升了目标检测的速度与实用性。

Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation

Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik

R-CNN开创了基于区域提议的两阶段目标检测范式，通过选择性搜索生成候选区域，利用CNN提取特征，再通过SVM分类和回归器精修框位置。其在PASCAL VOC 2007上的mAP达到53.3%，首次将深度学习引入目标检测领域。尽管计算效率较低，但其成功证明了CNN在复杂视觉任务中的有效性，开启了基于深度学习的目标检测研究热潮。

Generative Adversarial Networks

Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza,......

生成对抗网络（GAN）通过对抗训练机制，让生成器与判别器相互博弈，首次实现了从噪声到逼真图像的生成。生成器学习捕获真实数据分布，判别器学习区分真假样本，最终达到纳什均衡。GAN的提出为无监督学习和生成模型研究带来革命性突破，衍生出DCGAN、CycleGAN等众多变体，广泛应用于图像生成、风格迁移等领域。

Auto-Encoding Variational Bayes

Diederik P. Kingma, Max Welling

变分自编码器（VAE）将生成模型与概率图模型结合，通过引入潜在变量实现数据的低维表示学习。其核心思想是通过重参数化技巧将潜在变量的后验分布近似为可微的高斯分布，从而实现端到端的优化。VAE不仅能够生成新样本，还能通过潜在空间的插值操作探索数据的语义结构，成为无监督学习和表示学习的重要工具。

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

BERT是首个基于双向Transformer的预训练模型，通过掩码语言模型（MLM）和下一句预测（NSP）任务学习通用语言表示。其在GLUE、SQuAD等11项NLP任务中刷新SOTA，证明了预训练模型在自然语言理解中的强大泛化能力。BERT的出现彻底改变了NLP研究范式，后续GPT、XLNet等模型均基于其思想发展而来。

Language Models are Unsupervised Multitask Learners

Alec Radford, Jeffrey Wu, Rewon Child, ......

GPT-2是OpenAI提出的基于Transformer的自回归语言模型，通过扩大模型规模（15亿参数）和训练数据（40GB网页文本），实现了无需微调即可直接完成多种NLP任务的能力。其零样本学习性能在摘要、问答等任务中表现出色，引发了对大模型泛化能力的广泛关注，为后续GPT-3等超大规模模型奠定了基础。

Attention Is All You Need

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit,......

Transformer首次完全基于自注意力机制构建，彻底摒弃了RNN和CNN。其编码器-解码器架构通过多头自注意力捕捉全局依赖关系，显著提升了并行计算效率和长序列建模能力。在WMT 2017机器翻译任务中，Transformer以BLEU 41.8的成绩刷新SOTA，成为自然语言处理领域的里程碑，后续BERT、GPT等模型均基于其架构发展。

Human-Level Control Through Deep Reinforcement Learning

Volodymyr Mnih, Koray Kavukcuoglu, David Silver......

深度Q网络（DQN）首次将深度神经网络与强化学习结合，通过经验回放和目标网络技术稳定训练过程，在Atari 2600游戏中达到或超越人类水平。其成功证明了端到端深度强化学习在高维感知环境中的可行性，为后续AlphaGo、AlphaFold等突破提供了关键技术基础，推动了强化学习在机器人、自动驾驶等领域的应用。

Mastering the Game of Go without Human Knowledge

David Silver, Julian Schrittwieser, Karen Simonyan, ......

AlphaGo Zero通过纯强化学习实现自我对弈，仅用3天训练便击败所有人类棋手和前代模型。其核心创新是将价值网络与策略网络合并为单一神经网络，并结合改进的蒙特卡洛树搜索（MCTS）进行决策。该模型无需人类棋谱，完全通过自主探索掌握围棋规律，标志着人工智能从“模仿人类”向“超越人类”的重大跨越。

Long Short-Term Memory

Sepp Hochreiter, Jürgen Schmidhuber

长短期记忆网络（LSTM）通过引入记忆单元和门控机制，有效解决了传统RNN的梯度消失/爆炸问题，能够捕捉长期依赖关系。其设计包含输入门、遗忘门和输出门，可动态控制信息的流动与存储。LSTM在语音识别、语言建模等任务中表现优异，成为处理序列数据的主流模型，后续GRU等变体均基于其核心思想发展。

Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation

Kyunghyun Cho, Bart van Merriënboer, Caglar Gulcehre, ......

门控循环单元（GRU）是LSTM的简化变体，将输入门和遗忘门合并为更新门，并移除输出门，在保持性能的同时降低计算复杂度。其在机器翻译任务中表现出色，与注意力机制结合后进一步提升了序列到序列模型的效果。GRU因其高效性和易用性，成为自然语言处理中序列建模的常用选择。

Gradient-Based Learning Applied to Document Recognition

Yann LeCun, Léon Bottou, Yoshua Bengio, Patrick Haffner

LeNet-5是首个成功应用于手写数字识别的卷积神经网络，包含卷积层、池化层和全连接层，采用反向传播算法进行训练。其在MNIST数据集上的错误率低于0.5%，奠定了CNN在图像识别领域的基础。LeNet-5的设计思想（如局部连接、权值共享）为后续AlexNet、VGGNet等模型提供了重要参考，是深度学习发展史上的标志性工作。

Deep Residual Learning for Image Recognition

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

本文提出的残差网络（ResNet）通过引入跳跃连接解决深度网络的退化问题，允许网络深度扩展至152层而不出现性能下降。其残差块结构（Residual Block）通过“捷径”直接传递输入信息，使得梯度能够有效反向传播，显著提升了训练效率和模型泛化能力。ResNet在ImageNet竞赛中以3.57%的Top-5错误率夺冠，并在目标检测、语义分割等任务中广泛应用，成为计算机视觉领域的基石模型。

ImageNet Classification with Deep Convolutional Neural Networks

Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton

本文提出的AlexNet在2012年ImageNet竞赛中以显著优势夺冠，首次证明了深度卷积神经网络（CNN）在大规模图像分类任务中的巨大潜力。网络包含5个卷积层和3个全连接层，采用ReLU激活函数解决梯度消失问题，通过数据增强、Dropout正则化和多GPU并行训练提升泛化能力。其Top-5错误率仅为15.3%，远超第二名的26.2%，彻底改变了计算机视觉领域的研究范式，推动了深度学习的复兴。

Very Deep Convolutional Networks for Large-Scale Image Recognition

Karen Simonyan, Andrew Zisserman

VGGNet在2014年ImageNet竞赛中提出，通过堆叠3x3小卷积核构建16-19层的极深网络，证明了增加网络深度可显著提升性能。其设计强调统一的网络结构和小卷积核的组合，例如两个3x3卷积层的感受野相当于一个5x5卷积层，同时参数量更少。VGGNet的模块化设计为后续网络架构（如ResNet）提供了重要参考，至今仍是特征提取的经典基线模型。

Deep Residual Learning for Image Recognition

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

针对深度网络的退化问题，本文提出残差网络（ResNet），通过引入跳跃连接直接学习残差映射，使得训练超深网络（如152层）成为可能。ResNet在2015年ImageNet竞赛中以3.57%的Top-5错误率夺冠，并在COCO检测等任务中刷新纪录。其残差结构不仅解决了梯度消失问题，还通过短路机制增强了特征传递效率，成为计算机视觉领域最具影响力的架构之一。

You Only Look Once: Unified, Real-Time Object Detection

Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi

YOLOv1首次将目标检测任务转化为单阶段回归问题，直接从图像像素预测边界框和类别概率。通过将图像划分为7x7网格，每个网格预测2个框和20个类别，实现了端到端的实时检测。尽管存在小目标检测精度不足等局限，但其创新性的统一框架为后续SSD、RetinaNet等单阶段检测器奠定了基础，显著提升了目标检测的速度与实用性。

Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation

Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik

R-CNN开创了基于区域提议的两阶段目标检测范式，通过选择性搜索生成候选区域，利用CNN提取特征，再通过SVM分类和回归器精修框位置。其在PASCAL VOC 2007上的mAP达到53.3%，首次将深度学习引入目标检测领域。尽管计算效率较低，但其成功证明了CNN在复杂视觉任务中的有效性，开启了基于深度学习的目标检测研究热潮。

Generative Adversarial Networks

Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza,......

生成对抗网络（GAN）通过对抗训练机制，让生成器与判别器相互博弈，首次实现了从噪声到逼真图像的生成。生成器学习捕获真实数据分布，判别器学习区分真假样本，最终达到纳什均衡。GAN的提出为无监督学习和生成模型研究带来革命性突破，衍生出DCGAN、CycleGAN等众多变体，广泛应用于图像生成、风格迁移等领域。

Auto-Encoding Variational Bayes

Diederik P. Kingma, Max Welling

变分自编码器（VAE）将生成模型与概率图模型结合，通过引入潜在变量实现数据的低维表示学习。其核心思想是通过重参数化技巧将潜在变量的后验分布近似为可微的高斯分布，从而实现端到端的优化。VAE不仅能够生成新样本，还能通过潜在空间的插值操作探索数据的语义结构，成为无监督学习和表示学习的重要工具。

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

BERT是首个基于双向Transformer的预训练模型，通过掩码语言模型（MLM）和下一句预测（NSP）任务学习通用语言表示。其在GLUE、SQuAD等11项NLP任务中刷新SOTA，证明了预训练模型在自然语言理解中的强大泛化能力。BERT的出现彻底改变了NLP研究范式，后续GPT、XLNet等模型均基于其思想发展而来。

Language Models are Unsupervised Multitask Learners

Alec Radford, Jeffrey Wu, Rewon Child, ......

GPT-2是OpenAI提出的基于Transformer的自回归语言模型，通过扩大模型规模（15亿参数）和训练数据（40GB网页文本），实现了无需微调即可直接完成多种NLP任务的能力。其零样本学习性能在摘要、问答等任务中表现出色，引发了对大模型泛化能力的广泛关注，为后续GPT-3等超大规模模型奠定了基础。

Attention Is All You Need

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit,......

Transformer首次完全基于自注意力机制构建，彻底摒弃了RNN和CNN。其编码器-解码器架构通过多头自注意力捕捉全局依赖关系，显著提升了并行计算效率和长序列建模能力。在WMT 2017机器翻译任务中，Transformer以BLEU 41.8的成绩刷新SOTA，成为自然语言处理领域的里程碑，后续BERT、GPT等模型均基于其架构发展。

Human-Level Control Through Deep Reinforcement Learning

Volodymyr Mnih, Koray Kavukcuoglu, David Silver......

深度Q网络（DQN）首次将深度神经网络与强化学习结合，通过经验回放和目标网络技术稳定训练过程，在Atari 2600游戏中达到或超越人类水平。其成功证明了端到端深度强化学习在高维感知环境中的可行性，为后续AlphaGo、AlphaFold等突破提供了关键技术基础，推动了强化学习在机器人、自动驾驶等领域的应用。

Mastering the Game of Go without Human Knowledge

David Silver, Julian Schrittwieser, Karen Simonyan, ......

AlphaGo Zero通过纯强化学习实现自我对弈，仅用3天训练便击败所有人类棋手和前代模型。其核心创新是将价值网络与策略网络合并为单一神经网络，并结合改进的蒙特卡洛树搜索（MCTS）进行决策。该模型无需人类棋谱，完全通过自主探索掌握围棋规律，标志着人工智能从“模仿人类”向“超越人类”的重大跨越。

Long Short-Term Memory

Sepp Hochreiter, Jürgen Schmidhuber

长短期记忆网络（LSTM）通过引入记忆单元和门控机制，有效解决了传统RNN的梯度消失/爆炸问题，能够捕捉长期依赖关系。其设计包含输入门、遗忘门和输出门，可动态控制信息的流动与存储。LSTM在语音识别、语言建模等任务中表现优异，成为处理序列数据的主流模型，后续GRU等变体均基于其核心思想发展。

Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation

Kyunghyun Cho, Bart van Merriënboer, Caglar Gulcehre, ......

门控循环单元（GRU）是LSTM的简化变体，将输入门和遗忘门合并为更新门，并移除输出门，在保持性能的同时降低计算复杂度。其在机器翻译任务中表现出色，与注意力机制结合后进一步提升了序列到序列模型的效果。GRU因其高效性和易用性，成为自然语言处理中序列建模的常用选择。

Gradient-Based Learning Applied to Document Recognition

Yann LeCun, Léon Bottou, Yoshua Bengio, Patrick Haffner

LeNet-5是首个成功应用于手写数字识别的卷积神经网络，包含卷积层、池化层和全连接层，采用反向传播算法进行训练。其在MNIST数据集上的错误率低于0.5%，奠定了CNN在图像识别领域的基础。LeNet-5的设计思想（如局部连接、权值共享）为后续AlexNet、VGGNet等模型提供了重要参考，是深度学习发展史上的标志性工作。

Deep Residual Learning for Image Recognition

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

本文提出的残差网络（ResNet）通过引入跳跃连接解决深度网络的退化问题，允许网络深度扩展至152层而不出现性能下降。其残差块结构（Residual Block）通过“捷径”直接传递输入信息，使得梯度能够有效反向传播，显著提升了训练效率和模型泛化能力。ResNet在ImageNet竞赛中以3.57%的Top-5错误率夺冠，并在目标检测、语义分割等任务中广泛应用，成为计算机视觉领域的基石模型。

ImageNet Classification with Deep Convolutional Neural Networks

Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton

本文提出的AlexNet在2012年ImageNet竞赛中以显著优势夺冠，首次证明了深度卷积神经网络（CNN）在大规模图像分类任务中的巨大潜力。网络包含5个卷积层和3个全连接层，采用ReLU激活函数解决梯度消失问题，通过数据增强、Dropout正则化和多GPU并行训练提升泛化能力。其Top-5错误率仅为15.3%，远超第二名的26.2%，彻底改变了计算机视觉领域的研究范式，推动了深度学习的复兴。

Very Deep Convolutional Networks for Large-Scale Image Recognition

Karen Simonyan, Andrew Zisserman

VGGNet在2014年ImageNet竞赛中提出，通过堆叠3x3小卷积核构建16-19层的极深网络，证明了增加网络深度可显著提升性能。其设计强调统一的网络结构和小卷积核的组合，例如两个3x3卷积层的感受野相当于一个5x5卷积层，同时参数量更少。VGGNet的模块化设计为后续网络架构（如ResNet）提供了重要参考，至今仍是特征提取的经典基线模型。

Deep Residual Learning for Image Recognition

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

针对深度网络的退化问题，本文提出残差网络（ResNet），通过引入跳跃连接直接学习残差映射，使得训练超深网络（如152层）成为可能。ResNet在2015年ImageNet竞赛中以3.57%的Top-5错误率夺冠，并在COCO检测等任务中刷新纪录。其残差结构不仅解决了梯度消失问题，还通过短路机制增强了特征传递效率，成为计算机视觉领域最具影响力的架构之一。

You Only Look Once: Unified, Real-Time Object Detection

Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi

YOLOv1首次将目标检测任务转化为单阶段回归问题，直接从图像像素预测边界框和类别概率。通过将图像划分为7x7网格，每个网格预测2个框和20个类别，实现了端到端的实时检测。尽管存在小目标检测精度不足等局限，但其创新性的统一框架为后续SSD、RetinaNet等单阶段检测器奠定了基础，显著提升了目标检测的速度与实用性。

Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation

Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik

R-CNN开创了基于区域提议的两阶段目标检测范式，通过选择性搜索生成候选区域，利用CNN提取特征，再通过SVM分类和回归器精修框位置。其在PASCAL VOC 2007上的mAP达到53.3%，首次将深度学习引入目标检测领域。尽管计算效率较低，但其成功证明了CNN在复杂视觉任务中的有效性，开启了基于深度学习的目标检测研究热潮。

Generative Adversarial Networks

Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza,......

生成对抗网络（GAN）通过对抗训练机制，让生成器与判别器相互博弈，首次实现了从噪声到逼真图像的生成。生成器学习捕获真实数据分布，判别器学习区分真假样本，最终达到纳什均衡。GAN的提出为无监督学习和生成模型研究带来革命性突破，衍生出DCGAN、CycleGAN等众多变体，广泛应用于图像生成、风格迁移等领域。

Auto-Encoding Variational Bayes

Diederik P. Kingma, Max Welling

变分自编码器（VAE）将生成模型与概率图模型结合，通过引入潜在变量实现数据的低维表示学习。其核心思想是通过重参数化技巧将潜在变量的后验分布近似为可微的高斯分布，从而实现端到端的优化。VAE不仅能够生成新样本，还能通过潜在空间的插值操作探索数据的语义结构，成为无监督学习和表示学习的重要工具。

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

BERT是首个基于双向Transformer的预训练模型，通过掩码语言模型（MLM）和下一句预测（NSP）任务学习通用语言表示。其在GLUE、SQuAD等11项NLP任务中刷新SOTA，证明了预训练模型在自然语言理解中的强大泛化能力。BERT的出现彻底改变了NLP研究范式，后续GPT、XLNet等模型均基于其思想发展而来。

Language Models are Unsupervised Multitask Learners

Alec Radford, Jeffrey Wu, Rewon Child, ......

GPT-2是OpenAI提出的基于Transformer的自回归语言模型，通过扩大模型规模（15亿参数）和训练数据（40GB网页文本），实现了无需微调即可直接完成多种NLP任务的能力。其零样本学习性能在摘要、问答等任务中表现出色，引发了对大模型泛化能力的广泛关注，为后续GPT-3等超大规模模型奠定了基础。

Attention Is All You Need

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit,......

Transformer首次完全基于自注意力机制构建，彻底摒弃了RNN和CNN。其编码器-解码器架构通过多头自注意力捕捉全局依赖关系，显著提升了并行计算效率和长序列建模能力。在WMT 2017机器翻译任务中，Transformer以BLEU 41.8的成绩刷新SOTA，成为自然语言处理领域的里程碑，后续BERT、GPT等模型均基于其架构发展。

Human-Level Control Through Deep Reinforcement Learning

Volodymyr Mnih, Koray Kavukcuoglu, David Silver......

深度Q网络（DQN）首次将深度神经网络与强化学习结合，通过经验回放和目标网络技术稳定训练过程，在Atari 2600游戏中达到或超越人类水平。其成功证明了端到端深度强化学习在高维感知环境中的可行性，为后续AlphaGo、AlphaFold等突破提供了关键技术基础，推动了强化学习在机器人、自动驾驶等领域的应用。

Mastering the Game of Go without Human Knowledge

David Silver, Julian Schrittwieser, Karen Simonyan, ......

AlphaGo Zero通过纯强化学习实现自我对弈，仅用3天训练便击败所有人类棋手和前代模型。其核心创新是将价值网络与策略网络合并为单一神经网络，并结合改进的蒙特卡洛树搜索（MCTS）进行决策。该模型无需人类棋谱，完全通过自主探索掌握围棋规律，标志着人工智能从“模仿人类”向“超越人类”的重大跨越。

Long Short-Term Memory

Sepp Hochreiter, Jürgen Schmidhuber

长短期记忆网络（LSTM）通过引入记忆单元和门控机制，有效解决了传统RNN的梯度消失/爆炸问题，能够捕捉长期依赖关系。其设计包含输入门、遗忘门和输出门，可动态控制信息的流动与存储。LSTM在语音识别、语言建模等任务中表现优异，成为处理序列数据的主流模型，后续GRU等变体均基于其核心思想发展。

Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation

Kyunghyun Cho, Bart van Merriënboer, Caglar Gulcehre, ......

门控循环单元（GRU）是LSTM的简化变体，将输入门和遗忘门合并为更新门，并移除输出门，在保持性能的同时降低计算复杂度。其在机器翻译任务中表现出色，与注意力机制结合后进一步提升了序列到序列模型的效果。GRU因其高效性和易用性，成为自然语言处理中序列建模的常用选择。

Gradient-Based Learning Applied to Document Recognition

Yann LeCun, Léon Bottou, Yoshua Bengio, Patrick Haffner

LeNet-5是首个成功应用于手写数字识别的卷积神经网络，包含卷积层、池化层和全连接层，采用反向传播算法进行训练。其在MNIST数据集上的错误率低于0.5%，奠定了CNN在图像识别领域的基础。LeNet-5的设计思想（如局部连接、权值共享）为后续AlexNet、VGGNet等模型提供了重要参考，是深度学习发展史上的标志性工作。

Deep Residual Learning for Image Recognition

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

本文提出的残差网络（ResNet）通过引入跳跃连接解决深度网络的退化问题，允许网络深度扩展至152层而不出现性能下降。其残差块结构（Residual Block）通过“捷径”直接传递输入信息，使得梯度能够有效反向传播，显著提升了训练效率和模型泛化能力。ResNet在ImageNet竞赛中以3.57%的Top-5错误率夺冠，并在目标检测、语义分割等任务中广泛应用，成为计算机视觉领域的基石模型。

ImageNet Classification with Deep Convolutional Neural Networks

Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton

本文提出的AlexNet在2012年ImageNet竞赛中以显著优势夺冠，首次证明了深度卷积神经网络（CNN）在大规模图像分类任务中的巨大潜力。网络包含5个卷积层和3个全连接层，采用ReLU激活函数解决梯度消失问题，通过数据增强、Dropout正则化和多GPU并行训练提升泛化能力。其Top-5错误率仅为15.3%，远超第二名的26.2%，彻底改变了计算机视觉领域的研究范式，推动了深度学习的复兴。

Very Deep Convolutional Networks for Large-Scale Image Recognition

Karen Simonyan, Andrew Zisserman

VGGNet在2014年ImageNet竞赛中提出，通过堆叠3x3小卷积核构建16-19层的极深网络，证明了增加网络深度可显著提升性能。其设计强调统一的网络结构和小卷积核的组合，例如两个3x3卷积层的感受野相当于一个5x5卷积层，同时参数量更少。VGGNet的模块化设计为后续网络架构（如ResNet）提供了重要参考，至今仍是特征提取的经典基线模型。

Deep Residual Learning for Image Recognition

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

针对深度网络的退化问题，本文提出残差网络（ResNet），通过引入跳跃连接直接学习残差映射，使得训练超深网络（如152层）成为可能。ResNet在2015年ImageNet竞赛中以3.57%的Top-5错误率夺冠，并在COCO检测等任务中刷新纪录。其残差结构不仅解决了梯度消失问题，还通过短路机制增强了特征传递效率，成为计算机视觉领域最具影响力的架构之一。

You Only Look Once: Unified, Real-Time Object Detection

Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi

YOLOv1首次将目标检测任务转化为单阶段回归问题，直接从图像像素预测边界框和类别概率。通过将图像划分为7x7网格，每个网格预测2个框和20个类别，实现了端到端的实时检测。尽管存在小目标检测精度不足等局限，但其创新性的统一框架为后续SSD、RetinaNet等单阶段检测器奠定了基础，显著提升了目标检测的速度与实用性。

Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation

Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik

R-CNN开创了基于区域提议的两阶段目标检测范式，通过选择性搜索生成候选区域，利用CNN提取特征，再通过SVM分类和回归器精修框位置。其在PASCAL VOC 2007上的mAP达到53.3%，首次将深度学习引入目标检测领域。尽管计算效率较低，但其成功证明了CNN在复杂视觉任务中的有效性，开启了基于深度学习的目标检测研究热潮。

Generative Adversarial Networks

Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza,......

生成对抗网络（GAN）通过对抗训练机制，让生成器与判别器相互博弈，首次实现了从噪声到逼真图像的生成。生成器学习捕获真实数据分布，判别器学习区分真假样本，最终达到纳什均衡。GAN的提出为无监督学习和生成模型研究带来革命性突破，衍生出DCGAN、CycleGAN等众多变体，广泛应用于图像生成、风格迁移等领域。

Auto-Encoding Variational Bayes

Diederik P. Kingma, Max Welling

变分自编码器（VAE）将生成模型与概率图模型结合，通过引入潜在变量实现数据的低维表示学习。其核心思想是通过重参数化技巧将潜在变量的后验分布近似为可微的高斯分布，从而实现端到端的优化。VAE不仅能够生成新样本，还能通过潜在空间的插值操作探索数据的语义结构，成为无监督学习和表示学习的重要工具。

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

BERT是首个基于双向Transformer的预训练模型，通过掩码语言模型（MLM）和下一句预测（NSP）任务学习通用语言表示。其在GLUE、SQuAD等11项NLP任务中刷新SOTA，证明了预训练模型在自然语言理解中的强大泛化能力。BERT的出现彻底改变了NLP研究范式，后续GPT、XLNet等模型均基于其思想发展而来。

Language Models are Unsupervised Multitask Learners

Alec Radford, Jeffrey Wu, Rewon Child, ......

GPT-2是OpenAI提出的基于Transformer的自回归语言模型，通过扩大模型规模（15亿参数）和训练数据（40GB网页文本），实现了无需微调即可直接完成多种NLP任务的能力。其零样本学习性能在摘要、问答等任务中表现出色，引发了对大模型泛化能力的广泛关注，为后续GPT-3等超大规模模型奠定了基础。

Attention Is All You Need

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit,......

Transformer首次完全基于自注意力机制构建，彻底摒弃了RNN和CNN。其编码器-解码器架构通过多头自注意力捕捉全局依赖关系，显著提升了并行计算效率和长序列建模能力。在WMT 2017机器翻译任务中，Transformer以BLEU 41.8的成绩刷新SOTA，成为自然语言处理领域的里程碑，后续BERT、GPT等模型均基于其架构发展。

Human-Level Control Through Deep Reinforcement Learning

Volodymyr Mnih, Koray Kavukcuoglu, David Silver......

深度Q网络（DQN）首次将深度神经网络与强化学习结合，通过经验回放和目标网络技术稳定训练过程，在Atari 2600游戏中达到或超越人类水平。其成功证明了端到端深度强化学习在高维感知环境中的可行性，为后续AlphaGo、AlphaFold等突破提供了关键技术基础，推动了强化学习在机器人、自动驾驶等领域的应用。

Mastering the Game of Go without Human Knowledge

David Silver, Julian Schrittwieser, Karen Simonyan, ......

AlphaGo Zero通过纯强化学习实现自我对弈，仅用3天训练便击败所有人类棋手和前代模型。其核心创新是将价值网络与策略网络合并为单一神经网络，并结合改进的蒙特卡洛树搜索（MCTS）进行决策。该模型无需人类棋谱，完全通过自主探索掌握围棋规律，标志着人工智能从“模仿人类”向“超越人类”的重大跨越。

Long Short-Term Memory

Sepp Hochreiter, Jürgen Schmidhuber

长短期记忆网络（LSTM）通过引入记忆单元和门控机制，有效解决了传统RNN的梯度消失/爆炸问题，能够捕捉长期依赖关系。其设计包含输入门、遗忘门和输出门，可动态控制信息的流动与存储。LSTM在语音识别、语言建模等任务中表现优异，成为处理序列数据的主流模型，后续GRU等变体均基于其核心思想发展。

Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation

Kyunghyun Cho, Bart van Merriënboer, Caglar Gulcehre, ......

门控循环单元（GRU）是LSTM的简化变体，将输入门和遗忘门合并为更新门，并移除输出门，在保持性能的同时降低计算复杂度。其在机器翻译任务中表现出色，与注意力机制结合后进一步提升了序列到序列模型的效果。GRU因其高效性和易用性，成为自然语言处理中序列建模的常用选择。

Gradient-Based Learning Applied to Document Recognition

Yann LeCun, Léon Bottou, Yoshua Bengio, Patrick Haffner

LeNet-5是首个成功应用于手写数字识别的卷积神经网络，包含卷积层、池化层和全连接层，采用反向传播算法进行训练。其在MNIST数据集上的错误率低于0.5%，奠定了CNN在图像识别领域的基础。LeNet-5的设计思想（如局部连接、权值共享）为后续AlexNet、VGGNet等模型提供了重要参考，是深度学习发展史上的标志性工作。

Deep Residual Learning for Image Recognition

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

本文提出的残差网络（ResNet）通过引入跳跃连接解决深度网络的退化问题，允许网络深度扩展至152层而不出现性能下降。其残差块结构（Residual Block）通过“捷径”直接传递输入信息，使得梯度能够有效反向传播，显著提升了训练效率和模型泛化能力。ResNet在ImageNet竞赛中以3.57%的Top-5错误率夺冠，并在目标检测、语义分割等任务中广泛应用，成为计算机视觉领域的基石模型。

Scientific Paper Subscription

Subscribe to receive the latest research papers in your field