FindTor: Your Gateway to the Tor Network

https://zhuanlan.zhihu.com/p/696837502

May 9, 2024 · 自从梯度下降（Gradient Descent）算法诞生以来，众多变体被提出，以适应不同的需求和场景。其中， Adam（Adaptive Moment Estimati

https://zhuanlan.zhihu.com/p/686784015

为什么 Adam 是深度学习中最受欢迎的优化器？让我们通过深入了解其数学原理，并重新创建算法来理解它。 Adam，这个名字在许多获奖的

https://zhuanlan.zhihu.com/p/20393170694

在深度学习领域，优化器的选择对模型的训练效率和性能起着决定性作用。 Adam优化器作为一种自适应优化算法，凭借其根据历史梯度信�

https://zhuanlan.zhihu.com/p/643452086

AdamW目前是大语言模型训练的默认优化器，而大部分资料对Adam跟AdamW区别的介绍都不是很明确，在此梳理一下Adam与AdamW的计算流程，明确�

https://www.zhihu.com/question/323747423/answers/updated

Adam：结合了动量和自适应学习率的优势，成为目前最常用、最稳定的优化算法之一。手动实现这些优化器不仅仅是代码练习，更是一次�

https://www.zhihu.com/question/323747423/answer/790457991

我们组刚中的一篇 ICML2022 Oral 的论文就是从动力学角度理论分析了Adam，特别是Adam相对于SGD的优劣之处。一句话结论： Adam逃离鞍点很快�

https://zhuanlan.zhihu.com/p/1899046865720312845

Adam 是一种结合了 Momentum动量思想（利用累加历史梯度信息更新梯度，减少震荡，加速通往谷底）和 RMSProp自适应学习率思想（记录各�

https://zhuanlan.zhihu.com/p/377968342

Adam吸收了Adagrad（自适应学习率的梯度下降算法）和动量梯度下降算法的优点，既能适应稀疏梯度（即自然语言和计算机视觉问题），�

https://zhuanlan.zhihu.com/p/1928484130594747517

基本原理 Adam本质上是一个优化器，用于优化模型的参数。这样的优化步骤可以由以下公式描述： θ t = θ t 1 η m ^ t v ^ t + ϵ ，其中 η 为

https://zhuanlan.zhihu.com/p/90169812

论文"ADAM: A METHOD FOR STOCHASTIC OPTIMIZATION"提出了 Adam 优化算法（adaptive moment estimation)，用于解决机器学习中的大数据量，高特征纬度的优化