原始的随机梯度下降(SGD)适合于低精度的任务,而梯度下降算法适合用于高精度的任务。如果接受一个比较低的精度(应用问题中往往不要求高精度),那么由于SGD每次只利用一个或部分样本的梯度做更新,所以前期迭代较快,导致前期一段时间内比梯度下降算法下降得多。但是由于原始的SGD算法在目标函数强凸的情况下依旧无法做到线性收敛,所以当执行的时候足够长的时候SGD的精度会被梯度下降算法赶超,因为梯度下降算法可以在目标函数强凸的时候有线性收敛速度。