Gradient Descent & Learning Rate

IME 775 — Chapter 8: Visualizing the optimization process

Loss Function

Learning Rate (r) r = 0.100

Initial w w₀ = -2.0

Loss Surface L(w)

Loss vs Iteration

Iteration

0

w

-2.000

L(w)

17.000

∂L/∂w

-8.000

Status

Ready