优化基本理论与方法
核心课程,要好好学
怎么不说评分也不布作业呢
与机器学习之间的关系
- 机器学习:训练映射,最小化损失函数
-
凸优化:最小化损失函数的优化方法
-
机器学习的任务主要分为分类(离散)和回归(连续)
分类(Classification)- 0,1 损失
- 分到正确的类 - 损失为 0
- 反之损失为 1
- 0,1 情况下,最小化损失函数是 np 问题,不好解决
- 常用 Hinge Loss 替代,更好计算
- 其他的 Loss 函数
- Squre loss
- Logistic loss
- Cross entropy loss(交叉熵)
最大似然估计(Maximum Likelihood Estimation View)
对数化把积转化为和
一般范式
更细的分类
- 有约束问题
- 无约束问题
-
光滑问题:\(f_i(x)\) 都可微
-
最优解 - 全局最优解
- 局部解 - 局部最优解
一个常用于证明的方法 - 对任何输入,返回 x = 0
不同类型的 oracle
- 零阶
- 一阶
- 二阶
迭代法
上述方案有两个最昂贵的步骤
- 解析复杂性
- 算数复杂性
n 维箱子约束问题
用无穷范数测量距离
Lipschitz 连续
均匀网格法
构造 \((p+1)^n\) 个点,找出最小的点
- 零阶迭代方法
- 定理
上下界估计
复习:线性代数
范数
一阶方法
负梯度方向是最快局部下降
二阶方法
难以理解
f(x) 在 x 处泰勒展开
Hessian - 对称方阵
正半定
正定
\(C^{1.1}_L(R)^n\) 类
引理 1.1
引理 1.2(几何解释)
\(C^{2.2}_M(R)^n\) 类
c3c1 - 凸函数的定义和几条性质
c3c2 - 光滑强突函数
- F1,1_L - 梯度李普希思连续,等价条件
- 强突函数的定义、引理、性质和等价条件
c3c3 - lower complexity bound
c3c4 - 上面两个问题类的梯度方法
c4c1 - 衡量强凸函数梯度方法的速度、Accelerated GD(加速梯度算法),定义 estimate sequence
c4c2 - Accelerated GD, Optimal Scheme(Analysis & variant) 衡量下降速度? 完全看不懂
c4c3 - Convext Set 定义:αx+(1−α)y∈Q
- 引理:level set of 凸集是凸集或空集的 epigraph 是凸集
- 重要运算 - 凸集的 交/和/笛卡尔积/数乘/Convex hull 是凸集
- 凸集情况下〈∇f(x∗), x−x∗〉≥0,x* 是 solution
- 某种情况下有唯一解
c4c4 - Gradient Mapping and the Algorithm(定义好奇怪,不懂
c5c1 - General Convex function - can be nondifferentiable
c5c2 - General Convex
- 连续性和可微性 - locally bounded and Lipschitz 连续
- 一些定理
- Hyperplane
- projection
- main theorems
c6c1 - subgradient, Subdifferential
问题:
- Subdifferential
- Supporting Hyperplane at the boundary point of a convex set