Lin [2] 把 LASSO 推广为组 LASSO (group LASSO), 在变量选择时, 能够保持变量的组结构; Meier 等 人 [3] 将组 LASSO 拓展至 logistic 回归. 考虑到变量个数 p 大于样本量 n 时 LASSO 最多能选出 n 个 变量, 以及自变量存在组效应 (group effect) 时不能正确选择变量等问题, Zou 和 Hastie [4] 给出了综合 LASSO 和岭回归优势的 elastic net 方法; 在大样本下, LASSO 并不满足 oracle 性质, 即变量选择的 相合性和模型系数估计的一致性, Zou [5] 提出了满足 oracle 性质的自适应 LASSO; 进一步, Wang 和 Leng [6] 将自适应 LASSO 推广到了具有组结构的场合, 并证明了自适应组 LASSO 也具有 oracle 性质. 上述方法中, 首要的工作是计算正则化路径 (regularization path) β(λ) = arg min β Γ(β; λ) = arg min β (L(β) + λT (β)), (1.1) 马景义等: 广义线性模型组 LASSO 路径算法 其中 L(β) 为损失函数, 衡量在样本上, 自变量集 x 的模型对因变量 y 的拟合效果, λ 为路径参数, T (β) 为罚函数, 不同的罚函数选择对应不同类型的收缩估计方法; 其次, 通过交叉验证等工具进行模 型选择, 或者变量选择. 在普通回归问题中, LASSO 正则化路径的计算相对容易, Osborne 等人 [7] 证明了 LASSO 的系数 估计路径具有分段线性 (piece-wise linear) 性质, 意味着只需要找到路径变点的位置, 就可以给出精确 的β(λ). 进一步, 把 LASSO 作为一个特例, Efron 等人 [8] 给出了更简洁的最小角度回归 (least angle regression, LAR). 尽管广义线性模型的 LASSO 路径不具有分段线性性质, Park 和 Hastie [9] 仍然将最 小角度回归的思路推广到计算广义线性模型的 LASSO 路径中, 寻找那些 λ 值, 恰好有变量进入或者 退出模型, 找到这些 λ 值后, 计算相应的 LASSO 估计, 然后, 线性近似整个路径β(λ). 在广义线性模 型组 LASSO 路径计算中, 普遍使用格点法 [10] 选择 λ 值; 如果能推广 Park 和 Hastie [9] 的思路, 用较 少的 λ 值, 把自变量进入或者退出模型的顺序有效地刻画出来, 就可以精确地选择变量. 在高维问题 中, LASSO 类方法的一个重要作用即变量选择 [11] , 上述性质尤为重要. LASSO 或者组 LASSO 估计, 即给定 λ 后, 在β(λ) 的计算中, 一般采用 Tseng 和 Yun [12] 的坐标 下降 (coordinate descent) 方法. 在普通线性回归问题中, Fu [13] 的 shooting 算法, Yuan 和 Lin [2] 的组 LASSO 估计算法均可视为坐标下降方法的特例. Meier 等人 [3] 把坐标下降算法运用到 logistic 回归的 组 LASSO 估计的计算中, 在每一步迭代中使用 L(β) 的一阶导给出下降方向, 然后按照 Armijo 规则 选出步长. 该做法仅利用了 L(β) 的一阶导信息, 可能会使得使用 Armijo 规则选择步长的计算步骤较 多, 步长较小, 目标函数的下降较慢. 在极端情形下, 由于步长太小, 以至于在计算机中被表达为 0, 使 得算法不能按理论预期收敛, 进一步的讨论见第 2.3 小节. 本文的工作有两个重点. 首先, 推广 Park 和 Hastie [9] 选择 λ 值的算法到广义线性模型组 LASSO 路径的计算中, 并利用模拟数据和实际数据, 分析其相比格点法的优势; 其次, 给出基于 L(β) 一阶导 和二阶导信息的坐标下降算法, 计算给定 λ 值的组 LASSO 估计 (为了区别, 本文中把利用 L(β) 一阶 导计算下降方向的坐标下降算法称为一阶近似坐标下降算法, 本文的算法为二阶近似坐标下降算法). 本文给出的广义线性模型组 LASSO 算法可以很容易地推广至含组结构约束的 elastic net 和自适应组 LASSO 等正则化方法中. 本文结构如下: 第 2 节给出广义线性模型组 LASSO 路径计算中选择 λ 取值的算法, 以及计算组