Credit Risk Modeling

Credit Risk Modeling

《Python金融大数据风控建模实战》思维导图

第一篇:智能风控背景 (Intelligent Risk Control Background)

  • 第1章:金融科技介绍
    • 金融科技发展历程
      • 1.0 (模拟到数字) -> 2.0 (数字化) -> 3.0 (智能化/Fintech) -> 3.5 (新兴市场)
    • 核心技术
      • 大数据分析、人工智能、云计算、区块链
    • 智能风控与评分卡
      • 评分卡类型:申请评分卡 (A卡)、行为评分卡 (B卡)、催收评分卡 (C卡)
      • 开发流程:需求分析 -> 数据收集 -> 清洗预处理 -> 特征工程 -> 模型训练 -> 评估 -> 上线监控
  • 第2章:机器学习介绍
    • 基本概念
      • 定义:从数据中学习模式,用于预测
    • 分类
      • 有监督学习 (分类/回归)
      • 无监督学习 (聚类/降维)
      • 强化学习 (奖励/惩罚)
    • 深度学习关系
      • DNN/CNN/RNN/LSTM在处理时序和非结构化数据中的应用
  • 第3章:评分卡模型介绍
    • 申请评分卡 (A卡)
      • 核心逻辑:拒绝违约客户
      • 好坏样本定义:滚动率分析 (Rolling Rate Analysis)
      • 观察期与表现期 (Observation & Performance Window)
    • 行为评分卡 (B卡)
      • 核心逻辑:贷后管理,动态评估风险
      • 特征工程:时间切片特征 (Time-slice features)
    • 催收评分卡 (C卡)
      • 分类:轻度违约、重度违约、核销
    • 反欺诈模型
      • 区别:欺诈风险 vs 信用风险 (还款意愿 vs 还款能力)

      第二篇:评分卡理论与实战基础 (Foundation of Scorecard Theory)

      (核心部分:构建基于逻辑回归的标准评分卡)
    • 第4章:数据清洗与预处理
      • 数据集成:多数据源合并、数据一致性
      • 数据清洗:特殊字符清洗、格式转换
      • 缺失值处理:不仅是填充,缺失值本身可作为特征 (不推荐直接插补,建议作为特殊编码)
      • 异常值处理:箱线图分析、盖帽法,
    • 第5章:变量编码方法
      • 无监督编码
        • One-hot编码 (独热)
        • Dummy variable (哑变量)
        • Label编码
      • 有监督编码
        • WOE编码 (Weight of Evidence)
          • 计算公式:$ln(\frac{Bad_i/Bad_{total}}{Good_i/Good_{total}})$
          • 优势:线性化非线性关系、处理缺失值、增强解释性
    • 第6章:变量分箱方法
      • 分箱目的:增加稳定性、处理缺失值、增加非线性
      • 分箱方法
        • Chi-merge (卡方分箱 - 自底向上)
        • Best-KS分箱 (自顶向下)
        • 最优IV分箱
        • 基于树的分箱 (信息增益)
    • 第7章:变量选择
      • 过滤法 (Filter)
        • IV值 (Information Value):衡量变量预测能力,通常IV>0.02才有效
        • 相关性分析:去除共线性高的变量
      • 包装法 (Wrapper):逐步回归 (Stepwise)
      • 嵌入法 (Embedded):L1正则化 (Lasso)、随机森林特征重要性
    • 第8章:Logistic回归模型
      • 原理:Sigmoid函数将线性回归结果映射到概率
      • 损失函数:对数似然函数 -> 梯度下降求解
      • 过拟合与欠拟合:正则化 (L1/L2) 防止过拟合
    • 第9章:模型的评估指标
      • 混淆矩阵衍生:准确率、精确率 (Precision)、召回率 (Recall)
      • ROC与AUC:衡量模型排序能力,AUC越接近1越好
      • KS值 (K-S Statistics):衡量好坏样本区分度最大差值,风控常用
      • PSI (Population Stability Index):衡量模型稳定性,
    • 第10章:评分卡分数转化
      • PDO (Points to Double the Odds):违约概率翻倍时分数的变动值
      • 公式:$Score = A - B \times log(Odds)$
      • 变量分值计算:将WOE值转化为具体分数
    • 第11章:模型在线监控
      • 稳定性监控:主要看 PSI 指标
      • 单调性监控:Kendall's Tau 指标
      • 性能监控:KS值、通过率、坏账率的变化

      第三篇:评分卡理论与实战进阶 (Advanced Topics)

      (解决复杂问题与提升模型性能)
    • 第12章:样本不均衡处理
      • 欠采样 (Undersampling):随机欠采样、NearMiss算法
      • 过采样 (Oversampling):SMOTE算法
      • 集成方法:EasyEnsemble, BalanceCascade,
    • 第13章:特征工程进阶
      • 特征交叉、FM特征交叉
    • 第14-16章:其他机器学习模型
      • 决策树 (原理与剪枝)
      • 神经网络 (Neural Networks)
      • 支持向量机 (SVM)
    • 第17章:集成学习 (Ensemble Learning)
      • Bagging:随机森林 (Random Forest)
      • Boosting:Adaboost, GBDT, XGBoost
    • 第18章:模型融合
      • Blending
      • Stacking

      第四篇:实战案例 (Practical Case)

    • 第19章:Lending Club数据集实战
      • 完整复现整个流程:
          1. 数据获取与探索
          1. 数据清洗与预处理
          1. 特征工程 (分箱、WOE)
          1. 模型构建 (Logistic Regression)
          1. 模型评估 (KS, AUC)
          1. 生成评分卡 (Scorecard Scaling)
申请评分卡
行为评分卡
银行级PD模型开发