条件随机场的知识点整理。
判别式和生成式
判别式: 直接将数据的Y(或者label),根据所提供的features,学习,最后画出了一个明显或者比较明显的边界
判别式的模型是直接对条件概率建模( 直接根据X特征来对Y建模训练 )
生成式:从训练样本中学习一个联合分布P(X,Y),然后再根据新样本x,通过条件概率计算出P(Y|X) = P(X,Y)/P(X)
在训练阶段只对P(X,Y)建模:P(X,Y) = P(X|Y)*P(Y)
HMM 生成模型
几个要素:
- 隐含状态序列 N
- 观测集 M
- 状态转移矩阵 N*N
- 观测概率矩阵 N*M
- 初始状态矩阵 N种可能
属于有向图生成式模型,直接对联合概率建模
状态转移遵循1阶马尔可夫假设,1-gram (这是限制HMM性能的点)
HMM的2个假设:
- 齐次马尔可夫假设:假设隐马尔科夫链在任意时刻t的状态只依赖于前一时刻的状态
- 观测独立性假设:任意时刻的观测只依赖于该时刻的马尔科夫链的状态
学习训练过程
极大似然估计
Baum-Welch(前向后向)
解码
维特比
CRF 判别式模型
在序列标注中常常会用到条件随机场,一般都是线性链条件随机场。简单的来说,是只考虑概率图中相邻变量(最大团)是否满足特征函数的模型。(这里是一个马尔可夫假设)马尔科夫性是是保证或者判断概率图是否为概率无向图的条件
- 在CRF的序列标注问题中,我们要计算的是条件概率 ,CRF做了2个假设
- 指数族分布
- 输出之间的关联仅发生在相邻位置,并且关联是指数加性的。
CRF可以在标签预测中添加一些约束,需要制定一些特征模板
lstm+crf,可以通过lstm学习隐层参数,不需要人工制定特征模板
lstm+crf学习的是:lstm的参数和crf的状态转移概率
训练CRF
最大似然方法
解码
从m^n条路径中选出最优路径:维特比解码
CRF和HMM的不同
判别式和生成式(概率无向图和有向图模型)
CRF是对所有的特征进行全局归一化(全局最优),HMM的输出有独立性假设(局部最优)