概率论基础:从马尔可夫模型(Markov Model)到贝叶斯网络

摘要

  • 马尔可夫模型(Markov Model )
  • 隐含马尔可夫模型( Hidden Markov Model )
  • 隐含隐马尔可夫模型的应用
  • 马尔可夫链的扩展 —— 贝叶斯网络(Bayesian Network)

19 世纪到 20 世纪初,马尔可夫(Andrey Markov)提出假设,任意一个词 Wi 出现的概率只同它前面的词 Wi-1有关,偷懒但颇为有效的方法。【符合这个假设的随机过程则称为马尔科夫过程,也称为马尔可夫链。】二元模型( Bigram Model )对应的公式如下:

P(S) = P(W1 ,W2, … , Wn)
=P(W1)·P(W2|W1) ·P(W3|W2) ··· P(Wi | Wi-1) ··· P(Wn | Wn-1)

  • 马尔可夫链:符合这个马尔可夫假设的随机过程则称为马尔科夫过程。
1
2
3
4
5
6
7
8
9
10
digraph markov{
label = " Markov 马尔可夫链";
rankdir = LR;
m1->m2[label = "1.0"];
m2->m3[label = "0.6"];
m3->m4[label = "0.3"];
m2->m4[label = "0.4"];
m3->m3[label = "0.7"];
}

  • 隐含马尔可夫模型( Hidden Markov Model )
    最早由20世纪六七十年代,美国数学家鲍姆( Leonard E. Baum ) 发表的一系列论文中提出。隐含马尔可夫模型是马尔可夫链的一个扩展,即任一时刻 t 的状态 St 是不可见的。但是,在每个时刻 t 会输出一个富豪 Ot ,而且 Ot 和 St 相关且仅和 St 相关。

隐马尔可夫模型的应用

隐含马尔可夫模型成功的应用最早是语音识别(Sphinx——大词汇量连续语音识别系统)。根据应用的不同而有不同的名称,例如语音识别中的声学模型( Acoustic Model ),机器翻译中的翻译模型( Translation Model )等。

1、应用领域:翻译

  • 语音识别,声学模型( Acoustic Model )
  • 机器翻译,翻译模型( Translation Model )
  • 中文断词/分词或光学字符识别
  • 拼写纠错,纠错模型( Correction Model)
  • 手写体识别

2、应用领域:图像识别

3、生物信息学 和 基因组学

  • 基因组序列中蛋白质编码区域的预测
  • 对于相互关联的DNA或蛋白质族的建模
  • 从基本结构中预测第二结构元素
  • 通信中的译码过程

隐含马尔可夫模型的训练

  • 知识背景:概率论
  • 围绕隐含马尔可夫模型的基本问题
    1. 给定一个模型,如何计算某个特定输出序列的概率;
      Forward-Backward 算法
      参考书 Frederick Jelinek《Statistical Methods for Speech Recognition(Language, Speech, and Communication)》
    2. 给定一个模型和某个特定的输出序列,如何找到最可能产生这个输出的状态序列
      解码算法:维特比算法
    3. 给定足够量的观测数据,如何估计隐含马尔可夫模型的参数。
      绚练算法:鲍姆-韦尔奇算法(Baum-Welch Algorithm)

扩展阅读

参考文献

推荐文章