这里介绍的马尔科夫链算法实现的功能是:读入一段英文文本,构造出由这个文本中语言使用情况而形成的统计模型,然后根据统计模型随机输出另一段文本。
马尔科夫链算法的基本思想是:将输入想象成一些相互重叠的短语构成的序列,把每个短语分割为两个部分:一部分是由多个词构成的前缀,另一部分是只包含一个词的后缀。马尔科夫链算法能够生成输出短语的序列,其方法是依据原文本的统计性质,随机地选择跟在前缀后面的特定后缀。采用三个词的短语就能够很好工作,这三个词中前两个词构成前缀来选择作为后缀的一个词 设置:
w1和w2为文本的前两个词
输出w1和w2
循环: 随机地选出w3,它是文本中w1w2的后缀中的一个 打印w3 把w1和w2分别换成w2和w3 重复循环
选择二词前缀,则每个输出词w3都是根据它前面的一对词(w1,w2)得到的。前缀中词的个数对设计本身并没有影响,程序应该能对付任意的前缀长度。我们把一个前缀和它所有可能后缀的集合放在一起,称其为一个状态。
为了说明问题,假设我们要基于本章开头的引语里的几个句子生成一些随机文本。这里采用 的是两词前缀:
Show your flowchars and conceal your tables and I will be mystified. Show your tables and your flowcharts will be obvious. (end) 下面是一些输入的词对和跟随它们之后的词:
输入前缀 跟随的后缀
Show your flowcharts tables
your flowcharts and will
flowcharts and conceal
flowcharts will be your tables and and
will be mystified. obvious.
be mystified Show
be obvious (end)
处理这个文本的马尔可夫算法将首先打印出 Show your,然后随机取出flowcharts或table。如果选中了前者,那么现在前缀就变成 your flowcharts,而下一个词应该是and或will。如果它选取 tables,下一个词就应该是 and。这样继续下去,直到产生出足够多的输出,或者在找后缀时遇到了结束标志。
C++实现:
#include#include
运行结果1:
运行结果2: