
C语言-信息论-英语马尔科夫信源熵实验
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本实验结合C语言编程、信息论和英语语料分析,旨在计算马尔科夫信源模型下的熵值,探索自然语言的信息度量。
进行英语信源熵实验:
1. 收集10段英文文献,每段至少包含1万个字符,并确保这些文献内容的相关性不高。
2. 预处理:将大写字母转换成小写(统计时不分大小写),删除标点符号、换行符和回车符等特殊字符(用单个空格替换所有上述字符),同时去除连续的多个空格。
3. 计算信源熵:分别计算26个英文字母及一个空白字符的概率,进而得出H1值。
4. H2熵计算:统计每个字母出现的一阶条件概率,并据此求出对应的H2值;将这些结果与教材中的相应内容进行比较分析。
5. 利用信源概率和一阶马尔可夫模型(即步骤3得到的H2)来随机生成一段英文序列,然后对比所生成文本的可读性。
实验要求:对每段文献重复上述所有步骤,并将结果相互之间加以对照;提供完整的代码并做好注释。报告中需附上一份使用过的英文文献样本。
全部评论 (0)
还没有任何评论哟~


