
哈工大中文信息处理实验一:汉字字频统计实验报告
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
本报告为哈尔滨工业大学中文信息处理课程中的实验报告之一,主要针对汉字字频进行统计分析。通过此次实验,我们掌握了文本数据预处理及词频统计的方法,并对现代汉语中汉字使用频率分布有了初步认识。
1. 提供前100个汉字高频字的频率统计结果;
2. 分别计算前1、20、100、600、2000、3000及6000汉字的总频次;
3. 计算整个样本集中汉字的熵值;
4. 针对不同规模的语言材料重复上述实验步骤;
5. 用图表形式展示所有结果;
6. 提交详细的实验报告,包括完整的实验过程和最终的结果;同时提交源代码以及可执行程序。
全部评论 (0)
还没有任何评论哟~


