本实验为南京邮电大学自然语言处理课程的一部分,旨在通过实践操作让学生深入了解并掌握文本预处理、词嵌入及基础模型训练等关键技术。
### 南邮自然语言处理实验一知识点解析
#### 一、实验背景与目的
本次实验是南京邮电大学自然语言处理课程的一部分,旨在通过实践操作加深学生对自然语言处理技术的理解及应用。主要聚焦于词典分词和二元语法分词两个核心任务。
1. **词典分词**:基于查找字典的方法进行中文文本的切分。
2. **二元语法分词**:利用二元文法规则进行文本切分,是统计语言模型的应用实例。
#### 二、实验环境配置
- **硬件需求**: 微型计算机
- **软件要求**: Windows操作系统, Python 3.7 或者 3.8
- **工具包**: HanLP, 高性能的JavaNative中文处理库,支持词性标注和命名实体识别等功能。
#### 三、实验内容详解
##### 使用HanLP进行分词
**步骤1:**
在命令行中输入`hanlp segment`后回车以查看分词结果。例如:
- 输入:“商品和服务”
- 输出:“商品n, 和cc, 服务vn”
- 输入:“当下雨天地面积水分外严重”
- 输出:“当p, 下雨天n, 地面n, 积水n, 分外d, 严重a”
**步骤2:**
若仅需分词结果而不含词性标注,使用`--no-tag`参数。例如:
```
hanlp segment --no-tag
```
**步骤3:**
通过文件输入输出进行分词处理。例如,对文本段落件 `input1.txt` 进行分词并将结果保存至 `output1.txt` 中:
```
hanlp segment < input1.txt > output1.txt -a crf
```
示例输出:
```
春分t 最d 具vg 灵性n 的ude1 美b ,w 是vshi 千m 色ng 万m 彩ng 在p 此时r 终于d 迎来v 了ule 盛开v 的ude1 时节n 。w
曾经d 在p 冬日n 寒冷a 中f 蛰伏v 的ude1 土地n ,w 走过v 立春t ,w 走过v 雨水n ,w 走过v 惊蛰t ,w 已经d 完全ad 苏醒vi 。w
春风n 千m 里f ,w 吹开nz 百花n ,w 大江南北n 暖意n 融融z ,w 既c 自外而内l 熏染v 着uzhe 人们n 的ude1 心灵n ,w 又d 自p 内向a 外f ,w 由p 心n 而cc 发v ,w 欢快a 的ude1 灵魂n 在p 满园春色n 里f 自由a 地ude2 徜徉vi 。w
```
##### 句法分析
使用`hanlp parse`指令进行句法分析,以深入理解句子的结构和成分之间的关系。例如:
对句子“徐先生还具体帮助他确定了把画雄鹰、松鼠和麻雀作为主攻目标”进行句法分析:
```
hanlp parse <<< 徐先生还具体帮助他确定了把画雄鹰、松鼠和麻雀作为主攻目标。
```
输出结果:
```
1 徐先生 徐先生 nhnr_4 主谓关系__
2 还 还 dd_4 状中结构__
3 具体 具体 aad_4 状中结构__
4 帮助 帮助 vv_0 核心关系__
5 他 他 rr_4 兼语__
6 确定 确定 vv_4 动宾关系__
7 了 了 uu_6 右附加关系__
8 把 把 pp_15 状中结构__
9 画 画 vv_8 介宾关系__
10 雄鹰 雄鹰 nn_9 动宾关系__
11 、 、 wp w_12 标点符号__
12 松鼠 松鼠 nn_10 并列关系__
13 和 和 cc_14 左附加关系__
14 麻雀 麻雀 nn_10 并列关系__
15 作为 作为 vv_6 动宾关系__
16 主攻 主攻 vvn_17 定中关系__
17 目标 目标 nn_15 动宾