
Matlab编写的纯文本爬虫,并能提取文本规则。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
matlab开发的最简代码text_extraction实现了一个纯文本爬虫,并用于提取特定文本规则。该程序旨在从某个外文网站收集特定文本文档,并将提取的文本存储在本地文件夹source中。文件命名采用文档名称与middle_sample.csv中前六列字符串的任意复合连接方式,此处使用“-”作为连接符。对于每个爬取到的文档,程序会根据预设的规则,从文本中筛选出部分字符串,并将其保存到本地文件夹result中,文件命名方式与source文件夹中的文件相同。提取规则要求在原始文本中最后一次出现特定关键句keyword之前的字符串中寻找第一次出现另一个关键句anotherkeyword后面的所有字符串进行提取。例如,如果小写文本中table的首次出现索引为1000,则在原始文本中对应索引为800之后的所有字符将被抽取出来,并命名为text2。若所有table在小写文档中的索引均小于keyword在原始文档首次出现的索引时,则直接将该原始文档另存为新文档。原始爬取下来的原始文本存储于文档说明/source/目录下。由于初始阶段未发现符合后续文本提取规则的文档,因此额外添加了一个满足该规则的示例文档以供测试验证。
全部评论 (0)


