
该工具用于从Patreon平台抓取数据。
5星
- 浏览量: 0
- 大小:None
- 文件类型:None
简介:
请执行指示,编辑检测关键词列表,并添加与您搜索的内容相关的关键词,每行一个词。 随后运行脚本,该脚本将遍历所有 `datadump` 和 `patreon` 资源,以查找指定的关键词。 `python detect_keywords.py` 的结果将生成一个更新的版本,其中包含一些额外的列信息。 生成的结果文件可以从以下位置访问:完整版,它包含了所有条目以及带有和不带有关键词的标识;以及苗条版本,仅包含带有关键词的条目。 此结果文件已排除原始数据文件中无效的条目(例如那些包含类似 `?user=` 模式的 `Graphtreon` 条目)并添加了新的列: `slug`、`patreon_url`、`keywords_count` 和 `keywords_found`。 进一步地,对结果文件进行按 `keywords_count > 0` 过滤操作,以识别所有包含匹配关键词的记录。 使用 `fetch.py` 命令来读取并下载页面内容到指定位置(),同时处理 `datadump` 。
全部评论 (0)
还没有任何评论哟~


