数据挖掘领域实用Github项目推荐

作者:长行

创建时间:2020.05.24

更新时间:2020.05.29

本文持续更新…

Python基础

Python练习册,每天一个小程序(11.0k星标)

[项目名] show-me-the-code

[作者] Yixiaohan

25个实用性较高的案例,包括一些实用性的技巧;但是案例也有些难度,适合于对Python基础语法已经比较熟悉的人,不适合完全的初学者。

Python 100天从新手到大师(86.4k星标)

[项目名] Python-100-Days

[作者] jackfrued

非常优秀的Python入门教程, 结构清晰,内容广泛,包含Python基础、数据库、Web前端、Django、爬虫等,适合于Python初学者。

数据采集

网易云音乐 API(15.3k星标)

[语言] Node.js

[项目名] NeteaseCloudMusicApi

[作者] Binaryify

[文档地址] https://binaryify.github.io/NeteaseCloudMusicApi/#/

147个网易云音乐API的详细说明,包括登录、用户、歌曲、评论、电台、通知等类型的API。可以直接在Node.js中调用,也可以依据文档中对API的说明自行使用API。

Twitter的Python爬虫(2.2k星标)

[语言] Python

[地址] twitter-scraper

[作者] bisguzar

不需要API权限、不需要模拟登陆,即可采集Twitter用户的信息(粉丝量、发布量等)和Twitter用户发布的推文信息(发布时间、内容等)。但是当前版本抓取的Twitter用户粉丝量可能出错(测试已发现当用户没有关注其他人时,抓取的粉丝量有误;其他情况是否有误未知)。

直播平台弹幕爬虫(0.6k星标)

[语言] Python

[项目名] danmu

[作者] jiangxiaolin

曾包括直接可用的斗鱼、熊猫、战旗、全民、Bilibili等多个直播平台的弹幕爬虫,但因很久没有更新,部分爬虫因直播网站的更新而不能使用。亲测至少斗鱼弹幕爬虫仍可正常使用。

NLP

HanLP 中文自然语言处理(19.5k星标)

[Java项目名] HanLP

[Python项目名] pyhanlp

[作者] hankcs

功能齐完善,性能高效、可拓展性强的中文自然语言处理包。包括基于多种模型的中文分词、词性标注、命名实体识别、信息抽取、文本聚类、文本分类、依存句法分析、语义依存分析等功能。

中文自然语言处理资源库(20.7k星标)

[项目名] funNLP

[作者] fighting41love

其中包含各类中文词库、工具包和学习资料等内容,部分工具包附有调用方法的说明。

中文词向量资源库(7.2k星标)

[项目名] Chinese-Word-Vectors

[作者] Embedding

包括100多个不同corpus、context features、representations的预训练的中文词向量模型,可用于词向量的分析。其中,语料包括百度百科、人民日报、知乎问答、微博等,可满足不同领域的词向量需求。

中文常用停用词表(1.4k星标)

[项目名] stopwords

[作者] goto456

包含文本格式(一行一词)的”百度停用词表“、”哈工大停用词表“、”四川大学机器智能实验室停用词表“和作者自己整理的停用词表。

HarvestText 文本挖掘和预处理工具(0.6k星标)

[语言] Python

[项目名] HarvestText

[作者] blmoistawinde

[文档地址] https://harvesttext.readthedocs.io/en/latest/

包含文本清洗、新词发现、情感分析、关系网络、简易问答系统等功能,Demo和文档都写得比较清楚,方便学习使用。

中文自然语言处理资料整理

[语言] Python

[项目名] LinLP

[作者] jiangxiaolin

中文自然语言处理经典算法、paper和相关实践整理,包括新词发现、主题模型、词性标注、情感分析等内容,适合学习以上内容,不适合直接作为模块调用。

已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 游动-白 设计师:白松林 返回首页