数据集使用kaggle恐怖小说家身份识别项目数据
本项目的数据集为三个恐怖小说作家的文本资料,分类目标是根据文本资料预测文本作者的名字。
探索各类nlp主流算法用于文本分类任务的效果
包括:
1.tfidf
2.count features
3.logistic regression
4.naive bayes
5.svm
6.xgboost
7.全连接深度网络
8.加入LSTM单元的深度网络
9.加入双向LSTM单元的深度网络
10.加入GRU单元的深度网络
每种算法最后根据自定义的logloss函数来评价分类的结果
由于网络原因,数据集不再上传,有需要联系513617866@qq.com