Skip to content
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
44 changes: 37 additions & 7 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -165,25 +165,44 @@

## 自然语言处理(NLP) - 相关项目

学习过程中-内心复杂的变化!!!

```
自从学习NLP以后,才发现国内与国外的典型区别:
1. 对资源的态度是完全相反的:
1) 国内:就好像为了名气,举办工作装逼的会议,就是没有干货,全部都是象征性的PPT介绍,不是针对在做的各位
2)国外:就好像是为了推动nlp进步一样,分享者各种干货资料和具体的实现。(特别是: python自然语言处理)
2. 论文的实现:
1) 各种高大上的论文实现,却还是没看到一个像样的GitHub项目!(可能我的搜索能力差了点,一直没找到)
2)国外就不举例了,我看不懂!
3. 开源的框架
1)国外的开源框架: tensorflow/pytorch 文档+教程+视频(官方提供)
2) 国内的开源框架: 额额,还真举例不出来!但是牛逼吹得不比国外差!(好像 MXNet 是沐神弄的?? 文档+教程+视频)
每一次深入都要去翻墙,每一次深入都要Google,每一次看着国内的说:哈工大、讯飞、中科大、百度、阿里 多牛逼,但是资料还是得国外去找!
有时候真的挺狠的!真的有点瞧不起自己国内的技术环境!

当然谢谢国内很多博客大佬,特别是一些入门的Demo和基本概念。【深入的水平有限,没看懂】
```

![](images/NLP/F94581F64C21A1094A473397DFA42F9C.jpg)

* 入门教程需看资料【添加比赛链接】: https://github.com/apachecn/MachineLearning/tree/dev/docs/NLP
* Python 自然语言处理 第二版: https://usyiyi.github.io/nlp-py-2e-zh

### 中文分词:

* 构建DAG图
* 动态规划查找,综合正反向(正向加权反向输出)求得DAG最大概率路径
* 使用了SBME语料训练了一套 HMM + Viterbi 模型,解决未登录词问题


### 1.文本分类(Text Classification)

文本分类是指标记句子或文档,例如电子邮件垃圾邮件分类和情感分析。

下面是一些很好的初学者文本分类数据集。

1. [路透社Newswire主题分类](http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html)(路透社-21578)。1987年路透社出现的一系列新闻文件,按类别编制索引。[另见RCV1,RCV2和TRC2](http://trec.nist.gov/data/reuters/reuters.html)。
2. [IMDB电影评论情感分类](斯坦福)([http://ai.stanford.edu/~amaas/data/sentiment/](http://ai.stanford.edu/~amaas/data/sentiment/))。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。
2. [IMDB电影评论情感分类(斯坦福)](http://ai.stanford.edu/~amaas/data/sentiment)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。
3. [新闻组电影评论情感分类(康奈尔)](http://www.cs.cornell.edu/people/pabo/movie-review-data/)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。

有关更多信息,请参阅帖子:
Expand Down Expand Up @@ -216,6 +235,11 @@
[布朗大学现代美国英语标准语料库](https://en.wikipedia.org/wiki/Brown_Corpus)。大量英语单词样本。
[谷歌10亿字语料库](https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark)。

> 句子相似度识别

* 项目地址: https://www.kaggle.com/c/quora-question-pairs
* 解决方案: word2vec + Bi-GRU

> 文本纠错

* bi-gram + levenshtein
Expand All @@ -237,9 +261,6 @@ mage字幕是为给定图像生成文本描述的任务。

### 4.机器翻译(Machine Translation)

* Encoder + Decoder(Attention)
* 参考案例: http://pytorch.apachecn.org/cn/tutorials/intermediate/seq2seq_translation_tutorial.html

机器翻译是将文本从一种语言翻译成另一种语言的任务。

下面是一些很好的初学者机器翻译数据集。
Expand All @@ -250,6 +271,11 @@ mage字幕是为给定图像生成文本描述的任务。

[统计机器翻译](http://www.statmt.org/)

> 机器翻译

* Encoder + Decoder(Attention)
* 参考案例: http://pytorch.apachecn.org/cn/tutorials/intermediate/seq2seq_translation_tutorial.html

### 5.问答系统(Question Answering)

问答是一项任务,其中提供了一个句子或文本样本,从中提出问题并且必须回答问题。
Expand All @@ -275,8 +301,6 @@ mage字幕是为给定图像生成文本描述的任务。

### 7.自动文摘(Document Summarization)

* textrank

文档摘要是创建较大文档的简短有意义描述的任务。

下面是一些很好的初学者文档摘要数据集。
Expand All @@ -294,6 +318,11 @@ mage字幕是为给定图像生成文本描述的任务。
* Bi-LSTM CRF
* 参考案例: http://pytorch.apachecn.org/cn/tutorials/beginner/nlp/advanced_tutorial.html


> 文本摘要

* word2vec + textrank

### 进一步阅读

如果您希望更深入,本节提供了其他数据集列表。
Expand Down Expand Up @@ -441,4 +470,5 @@ mage字幕是为给定图像生成文本描述的任务。
资料来源:

* https://machinelearningmastery.com/datasets-natural-language-processing
* 【比赛收集平台】: https://github.com/iphysresearch/DataSciComp

3 changes: 2 additions & 1 deletion docs/NLP/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -70,7 +70,8 @@ https://github.com/Embedding/Chinese-Word-Vectors
- http://www.hfl-tek.com/cmrc2018
+ 2018机器阅读理解技术竞赛 这也是结束了的 NLP
- http://mrc2018.cipsc.org.cn

+ 句子文本相似度计算
- https://www.kaggle.com/c/quora-question-pairs

* * *

Expand Down