From 1e9c7d98f875ba0b62afb92a48d3c72a8d99c24e Mon Sep 17 00:00:00 2001
From: jiangzhonglian <jiang-s@163.com>
Date: Thu, 2 Aug 2018 19:15:49 +0800
Subject: [PATCH 1/2] =?UTF-8?q?=E6=9B=B4=E6=96=B0=EF=BC=9A=20nlp-=E5=8F=A5?=
 =?UTF-8?q?=E5=AD=90=E7=9B=B8=E4=BC=BC=E5=BA=A6=E8=AF=86=E5=88=AB=20?=
 =?UTF-8?q?=E9=A1=B9=E7=9B=AE=E5=9C=B0=E5=9D=80=E5=92=8C=E8=A7=A3=E5=86=B3?=
 =?UTF-8?q?=E6=96=B9=E6=A1=88?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 README.md          | 9 +++++++--
 docs/NLP/README.md | 3 ++-
 2 files changed, 9 insertions(+), 3 deletions(-)

diff --git a/README.md b/README.md
index 0a4ea82b8..352da179e 100644
--- a/README.md
+++ b/README.md
@@ -175,7 +175,6 @@
 * 动态规划查找，综合正反向（正向加权反向输出）求得DAG最大概率路径
 * 使用了SBME语料训练了一套 HMM + Viterbi 模型，解决未登录词问题
 
-
 ### 1.文本分类（Text Classification）
 
 文本分类是指标记句子或文档，例如电子邮件垃圾邮件分类和情感分析。
@@ -183,7 +182,7 @@
 下面是一些很好的初学者文本分类数据集。
 
 1. [路透社Newswire主题分类](http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html)（路透社-21578）。1987年路透社出现的一系列新闻文件，按类别编制索引。[另见RCV1，RCV2和TRC2](http://trec.nist.gov/data/reuters/reuters.html)。
-2. [IMDB电影评论情感分类]（斯坦福）（[http://ai.stanford.edu/~amaas/data/sentiment/](http://ai.stanford.edu/~amaas/data/sentiment/)）。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。
+2. [IMDB电影评论情感分类（斯坦福）](http://ai.stanford.edu/~amaas/data/sentiment)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。
 3. [新闻组电影评论情感分类（康奈尔）](http://www.cs.cornell.edu/people/pabo/movie-review-data/)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。
 
 有关更多信息，请参阅帖子：
@@ -216,6 +215,11 @@
     [布朗大学现代美国英语标准语料库](https://en.wikipedia.org/wiki/Brown_Corpus)。大量英语单词样本。
     [谷歌10亿字语料库](https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark)。
 
+> 句子相似度识别
+
+* 项目地址: https://www.kaggle.com/c/quora-question-pairs
+* 解决方案: word2vec + Bi-GRU
+
 > 文本纠错
 
 * bi-gram + levenshtein
@@ -441,4 +445,5 @@ mage字幕是为给定图像生成文本描述的任务。
 资料来源:
 
 * https://machinelearningmastery.com/datasets-natural-language-processing
+* 【比赛收集平台】: https://github.com/iphysresearch/DataSciComp
 
diff --git a/docs/NLP/README.md b/docs/NLP/README.md
index 9c5748c1b..17eb671db 100644
--- a/docs/NLP/README.md
+++ b/docs/NLP/README.md
@@ -70,7 +70,8 @@ https://github.com/Embedding/Chinese-Word-Vectors
     - http://www.hfl-tek.com/cmrc2018
 + 2018机器阅读理解技术竞赛  这也是结束了的 NLP
     - http://mrc2018.cipsc.org.cn
-
++ 句子文本相似度计算
+    - https://www.kaggle.com/c/quora-question-pairs
 
 * * * 
 

From 3a4563e4ea977216464379fcf9651676b3013229 Mon Sep 17 00:00:00 2001
From: jiangzhonglian <jiang-s@163.com>
Date: Mon, 13 Aug 2018 23:18:50 +0800
Subject: [PATCH 2/2] =?UTF-8?q?nlp-=E5=AD=A6=E4=B9=A0=E8=BF=87=E7=A8=8B?=
 =?UTF-8?q?=E4=B8=AD-=E5=86=85=E5=BF=83=E5=A4=8D=E6=9D=82=E7=9A=84?=
 =?UTF-8?q?=E5=8F=98=E5=8C=96=EF=BC=81=EF=BC=81=EF=BC=81?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 README.md | 35 ++++++++++++++++++++++++++++++-----
 1 file changed, 30 insertions(+), 5 deletions(-)

diff --git a/README.md b/README.md
index 352da179e..c851b2983 100644
--- a/README.md
+++ b/README.md
@@ -165,9 +165,29 @@
 
 ## 自然语言处理(NLP) - 相关项目
 
+学习过程中-内心复杂的变化！！！
+
+```
+自从学习NLP以后，才发现国内与国外的典型区别:
+1. 对资源的态度是完全相反的:
+  1) 国内：就好像为了名气，举办工作装逼的会议，就是没有干货，全部都是象征性的PPT介绍，不是针对在做的各位
+  2）国外：就好像是为了推动nlp进步一样，分享者各种干货资料和具体的实现。（特别是: python自然语言处理）
+2. 论文的实现：
+  1) 各种高大上的论文实现，却还是没看到一个像样的GitHub项目！（可能我的搜索能力差了点，一直没找到）
+  2）国外就不举例了，我看不懂！
+3. 开源的框架
+  1）国外的开源框架： tensorflow/pytorch 文档+教程+视频（官方提供）
+  2) 国内的开源框架: 额额，还真举例不出来！但是牛逼吹得不比国外差！（好像 MXNet 是沐神弄的？？ 文档+教程+视频）
+每一次深入都要去翻墙，每一次深入都要Google，每一次看着国内的说：哈工大、讯飞、中科大、百度、阿里 多牛逼，但是资料还是得国外去找！
+有时候真的挺狠的！真的有点瞧不起自己国内的技术环境！
+
+当然谢谢国内很多博客大佬，特别是一些入门的Demo和基本概念。【深入的水平有限，没看懂】
+```
+
 ![](images/NLP/F94581F64C21A1094A473397DFA42F9C.jpg)
 
 * 入门教程需看资料【添加比赛链接】: https://github.com/apachecn/MachineLearning/tree/dev/docs/NLP
+* Python 自然语言处理 第二版: https://usyiyi.github.io/nlp-py-2e-zh
 
 ### 中文分词：
 
@@ -241,9 +261,6 @@ mage字幕是为给定图像生成文本描述的任务。
 
 ### 4.机器翻译（Machine Translation）
 
-* Encoder + Decoder(Attention)
-* 参考案例: http://pytorch.apachecn.org/cn/tutorials/intermediate/seq2seq_translation_tutorial.html
-
 机器翻译是将文本从一种语言翻译成另一种语言的任务。
 
 下面是一些很好的初学者机器翻译数据集。
@@ -254,6 +271,11 @@ mage字幕是为给定图像生成文本描述的任务。
 
 [统计机器翻译](http://www.statmt.org/)
 
+> 机器翻译
+
+* Encoder + Decoder(Attention)
+* 参考案例: http://pytorch.apachecn.org/cn/tutorials/intermediate/seq2seq_translation_tutorial.html
+
 ### 5.问答系统（Question Answering）
 
 问答是一项任务，其中提供了一个句子或文本样本，从中提出问题并且必须回答问题。
@@ -279,8 +301,6 @@ mage字幕是为给定图像生成文本描述的任务。
 
 ### 7.自动文摘（Document Summarization）
 
-* textrank
-
 文档摘要是创建较大文档的简短有意义描述的任务。
 
 下面是一些很好的初学者文档摘要数据集。
@@ -298,6 +318,11 @@ mage字幕是为给定图像生成文本描述的任务。
 * Bi-LSTM CRF
 * 参考案例: http://pytorch.apachecn.org/cn/tutorials/beginner/nlp/advanced_tutorial.html
 
+
+> 文本摘要
+
+* word2vec + textrank
+
 ### 进一步阅读
 
 如果您希望更深入，本节提供了其他数据集列表。