From 1e9c7d98f875ba0b62afb92a48d3c72a8d99c24e Mon Sep 17 00:00:00 2001 From: jiangzhonglian Date: Thu, 2 Aug 2018 19:15:49 +0800 Subject: [PATCH 1/2] =?UTF-8?q?=E6=9B=B4=E6=96=B0=EF=BC=9A=20nlp-=E5=8F=A5?= =?UTF-8?q?=E5=AD=90=E7=9B=B8=E4=BC=BC=E5=BA=A6=E8=AF=86=E5=88=AB=20?= =?UTF-8?q?=E9=A1=B9=E7=9B=AE=E5=9C=B0=E5=9D=80=E5=92=8C=E8=A7=A3=E5=86=B3?= =?UTF-8?q?=E6=96=B9=E6=A1=88?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 9 +++++++-- docs/NLP/README.md | 3 ++- 2 files changed, 9 insertions(+), 3 deletions(-) diff --git a/README.md b/README.md index 0a4ea82b8..352da179e 100644 --- a/README.md +++ b/README.md @@ -175,7 +175,6 @@ * 动态规划查找,综合正反向(正向加权反向输出)求得DAG最大概率路径 * 使用了SBME语料训练了一套 HMM + Viterbi 模型,解决未登录词问题 - ### 1.文本分类(Text Classification) 文本分类是指标记句子或文档,例如电子邮件垃圾邮件分类和情感分析。 @@ -183,7 +182,7 @@ 下面是一些很好的初学者文本分类数据集。 1. [路透社Newswire主题分类](http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html)(路透社-21578)。1987年路透社出现的一系列新闻文件,按类别编制索引。[另见RCV1,RCV2和TRC2](http://trec.nist.gov/data/reuters/reuters.html)。 -2. [IMDB电影评论情感分类](斯坦福)([http://ai.stanford.edu/~amaas/data/sentiment/](http://ai.stanford.edu/~amaas/data/sentiment/))。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。 +2. [IMDB电影评论情感分类(斯坦福)](http://ai.stanford.edu/~amaas/data/sentiment)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。 3. [新闻组电影评论情感分类(康奈尔)](http://www.cs.cornell.edu/people/pabo/movie-review-data/)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。 有关更多信息,请参阅帖子: @@ -216,6 +215,11 @@ [布朗大学现代美国英语标准语料库](https://en.wikipedia.org/wiki/Brown_Corpus)。大量英语单词样本。 [谷歌10亿字语料库](https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark)。 +> 句子相似度识别 + +* 项目地址: https://www.kaggle.com/c/quora-question-pairs +* 解决方案: word2vec + Bi-GRU + > 文本纠错 * bi-gram + levenshtein @@ -441,4 +445,5 @@ mage字幕是为给定图像生成文本描述的任务。 资料来源: * https://machinelearningmastery.com/datasets-natural-language-processing +* 【比赛收集平台】: https://github.com/iphysresearch/DataSciComp diff --git a/docs/NLP/README.md b/docs/NLP/README.md index 9c5748c1b..17eb671db 100644 --- a/docs/NLP/README.md +++ b/docs/NLP/README.md @@ -70,7 +70,8 @@ https://github.com/Embedding/Chinese-Word-Vectors - http://www.hfl-tek.com/cmrc2018 + 2018机器阅读理解技术竞赛 这也是结束了的 NLP - http://mrc2018.cipsc.org.cn - ++ 句子文本相似度计算 + - https://www.kaggle.com/c/quora-question-pairs * * * From 3a4563e4ea977216464379fcf9651676b3013229 Mon Sep 17 00:00:00 2001 From: jiangzhonglian Date: Mon, 13 Aug 2018 23:18:50 +0800 Subject: [PATCH 2/2] =?UTF-8?q?nlp-=E5=AD=A6=E4=B9=A0=E8=BF=87=E7=A8=8B?= =?UTF-8?q?=E4=B8=AD-=E5=86=85=E5=BF=83=E5=A4=8D=E6=9D=82=E7=9A=84?= =?UTF-8?q?=E5=8F=98=E5=8C=96=EF=BC=81=EF=BC=81=EF=BC=81?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 35 ++++++++++++++++++++++++++++++----- 1 file changed, 30 insertions(+), 5 deletions(-) diff --git a/README.md b/README.md index 352da179e..c851b2983 100644 --- a/README.md +++ b/README.md @@ -165,9 +165,29 @@ ## 自然语言处理(NLP) - 相关项目 +学习过程中-内心复杂的变化!!! + +``` +自从学习NLP以后,才发现国内与国外的典型区别: +1. 对资源的态度是完全相反的: + 1) 国内:就好像为了名气,举办工作装逼的会议,就是没有干货,全部都是象征性的PPT介绍,不是针对在做的各位 + 2)国外:就好像是为了推动nlp进步一样,分享者各种干货资料和具体的实现。(特别是: python自然语言处理) +2. 论文的实现: + 1) 各种高大上的论文实现,却还是没看到一个像样的GitHub项目!(可能我的搜索能力差了点,一直没找到) + 2)国外就不举例了,我看不懂! +3. 开源的框架 + 1)国外的开源框架: tensorflow/pytorch 文档+教程+视频(官方提供) + 2) 国内的开源框架: 额额,还真举例不出来!但是牛逼吹得不比国外差!(好像 MXNet 是沐神弄的?? 文档+教程+视频) +每一次深入都要去翻墙,每一次深入都要Google,每一次看着国内的说:哈工大、讯飞、中科大、百度、阿里 多牛逼,但是资料还是得国外去找! +有时候真的挺狠的!真的有点瞧不起自己国内的技术环境! + +当然谢谢国内很多博客大佬,特别是一些入门的Demo和基本概念。【深入的水平有限,没看懂】 +``` + ![](images/NLP/F94581F64C21A1094A473397DFA42F9C.jpg) * 入门教程需看资料【添加比赛链接】: https://github.com/apachecn/MachineLearning/tree/dev/docs/NLP +* Python 自然语言处理 第二版: https://usyiyi.github.io/nlp-py-2e-zh ### 中文分词: @@ -241,9 +261,6 @@ mage字幕是为给定图像生成文本描述的任务。 ### 4.机器翻译(Machine Translation) -* Encoder + Decoder(Attention) -* 参考案例: http://pytorch.apachecn.org/cn/tutorials/intermediate/seq2seq_translation_tutorial.html - 机器翻译是将文本从一种语言翻译成另一种语言的任务。 下面是一些很好的初学者机器翻译数据集。 @@ -254,6 +271,11 @@ mage字幕是为给定图像生成文本描述的任务。 [统计机器翻译](http://www.statmt.org/) +> 机器翻译 + +* Encoder + Decoder(Attention) +* 参考案例: http://pytorch.apachecn.org/cn/tutorials/intermediate/seq2seq_translation_tutorial.html + ### 5.问答系统(Question Answering) 问答是一项任务,其中提供了一个句子或文本样本,从中提出问题并且必须回答问题。 @@ -279,8 +301,6 @@ mage字幕是为给定图像生成文本描述的任务。 ### 7.自动文摘(Document Summarization) -* textrank - 文档摘要是创建较大文档的简短有意义描述的任务。 下面是一些很好的初学者文档摘要数据集。 @@ -298,6 +318,11 @@ mage字幕是为给定图像生成文本描述的任务。 * Bi-LSTM CRF * 参考案例: http://pytorch.apachecn.org/cn/tutorials/beginner/nlp/advanced_tutorial.html + +> 文本摘要 + +* word2vec + textrank + ### 进一步阅读 如果您希望更深入,本节提供了其他数据集列表。