GitHub - TonyLDS/fenci

中文分词自己玩的,分2.X版本的3.X版本的,文件名用2结尾的是2.X版本,文件名用3结尾的是3.X版本。代码部分是参考别人的，也把别人的代码上传上来了。

#copyfenci2 gen_trie() trie树的方法加载字典 gen_pfdict() 前缀树的方式加载字典

#fcset2 用set作为字典储存方式

中文分词算法之最大正向匹配算法
	words = fmm_word_seg(test_str, word_dic, max_len)
	print ('/').join(words)

	中文分词算法之最大逆向匹配算法
	words = bmm_word_seg(test_str, word_dic, max_len)
	print ('/').join(words)

	中文分词算法之全分词算法
	words = all_word_seg(test_str, word_dic, max_len)
	print ('/').join(words)

	中文分词算法之双向最大匹配算法
	words = bm_word_seg(test_str, word_dic, max_len)
	print ('/').join(words)

#trie3 trie树的方法加载字典

#中文分词算法之最大正向匹配算法
	#words = fmm_word_seg(test_str, trie)
	#print(('/').join(words))

#中文分词算法之全分词算法
	words = all_word_seg(test_str, trie)
	print(('/').join(words))

#dag3 前缀树的方式加载字典 DAG 动态规划

#sougou2 用搜狗词库扩充词库，但是没有词性

#dict,out dict.txt 结巴分词的字典 out.txt 自己的字典

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
copyfenci2.py		copyfenci2.py
dag3.py		dag3.py
fcset2.py		fcset2.py
readme.md		readme.md
sougou2.py		sougou2.py
trie3.py		trie3.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages