这个项目是一个文本处理和分析工具,它能够读取文本文件,清洗数据,并构建有向图以分析单词之间的关系。该工具提供了多种功能,包括查找桥接词、处理新文本、计算最短路径、计算 PageRank、可视化词图以及执行随机游走。
-
读取和清洗文本
- 从指定文件路径读取文本,转换为小写,并移除非字母字符。
-
构建有向图
- 通过相邻单词构建有向图,并计算每个边的权重(出现次数)。
-
查找桥接词
- 查找两个单词之间的桥接词(即可以连接两个单词的中间词)。
-
处理新文本
- 在新文本中插入桥接词并返回处理后的文本。
-
计算最短路径
- 计算从一个单词到另一个单词的最短路径,或者从一个单词到所有其他单词的路径。
-
计算 PageRank
- 使用经典 PageRank 算法或 TF-IDF 加权 PageRank 来计算单词的权重。
-
可视化词图
- 可视化构建的有向图,突出显示单词之间的连接及其权重。
-
随机游走
- 从随机单词开始,沿出边进行随机游走,直到遇到重复边或没有出边。
确保已安装以下库:
numpynetworkxmatplotlibscikit-learn
你可以使用以下命令安装这些库:
pip install numpy networkx matplotlib scikit-learn