Skip to content

tloly-Roc/Lab1-2022113574

Repository files navigation

README

项目简介

这个项目是一个文本处理和分析工具,它能够读取文本文件,清洗数据,并构建有向图以分析单词之间的关系。该工具提供了多种功能,包括查找桥接词、处理新文本、计算最短路径、计算 PageRank、可视化词图以及执行随机游走。

功能列表

  1. 读取和清洗文本

    • 从指定文件路径读取文本,转换为小写,并移除非字母字符。
  2. 构建有向图

    • 通过相邻单词构建有向图,并计算每个边的权重(出现次数)。
  3. 查找桥接词

    • 查找两个单词之间的桥接词(即可以连接两个单词的中间词)。
  4. 处理新文本

    • 在新文本中插入桥接词并返回处理后的文本。
  5. 计算最短路径

    • 计算从一个单词到另一个单词的最短路径,或者从一个单词到所有其他单词的路径。
  6. 计算 PageRank

    • 使用经典 PageRank 算法或 TF-IDF 加权 PageRank 来计算单词的权重。
  7. 可视化词图

    • 可视化构建的有向图,突出显示单词之间的连接及其权重。
  8. 随机游走

    • 从随机单词开始,沿出边进行随机游走,直到遇到重复边或没有出边。

使用说明

环境要求

确保已安装以下库:

  • numpy
  • networkx
  • matplotlib
  • scikit-learn

你可以使用以下命令安装这些库:

pip install numpy networkx matplotlib scikit-learn

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors