Skip to content

coddz/chinese_document_skill

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

cndoc - 中文文档读取工具

简介

cndoc是专为中文环境优化的轻量级文档读取工具,完美解决Python在Windows下的中文路径编码问题,无需复杂配置即可直接读取含中文/空格/特殊字符路径的文档。

项目结构

cndoc/
├── SKILL.md          # Claude Code技能配置文件
├── README.md         # 使用说明
├── cndoc.bat         # Windows快速启动脚本
└── scripts/
    ├── cndoc.py      # 命令行主程序
    └── src/
        └── document_reader.py  # 核心功能实现

功能特性

  • 路径兼容性:完美支持含中文、空格、特殊字符的文件路径
  • 📄 格式支持:PDF、Markdown、TXT(后续支持更多格式)
  • 🔍 智能摘要:自动识别文档结构,生成结构化摘要
  • 👓 自定义预览:支持指定预览长度,避免大文件刷屏
  • 💾 导出功能:一键导出内容到文件,支持多种编码
  • 轻量高效:依赖少,启动快,无冗余功能

快速开始

安装依赖

# 基础依赖(必装)
pip install pypdf

命令说明

# 生成文档摘要(默认)
cndoc "我的项目报告.pdf"

# 显示完整文档内容
cndoc "技术分析文档.md" -f

# 预览前5000字符
cndoc "论文.pdf" -p 5000

# 导出到文件
cndoc "文档.pdf" -f -o output.md

Windows用户

将当前目录添加到系统环境变量PATH中,即可在任意位置使用cndoc命令。

使用示例

# 读取含中文和空格的PDF并生成摘要
cndoc "2024年度 技术规划 最终版.pdf"

# 导出Markdown文档完整内容
cndoc "开发手册.md" -f -o dev_manual.md

# 快速预览长文档前2000字符
cndoc "长篇技术论文.pdf" -p 2000

常见问题

  1. PDF读取失败? 请先安装pypdf:pip install pypdf,如果还是失败可尝试pdfplumber:pip install pdfplumber

  2. 中文乱码? 工具已自动处理编码问题,会自动尝试UTF-8/GBK/GB2312等多种编码,无需手动指定。

  3. 支持哪些平台? Windows/Linux/macOS全平台支持,Windows下优先推荐使用cndoc.bat启动。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors