cndoc是专为中文环境优化的轻量级文档读取工具,完美解决Python在Windows下的中文路径编码问题,无需复杂配置即可直接读取含中文/空格/特殊字符路径的文档。
cndoc/
├── SKILL.md # Claude Code技能配置文件
├── README.md # 使用说明
├── cndoc.bat # Windows快速启动脚本
└── scripts/
├── cndoc.py # 命令行主程序
└── src/
└── document_reader.py # 核心功能实现
- ✅ 路径兼容性:完美支持含中文、空格、特殊字符的文件路径
- 📄 格式支持:PDF、Markdown、TXT(后续支持更多格式)
- 🔍 智能摘要:自动识别文档结构,生成结构化摘要
- 👓 自定义预览:支持指定预览长度,避免大文件刷屏
- 💾 导出功能:一键导出内容到文件,支持多种编码
- ⚡ 轻量高效:依赖少,启动快,无冗余功能
# 基础依赖(必装)
pip install pypdf# 生成文档摘要(默认)
cndoc "我的项目报告.pdf"
# 显示完整文档内容
cndoc "技术分析文档.md" -f
# 预览前5000字符
cndoc "论文.pdf" -p 5000
# 导出到文件
cndoc "文档.pdf" -f -o output.md将当前目录添加到系统环境变量PATH中,即可在任意位置使用cndoc命令。
# 读取含中文和空格的PDF并生成摘要
cndoc "2024年度 技术规划 最终版.pdf"
# 导出Markdown文档完整内容
cndoc "开发手册.md" -f -o dev_manual.md
# 快速预览长文档前2000字符
cndoc "长篇技术论文.pdf" -p 2000-
PDF读取失败? 请先安装pypdf:
pip install pypdf,如果还是失败可尝试pdfplumber:pip install pdfplumber -
中文乱码? 工具已自动处理编码问题,会自动尝试UTF-8/GBK/GB2312等多种编码,无需手动指定。
-
支持哪些平台? Windows/Linux/macOS全平台支持,Windows下优先推荐使用cndoc.bat启动。