🚀 这是一个强大的多格式文件转换工具,可以将各种格式的文件转换为Markdown格式。
- 支持多种文件格式转换:PDF、Excel、Word、PowerPoint、HTML等
- 用户友好的图形界面
- 可自定义转换选项
- 支持批量转换
- 支持批量网页链接、xlsx文件转换
- 克隆此仓库:
git clone https://github.com/BryceWG/MDEverything.git
- 进入项目目录:
cd MDEverything
- 安装依赖:
pip install -r requirements.txt
- 运行主程序:
python main.py
- 在图形界面中选择要转换的文件或输入URL
- 选择输出目录,默认为源文件目录
- 根据需要调整转换选项
- 点击"转换"按钮开始转换
- 选择 PDF 文件
- 设置选项:
- DPI:设置图像分辨率(72/144/216)
- Parse Mode:选择解析模式(auto/scan)
- 生成标题:是否自动生成文档结构
- 表格格式:选择 md 或 html 格式
- 获取图片:选择是否提取图片(none/page/objects/both)
- 起始页和页数:设置转换的页面范围
- 输入 API 凭证(app_id 和 secret_code)
- API 凭证获取和相关调用方式请访问TextIn通用文档解析
- 选择 Excel 文件
- 在树状视图中选择要转换的工作表
- 设置选项:
- 第一行为表头:勾选此项将第一行视为表头
- 输入网页 URL 或选择本地 HTML 文件
- 设置选项:
- 可选使用 Jina AI:启用 AI 辅助转换(需要 API 密钥)
- 忽略链接:不包含超链接
- 忽略图片:不包含图片
- 正文宽度:设置转换后的文本宽度
- 可选:加载链接网页内其他链接信息,可选择指定网页链接进行转换,实现一次爬取多个网页
- 选择 Word 文档(.docx)
- 无需额外设置,直接转换
- 选择 PowerPoint 文件(.pptx)
- 设置选项:
- 图片最大宽度:限制转换后的图片宽度
- 禁用图片提取:不包含图片
- 不转义特殊字符:保留原始字符
- 不添加演讲者注释:忽略幻灯片备注
- 禁用颜色标签:不包含颜色信息
- 启用幻灯片分隔符:在幻灯片之间添加分隔符
- 最小文本块大小:设置最小文本块的大小
- 输出格式:选择输出格式(markdown/wiki/mdk/qmd)
- 选择 LaTeX 文件(.tex)
- 需要安装 Pandoc 才能使用此功能
- 选择多个 Markdown 文件
- 点击"合并选中的 Markdown 文件"按钮
- 选择输出目录
- 输出目录:选择转换后文件的保存位置
- 转换按钮:开始转换过程
- 对于批量转换,可以选择多个文件同时进行转换
- 转换过程中请保持耐心,特别是对于大文件或复杂文档
- 转换完成后,检查输出文件以确保内容正确
- 并行处理加速
- 简易AI处理功能
- 优化输出排版
- 增加图像文件支持
- 完善.docx .html格式图片储存
- PyQt6:用于创建图形用户界面
- requests:用于处理HTTP请求
- BeautifulSoup4:用于解析HTML
- python-docx:用于处理Word文档
- openpyxl:用于处理Excel文件
- python-pptx:用于处理PowerPoint文件
- html2text:用于HTML到Markdown的转换
- pypandoc:用于文档格式转换
- 确保您有足够的权限读取源文件和写入目标目录
- 对于PDF转换,需要提供有效的API密钥(app_id和secret_code)
- 转换大文件可能需要较长时间,请耐心等待
- 某些复杂格式的文件可能无法完美转换,可能需要手动调整
- 使用HTML转换功能时,请确保您有合法权限访问和转换目标网页内容
欢迎提交问题和拉取请求。对于重大更改,请先开issue讨论您想要改变的内容。