云计算百科
云计算领域专业知识百科平台

使用marker转换pdf为Markdown格式

前言

本文将拿邱锡鹏教授的神经网络与深度学习讲义pdf版进行Markdown转换工作 神经网络与深度学习的邱锡鹏库 marker工具代码库

一、marker是什么

marker由datalab团队打造,主要用于将复杂的PDF、文档和图片转换为适合LLM阅读的干净数据。

二、转换步骤

1.使用conda虚拟环境进行工具下载

本人喜欢使用conda创建虚拟环境,不创建虚拟环境也可以

conda create -p E:\\0M\\en\\pdf-switch python=3.10 -y
conda activate E:\\0M\\en\\pdf-switch

pip install marker-pdf

2.pdf转换

转换过程可以关闭其它应用来增快转换速度 使用以下代码进行转换:

marker "F:\\0M-02\\blog\\pdf" –output_dir "F:\\0M-02\\blog\\pdf"

“F:\\0M-02\\blog\\pdf” 代表pdf存放的文件夹,转换会将文件夹内pdf全部进行转化 “F:\\0M-02\\blog\\pdf” 为输出目录,这里选择和pdf存放位置同一个地方


首次使用会下载模型,例如此图:

截图

转换时:

截图述

进度条不会实时变化,而是在工具将pdf完全转换完后瞬间变为100%,而在工具运行时可以看到内存在运行

在这里插入图片描述


转换完成后对应目录会生成一个文件夹 里面是提取的图片、转换完成的md文件以及json文件

在这里插入图片描述

总结

以上即使用marker工具完成的pdf到Markdown的初步转换步骤

赞(0)
未经允许不得转载:网硕互联帮助中心 » 使用marker转换pdf为Markdown格式
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!