前言
本文将拿邱锡鹏教授的神经网络与深度学习讲义pdf版进行Markdown转换工作 神经网络与深度学习的邱锡鹏库 marker工具代码库
一、marker是什么
marker由datalab团队打造,主要用于将复杂的PDF、文档和图片转换为适合LLM阅读的干净数据。
二、转换步骤
1.使用conda虚拟环境进行工具下载
本人喜欢使用conda创建虚拟环境,不创建虚拟环境也可以
conda create -p E:\\0M\\en\\pdf-switch python=3.10 -y
conda activate E:\\0M\\en\\pdf-switch
pip install marker-pdf
2.pdf转换
转换过程可以关闭其它应用来增快转换速度 使用以下代码进行转换:
marker "F:\\0M-02\\blog\\pdf" –output_dir "F:\\0M-02\\blog\\pdf"
“F:\\0M-02\\blog\\pdf” 代表pdf存放的文件夹,转换会将文件夹内pdf全部进行转化 “F:\\0M-02\\blog\\pdf” 为输出目录,这里选择和pdf存放位置同一个地方
首次使用会下载模型,例如此图:

转换时:

进度条不会实时变化,而是在工具将pdf完全转换完后瞬间变为100%,而在工具运行时可以看到内存在运行

转换完成后对应目录会生成一个文件夹 里面是提取的图片、转换完成的md文件以及json文件

总结
以上即使用marker工具完成的pdf到Markdown的初步转换步骤
网硕互联帮助中心



评论前必须登录!
注册