免费部署PDF转Markdown文件的方法-软件玩家

admin管理员组
文章数量:1446760

免费部署PDF转Markdown文件的方法

原文链接指路：;scene=1&srcid=0309fALktUg2OtrIvougpl27&sharer_shareinfo=83e02aec0842b1f638728f53ee5e98f9&sharer_shareinfo_first=83e02aec0842b1f638728f53ee5e98f9&version=4.1.33.99589&platform=mac#rd

免费部署PDF转Markdown文件的方法

为了能让AI大语言模型，更好的学习特定的知识，一个解决方法是，将特定的资料，录入知识库中，供AI大模型进行索引和回答，相当于现学现用。

因此知识库的质量，直接决定了大模型的学习水平。对于PDF文档，一个比较推荐的解决方案是，先将PDF文件转成Markdown文件，再录入知识库中。

MinerU

关于PDF转Markdown的工具，一个比较不错的工具是MinerU，这是一个开源免费的转换工具。Github地址是：，同时也给了官网Demo地址：/，在官网Demo地址上同样可以免费体验，但是由于用的人数太多，一般需要等待很久。

一般来说，这种PDF转换工具，对硬件的要求都比较高，比如MinerU就给出了推荐的硬件配置，其中内存建议32G以上。为了更好的体验MinerU的功能，我们选择云服务器来部署。

Cloud Studio

我们使用腾讯云的Cloud Studio来部署，腾讯云是专业的云服务器提供商，而腾讯云推出的 Cloud Studio，相当于在服务器机器之上提供了开发环境，开发模板，主流模型等，可以理解成一个预装了IDE和开发环境的云服务器。

首先，我们登录 Cloud Studio 的主页：。

注册登录后，进行身份认证。由于MinerU只用CPU也可以正常运行，所以我们选择左侧的通用工作空间就可以。

我们点击通用工作空间 - DeepSeep - 立即创建，然后选择 14B版本就可以，可以看到，14B版本的内存是64G，足够用了。

等待一小会儿，空间就创建好了。

我们新开一个终端，并按照如下步骤

1. 安装magic-pdf

代码语言：javascript代码运行次数：0运行复制

conda create -n mineru python=3.10
conda activate mineru
pip install -U "magic-pdf[full]" --extra-index-url  -i

2. 下载模型权重文件

首次安装需要下载模型权重文件，我们从魔塔上下载，运行如下脚本

代码语言：javascript代码运行次数：0运行复制

pip install modelscope
wget @master/scripts/download_models.py -O download_models.py
python download_models.py

下载需要一点时间，当终端打印如下这句话时，即表示下载成功

代码语言：javascript代码运行次数：0运行复制

The configuration file has been configured successfully, the path is: /root/magic-pdf.json

然后我们新建两个文件夹，分别是 MinerUfiles 和 Convertedfiles

我们使用一个最近读的PDF文献做测试

输入指令

代码语言：javascript代码运行次数：0运行复制

magic-pdf -p MinerUfiles/'Effects of Demographic Change on Labor Market and Wage Developments'.pdf -o Convertedfiles/'Effects of Demographic Change on Labor Market and Wage Developments' -m auto

可以看到，转录工作开始

我们来看一下最终效果，可以看到，效果非常好，举两个例子

1. PDF原版是双栏，转录可以很好的识别双栏格式

原版PDF

转换后Markdown

2. 转录可以很好的识别跨页分段，比如说，原版中，完整的一段，被跨页分割，但是转录后的Markdown很好的识别成了完全的一段

原版PDF

转换后Markdown

后面我们基于Markdown做一个翻译接口，就可以更直观的阅读。

本文标签：免费部署PDF转Markdown文件的方法

版权声明：本文标题：免费部署PDF转Markdown文件的方法内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.betaflare.com/biancheng/1748306820a2842510.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

编程频道|软件玩家 - 软件改变生活！

免费部署PDF转Markdown文件的方法

免费部署PDF转Markdown文件的方法

免费部署PDF转Markdown文件的方法

MinerU

Cloud Studio

更多相关文章

免费部署PDF转Markdown文件的方法

发表评论

推荐文章

初识MySQl · 内置函数

Oracle 23ai 中的 DB

.NET 原生驾驭 AI 新基建实战系列（一）：向量数据库的应用与畅想

RobloxPlayer不适用于云服务器

windows route命令详解

热门文章

win10如何开启远程桌面连接

【愚公系列】《高效使用DeepSeek》023

OpenAI破大防，拒绝率从98%骤降2%！陈怡然团队提出全新思维链劫持攻击

摇滚首席科学家放大招，AppAgentX让10后学习开挂！十年暗战AI贾维斯

从⻘铜到王者系列:深⼊浅出理解DeepSeek 3FS (2)从内核到⽤⼾态⽂件系统的设计之路

【赵渝强老师】达梦数据库的内存结构

除了 Wireshark，这 10 款抓包神器让你效率翻倍！运维老司机都偷偷收藏

光模块的做用是什么？有哪些设备需要用到光模块？

详解LLM Agent中工具使用工作流

【MySQL】表的约束（上）

最新文章

LLM学习笔记：如何理解LLM中的Transformer架构

o3 deep research: 智能体的应用和演进

从开发者视角洞见未来，找到自己的破局之道：Deepseek和Manus如何助力破局？

嵌入式Linux：阻塞式IO与非阻塞式IO

STM32如何精准控制步进电机？

How to vary WooCommerce product prices based on order dates

For a menu custom link (without a link) a &quot;#&quot; is appended. Can this just be blank, i.e. NO link?

multisite - Hook into &#39;admin_url&#39; but only on Mysites admin bar menu

Global login to password protected pages

having a page in multi sub-menu and match current-menu-item

ThinkPad 黑侠 E570 GTX 20H5A019CD 参数报价

联想扬天B575el-ETW H参数报价

联想扬天B575el-ETW E2-2000参数报价

索尼VGN-CR322HP参数报价

清华同方S30i-45 黑参数报价

For a menu custom link (without a link) a "#" is appended. Can this just be blank, i.e. NO link?

multisite - Hook into 'admin_url' but only on Mysites admin bar menu