admin管理员组文章数量:1446760
免费部署PDF转Markdown文件的方法
原文链接指路:;scene=1&srcid=0309fALktUg2OtrIvougpl27&sharer_shareinfo=83e02aec0842b1f638728f53ee5e98f9&sharer_shareinfo_first=83e02aec0842b1f638728f53ee5e98f9&version=4.1.33.99589&platform=mac#rd
免费部署PDF转Markdown文件的方法
为了能让AI大语言模型,更好的学习特定的知识,一个解决方法是,将特定的资料,录入知识库中,供AI大模型进行索引和回答,相当于现学现用。
因此知识库的质量,直接决定了大模型的学习水平。对于PDF文档,一个比较推荐的解决方案是,先将PDF文件转成Markdown文件,再录入知识库中。
MinerU
关于PDF转Markdown的工具,一个比较不错的工具是MinerU,这是一个开源免费的转换工具。Github地址是:,同时也给了官网Demo地址:/,在官网Demo地址上同样可以免费体验,但是由于用的人数太多,一般需要等待很久。
一般来说,这种PDF转换工具,对硬件的要求都比较高,比如MinerU就给出了推荐的硬件配置,其中内存建议32G以上。为了更好的体验MinerU的功能,我们选择云服务器来部署。
Cloud Studio
我们使用腾讯云的Cloud Studio来部署,腾讯云是专业的云服务器提供商,而腾讯云推出的 Cloud Studio,相当于在服务器机器之上提供了开发环境,开发模板,主流模型等,可以理解成一个预装了IDE和开发环境的云服务器。
首先,我们登录 Cloud Studio 的主页:。
注册登录后,进行身份认证。由于MinerU只用CPU也可以正常运行,所以我们选择左侧的通用工作空间就可以。
我们点击 通用工作空间 - DeepSeep - 立即创建,然后选择 14B版本就可以,可以看到,14B版本的内存是64G,足够用了。
等待一小会儿,空间就创建好了。
我们新开一个终端,并按照如下步骤
- 1. 安装magic-pdf
conda create -n mineru python=3.10
conda activate mineru
pip install -U "magic-pdf[full]" --extra-index-url -i
- 2. 下载模型权重文件
首次安装需要下载模型权重文件,我们从魔塔上下载,运行如下脚本
代码语言:javascript代码运行次数:0运行复制pip install modelscope
wget @master/scripts/download_models.py -O download_models.py
python download_models.py
下载需要一点时间,当终端打印如下这句话时,即表示下载成功
代码语言:javascript代码运行次数:0运行复制The configuration file has been configured successfully, the path is: /root/magic-pdf.json
然后我们新建两个文件夹,分别是 MinerUfiles
和 Convertedfiles
我们使用一个最近读的PDF文献做测试
输入指令
代码语言:javascript代码运行次数:0运行复制magic-pdf -p MinerUfiles/'Effects of Demographic Change on Labor Market and Wage Developments'.pdf -o Convertedfiles/'Effects of Demographic Change on Labor Market and Wage Developments' -m auto
可以看到,转录工作开始
我们来看一下最终效果,可以看到,效果非常好,举两个例子
1. PDF原版是双栏,转录可以很好的识别双栏格式
2. 转录可以很好的识别跨页分段,比如说,原版中,完整的一段,被跨页分割,但是转录后的Markdown很好的识别成了完全的一段
原版PDF
转换后Markdown
后面我们基于Markdown做一个翻译接口,就可以更直观的阅读。
本文标签: 免费部署PDF转Markdown文件的方法
版权声明:本文标题:免费部署PDF转Markdown文件的方法 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.betaflare.com/biancheng/1748306820a2842510.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论