admin管理员组文章数量:1443167
国产开源的文档转换器:MinerU
简介
MinerU是由OpenDataLab团队打造的大模型时代的文档提取/转换神器
支持PDF、Word、PPT等多种文档的智能解析,可用于机器学习、大模型语料生产、RAG等场景
特点
- 多语种支持
- 多类型支持
- 导出格式为json markdown
- 客户端无需登录
- 开源免费
- 真国产(上海人工智能实验室)
使用效果
我用了一个很长的pdf文档来试了一下,解析的效果很好
渲染出来的markdown效果很好,但是某些公式识别的不够准确
一些复杂图标直接改成图片引用进行处理
转化为markdown方便编辑,转化为json方便数据处理
不过在转换成markdown中.标题都是一级标题,没有层次(这可能是pdf标题格式的问题?),导致我尝试在web渲染markdown时锚点全是h1,seo优化极差 : (
总结
总体来说效果还是不错的,未来应该会推出更多的格式转换
推荐大家试一试,有硬件条件的可以本地部署一个玩玩
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。 原始发表:2025-03-27,如有侵权请联系 cloudcommunity@tencent 删除登录模型人工智能渲染开源本文标签: 国产开源的文档转换器MinerU
版权声明:本文标题:国产开源的文档转换器:MinerU 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.betaflare.com/biancheng/1748115114a2810326.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论