minerU,PDF文件转markdown神器

minerU是由上海AI实验室OpenDataLab团队研发的智能数据提取工具，可以一键将pdf文档转换为josn或者markdown文档，效果不错，今天咱们来体验下。检查了一圈，哦...原来漏了一步，忘记装pytorch了。这就是我搭建测试的整个过程，大家在搭建的过程中有遇到什么问题，或者有什么想实现的功能欢迎公众号留言，大家一起讨论学习。4、下载模型文件，需要从modelscope上面下载，先

qq_39838728

837人浏览 · 2025-05-27 09:35:22

qq_39838728 · 2025-05-27 09:35:22 发布

minerU是由上海AI实验室OpenDataLab团队研发的智能数据提取工具，可以一键将pdf文档转换为josn或者markdown文档，效果不错，今天咱们来体验下。

1、首先来下载源码

git clone https://gitee.com/myhloli/MinerU.git

2、创建环境、安装环境

conda create -n mineru python=3.10conda activate minerupip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

安装过程很顺利，没出什么问题。

3、查看下安装mineru的版本

magic-pdf --version

4、下载模型文件，需要从modelscope上面下载，先安装modelscope

pip install modelscope

然后去该目录下面运行脚本，下载模型文件

5、下载好后咱们就可以去试验下了。

进入到demo/pdfs文件下面，里面有提供的demo，可以测试用。

magic-pdf -p demo1.pdf -o ./output

执行的结果在output文件下面

咱们来看下效果。

还是很不错的。然后pdf的内容都在这个json文件里面。

感觉到这里应该已经完成了，但是突然感觉不太对。我看了下资源管理器，怎么没有用GPU，用的cpu在跑？检查了一圈，哦...原来漏了一步，忘记装pytorch了。

6、根据自己cuda版本安装pytorch

https://pytorch.org/get-started/previous-versions/

7、安装好后需要将magic-pdf.template.json 复制一份，并修改“device-mode” 为“cuda”

接着再去执行下面代码就是使用gpu了。

magic-pdf -p demo1.pdf -o ./output

这就是我搭建测试的整个过程，大家在搭建的过程中有遇到什么问题，或者有什么想实现的功能欢迎公众号留言，大家一起讨论学习。

北京朝阳AI社区

更多推荐

论文解读|危机中的歧义性：多模态与合成数据分类方法

社交媒体平台，如 Twitter（现更名为 X），通过实现实时信息共享，在危机期间发挥着至关重要的作用。然而，多模态数据可能存在歧义，且模态间的标签可能出现错位。能够对“有信息量”和“无信息量”的推文进行分类有助于危机响应，但这些数据在数据集中往往具有歧义性且分布不平衡，从而削弱模型性能。本研究探讨了多模态学习方法在对危机相关推文进行分类（无论其是否存在歧义）方面的有效性，并通过使用生成式人工智能