简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本微服务实现了对文件上传、下载进行管理,分别支持本地磁盘存储、FastDFS存储、FTP存储、天翼云存储(联通CTyun OOS)、华为云存储(OBS)、阿里云存储(OSS)。可通过配置自动切换存储类型。本微服务支持临时文件24小时自动删除、文件下载、在线观看等常用接口。...
如果仅仅是提取PDF中的内容,基本没有难度,我后续会再写一篇博客来讨论提取内容。但是如果提取PDF中的表格,并按行列输出为JSON返回则并不简单,网上有很多资料,Github上同样也有一些,但是基本都是扯淡的。本文以在实际项目中使用的PDF提取程序为例,来介绍如何从PDF中提取表格数据,并按行列返回。PDF中存在的内容可能有以下几种:1.清晰无任何杂质的表格。2.带有水印的文字表格3.全部由图片组
基于kubespray安装k8s的文章网上非常多,但是按照网上的帖子进行安装时多数人都会遇到各种各样的问题。比如github被墙、gcr被墙、docker启动失败、ansible连接时提示验证失败等等不一一赘述。这里我提供了一套我自己的安装脚本,可一键完成全部安装,下面来介绍一下安装过程
分布式任务调度管理 Distribution task center. 支持Rabbit与kafka两种消息队列,实现立即执行与根据CronExpress表达式的执行及更加复杂的复合执行策略。在任务执行过程中可完成回滚操作。
Java基于Tesseract来进行OCR识别时,如果使用chi_sim,对数字则识别不完全。如果使用eng,则对中文识别不正确,那么如何既能识别数字又能识别出中文和字母呢?Tesseract命令行识别时支持-l参数指定语言,如:-l deu+eng。在使用Java类库时同样也是支持的,代码如下:File tempFolder = TempDirectory.location();File tra
在我的其他几篇文章中介绍了Tesseract识别中文+数字+字母以及PDF去水印的一些技巧。当整个PDF都是由图片构成(如扫描件)时,如何提取PDF中的表格并按行列返回JSON数据呢?一种方法就是将PDF中的图片转存为图片,然后通过对图片的识别来达到目的。Github上有一些诸如:CascadeTabNet、CDecNet的Deep Learning项目,百度和腾讯我也看了,有类似的Deep Le