10月24日至26日,CSDN第五届“1024程序员节”在长沙召开,来自合合信息的常扬老师在“模型与工具”论坛上分享了合合信息的智能文档处理“百宝箱”,系统介绍了TextIn ParseX、acge-embedding、markdown_tester三种工具。正好我最近也在做一些扫描件的文档整理,就让我们一起来了解一下这几样工具到底有多神。

文档解析的过程中最容易出现的问题就是版式复杂,抓取不到正确的位置从而解析错误。除此之外,还存在解析速度太慢、语义信息丢失等问题。如果是模型训练,则还会遇到CornerCase过多、召回结果排序困难、答案生成有幻觉等问题。合合信息本次推出智能文档处理“百宝箱”,解决这些问题都不在话下。

这次全新推出的TextIn ParseX做成了一个可视化工具,对于纯文字工作者来说实在是太方便了。我们可以从它的GitHub页面官网页面直接体验。下面是我自己的一个小实验。

双栏排版中这种跨栏的元素是最难定位的,我们看右侧确实很准确地识别到了。点击左侧文档右侧也会自动滚动到对应的位置,点击右边也是同样的效果。同时左侧会自动解析出文档目录结构,方便快速跳转。

不仅如此,下方还有难度更高的跨栏表格,可以看到也是很准确地识别到了,同时还还原成了表格的形制,我们可以直接复制到word等文本编辑器里,替换一下表格样式就可以直接用了,非常方便。

还有一个非常贴心的新设计,右上侧可以切换结果的格式,适应不同的应用场景。可以选择markdown用于博客、笔记等,也可以选择为JSON格式用于自动化脚本、机器学习等。如果只需要表格、公式或图片也有专门的标签页可以选择。

如果有进阶需求,可以在高级模式中进行个性化设置,调整参数来适应自己的需求。比如说我们要在解析文档进行结果审核校对、效果测评等场景,需要可视化展示文档解析后的结果的时候就可以进行结果的定制。

事实上,使用文档处理工具的并不只有文字工作者,还有机器学习模型研究人员。对于他们则有另外的利器可以使用,这就是向量化acge-embedding模型。它可以将海量的文本数据转化为一个有方向有数值的列表,进而计算文本相似性。这一特性使得它在内容审核、意图分析、情感分析、推荐系统、信息检索都有广泛的应用。

这一技术早已是研究NLP小伙伴门的必备技能,不过acge-embedding有绝招。相比其他模型,它的模型较小,占用资源少;同时模型输入文本长度为1024,满足绝大部分场景的需求;最厉害的是,acge模型支持可变嵌入维度,让文本嵌入模型在推理时具备可变Embedding大小的能力,可以根据企业场景采用不同的计算和存储消耗,这是大部分模型不具备的能力。acge-embedding模型曾在Massive Text Embedding Benchmark中文榜单C-MTEB获得了第一名的好成绩,受到业界的广泛认可。

研究人员可以很轻易的使用acge-embedding模型开展对比学习技术、数据挖掘、多任务混合训练、MRL训练和持续学习。比如说在应用在检索增强生成中,可以对文档块进行向量化表示;也可以对问题(query)进行向量化表示,查询高文本相似度的文档块召回;也可以文档块向量库实时动态更新,低成本高扩展;或者通过数据向量化处理保证数据安全。

程序员朋友们可能还有技术选型的需求,针对这一点合合信息还提供了markdown_tester文档解析测评工具,用以评价转换结果和原始文档内容相似度。文档解析结果可以从结果稳定、识别准确、性能更快三个方面评价,主要体现在电子档和扫描件的处理、文档图像预处理、物理版面分析、逻辑版面分析和文字识别几个角度。markdown_tester通过对表格、段落、标题、阅读顺序、公式几个板块共14项指标进行定量测评,使开发者可直观地看到文本识别、解析和翻译的结果评估产品效果。最方便的是,在评测完毕后可以直接导出评分表格和更为直观的雷达图便于取用。

 企业在数字化转型中,通过将数据转化为资产,建设知识库来提升竞争力。然而,不同类型的文档内容复杂,解析难度较大,影响数据准确性及知识库建设。合合信息的“百宝箱”可应对多场景数据处理需求。使用markdown_tester评估工具可全面测试文档解析效果,而TextIn ParseX可帮助审核、修正解析结果,确保重要数据的准确性。

如果能够独立训练人工智能模型,企业可以通过acge文本向量化模型,开展大模型预训练语料与数据治理快速入库,对大量数据源进行统一管理,增强知识库的全面性和准确性。

除此以外,企业还可以开展文档翻译等直接应用。由于“百宝箱”能够获取文档页面结构,翻译的结果可以直接替换页面中的元素,保持原有格式的情况下输出结果,节约人力并提高工作效率。


 

        合合信息“百宝箱”在电子档解析、扫描档识别上一直处于业界领先地位,能够做到不漏检、不错检、识别准确。同时对于特殊文档元素如无线表、跨页表格、各、页眉、页脚、公式、图像、印章、流程图、目录树等也有非常好的适配。

 如需了解更多文档处理权益,欢迎点击下方链接,加入交流社群,随时获得最新资讯及福利:立即体验

Logo

为武汉地区的开发者提供学习、交流和合作的平台。社区聚集了众多技术爱好者和专业人士,涵盖了多个领域,包括人工智能、大数据、云计算、区块链等。社区定期举办技术分享、培训和活动,为开发者提供更多的学习和交流机会。

更多推荐