logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

[阅读笔记] Pix2struct: screenshot作为视觉语言理解的预训练

论文分享pix2struct,Google于2023年推出了开源项目Pix2struct,用于从图像中提取结构化信息,如表格、流程图等(图生文)。

文章图片
#python#人机交互#transformer +1
到底了