logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【读代码】DeepEyes:基于强化学习的“视觉思考”智能体训练框架深度解析

DeepEyes是由Visual-Agent团队开源的创新型AI项目,其核心目标是通过端到端的强化学习(RL)训练,赋予大语言模型"用图像思考"的能力。项目基于VeRL框架构建,支持Qwen-VL系列视觉语言模型(7B/32B),在视觉定位、幻觉抑制和复杂数学问题解决等场景表现出色。核心突破无需监督微调,直接通过RL信号学习多模态推理能力训练过程中涌现出图像缩放、区域对比等自主思考模式在4096x

[ubuntu]开启 SSH 密码登录

【代码】[ubuntu]开启 SSH 密码登录。

文章图片
#ubuntu#ssh#服务器
【读代码】PDF-Extract-Kit深度解析:最好用的RAG开源PDF解析工具

PDF-Extract-Kit是由OpenDataLab推出的开源工具包,专注于解决复杂PDF文档的内容解析难题。该项目集成了当前最先进的文档解析模型,通过模块化设计实现灵活的功能组合,支持布局检测、公式识别、表格解析等多项核心功能。多模态解析能力:支持文字、公式、表格、图像等元素的联合解析工业级鲁棒性:在模糊扫描件、水印文档等复杂场景下仍保持高准确率开箱即用体验:提供预训练模型权重和完整配置系统

#AIGC#RAG#DeepSeek
【音频处理】python实现对音频进行简单的静音检测和去除

这种方法通过计算音频帧的能量(通常是均方根能量或短时能量)来判断是否为静音。当能量低于某个阈值时,就认为该帧是静音。使用过零率的静音检测的方案,切除多余的尾部静音,具体逻辑是当尾部禁音达到300ms时切除多余的部分。过零率是指信号穿过零轴的次数。静音部分的过零率通常较低。

文章图片
#音视频#python#语音识别 +1
【读代码】PDF-Extract-Kit深度解析:最好用的RAG开源PDF解析工具

PDF-Extract-Kit是由OpenDataLab推出的开源工具包,专注于解决复杂PDF文档的内容解析难题。该项目集成了当前最先进的文档解析模型,通过模块化设计实现灵活的功能组合,支持布局检测、公式识别、表格解析等多项核心功能。多模态解析能力:支持文字、公式、表格、图像等元素的联合解析工业级鲁棒性:在模糊扫描件、水印文档等复杂场景下仍保持高准确率开箱即用体验:提供预训练模型权重和完整配置系统

#AIGC#RAG#DeepSeek
    共 12 条
  • 1
  • 2
  • 请选择