kakaZhui 个人主页

@kakaZhui

kakaZhui

2024-12-18 17:04:39 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【读代码】DeepEyes：基于强化学习的“视觉思考”智能体训练框架深度解析

DeepEyes是由Visual-Agent团队开源的创新型AI项目，其核心目标是通过端到端的强化学习（RL）训练，赋予大语言模型"用图像思考"的能力。项目基于VeRL框架构建，支持Qwen-VL系列视觉语言模型（7B/32B），在视觉定位、幻觉抑制和复杂数学问题解决等场景表现出色。核心突破无需监督微调，直接通过RL信号学习多模态推理能力训练过程中涌现出图像缩放、区域对比等自主思考模式在4096x

【llm对话系统】如何用python实现一个大模型语音对话系统

2. 模块构成：ASR+LLM+TTS。

#python #开发语言 #语言模型 +1

[ubuntu]开启 SSH 密码登录

【代码】[ubuntu]开启 SSH 密码登录。

#ubuntu #ssh #服务器

【llm对话系统】如何用python实现一个大模型语音对话系统

2. 模块构成：ASR+LLM+TTS。

#python #开发语言 #语言模型 +1

【读代码】PDF-Extract-Kit深度解析：最好用的RAG开源PDF解析工具

PDF-Extract-Kit是由OpenDataLab推出的开源工具包，专注于解决复杂PDF文档的内容解析难题。该项目集成了当前最先进的文档解析模型，通过模块化设计实现灵活的功能组合，支持布局检测、公式识别、表格解析等多项核心功能。多模态解析能力：支持文字、公式、表格、图像等元素的联合解析工业级鲁棒性：在模糊扫描件、水印文档等复杂场景下仍保持高准确率开箱即用体验：提供预训练模型权重和完整配置系统

#AIGC #RAG #DeepSeek

深度研究代理框架DeepResearchAgent技术解析

"""财务报告分析"""])

#AIGC

【音频处理】python实现对音频进行简单的静音检测和去除

这种方法通过计算音频帧的能量（通常是均方根能量或短时能量）来判断是否为静音。当能量低于某个阈值时，就认为该帧是静音。使用过零率的静音检测的方案，切除多余的尾部静音，具体逻辑是当尾部禁音达到300ms时切除多余的部分。过零率是指信号穿过零轴的次数。静音部分的过零率通常较低。

#音视频 #python #语音识别 +1

【llm对话系统】如何用python实现一个大模型语音对话系统

2. 模块构成：ASR+LLM+TTS。

#python #开发语言 #语言模型 +1

【读代码】PDF-Extract-Kit深度解析：最好用的RAG开源PDF解析工具

#AIGC #RAG #DeepSeek

【llm对话系统】如何用python实现一个大模型语音对话系统

2. 模块构成：ASR+LLM+TTS。

#python #开发语言 #语言模型 +1

共 12 条

请选择