2301_79268239 个人主页

@2301_79268239

2301_79268239

2024-09-07 14:26:57 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

山东大学创新实训——群面智伴5（优化报告导出、新增工具调用、解决当前项目的部分问题）

本轮工作把群面系统从“AI 候选人可以自动讨论”推进到“用户可以真实参与、报告可以稳定生成、Agent 行为可以被观察和约束”的阶段。报告生成 Agent 的优化解决的是工程能力上的瓶颈：上下文如何压缩（InferencePack）、事实如何保留、工具如何稳定执行（ReAct 约束 + lenient 解析）、外部知识如何接入（Tavily）、长任务如何让用户可感知（SSE），以及失败时如何降级（

#状态模式

山东大学创新实训群面智伴 (4)

OpenManus由智能体核心、工作流、自定义的MCP、提示词、沙箱环境、工具组成，如下图所示。当前群面项目已经跑通文字版功能，且前端后端均已完善，并实现了时间线与事件流的报告导出。

#java

多模态论文3：LAVT模型

LAVT模型，一种用于指称图像分割的语言感知视觉Transformer。传统方法通常在特征编码后才进行跨模态融合，而LAVT创新地在视觉Transformer编码器中早期融合语言和视觉特征。通过PWAM模块计算跨模态注意力，并结合LG模块自适应控制语言信息流向。该方法仅需轻量级解码器，在三个基准测试上均优于现有技术。消融实验表明，残差式融合方式能有效保留预训练视觉特征的性能。LAVT通过充分利用T

#深度学习 #人工智能

多模态论文2：Recurrent Multimodal Interaction for Referring Image Segmentation循环多模态交互 RMI模型

本文是一种循环多模态交互模型(RMI)，用于指称图像分割任务，与之前方法独立处理文本和图像不同，该模型采用双层LSTM结构，在读取每个单词时即与视觉特征进行交互：底层LSTM编码语义信息，上层卷积多模态LSTM(mLSTM)融合语言、视觉和空间特征，这种序列化交互方式更符合人类处理模式，能有效捕捉长程依赖关系

#深度学习 #人工智能

到底了