
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
山东大学创新实训——群面智伴5(优化报告导出、新增工具调用、解决当前项目的部分问题)
本轮工作把群面系统从“AI 候选人可以自动讨论”推进到“用户可以真实参与、报告可以稳定生成、Agent 行为可以被观察和约束”的阶段。报告生成 Agent 的优化解决的是工程能力上的瓶颈:上下文如何压缩(InferencePack)、事实如何保留、工具如何稳定执行(ReAct 约束 + lenient 解析)、外部知识如何接入(Tavily)、长任务如何让用户可感知(SSE),以及失败时如何降级(
山东大学创新实训群面智伴 (4)
OpenManus由智能体核心、工作流、自定义的MCP、提示词、沙箱环境、工具组成,如下图所示。当前群面项目已经跑通文字版功能,且前端后端均已完善,并实现了时间线与事件流的报告导出。
多模态论文3:LAVT模型
LAVT模型,一种用于指称图像分割的语言感知视觉Transformer。传统方法通常在特征编码后才进行跨模态融合,而LAVT创新地在视觉Transformer编码器中早期融合语言和视觉特征。通过PWAM模块计算跨模态注意力,并结合LG模块自适应控制语言信息流向。该方法仅需轻量级解码器,在三个基准测试上均优于现有技术。消融实验表明,残差式融合方式能有效保留预训练视觉特征的性能。LAVT通过充分利用T

多模态论文2:Recurrent Multimodal Interaction for Referring Image Segmentation循环多模态交互 RMI模型
本文是一种循环多模态交互模型(RMI),用于指称图像分割任务,与之前方法独立处理文本和图像不同,该模型采用双层LSTM结构,在读取每个单词时即与视觉特征进行交互:底层LSTM编码语义信息,上层卷积多模态LSTM(mLSTM)融合语言、视觉和空间特征,这种序列化交互方式更符合人类处理模式,能有效捕捉长程依赖关系

到底了







