
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
该文档是一篇发表于IJCAI-25的研究论文,核心聚焦于视频-语言模型(VLMs)中的幻觉问题,提出了多层多模态对齐(MMA)框架及两阶段训练策略,以提升模型语义一致性并减少幻觉。该研究通过语义对齐与两阶段训练,从根源缓解了VLMs的幻觉问题,同时提升了长视频理解与视频问答的准确性,为视频分析、多模态学习等领域的实际应用提供了更可靠的技术支撑。通过文本语义监督与多层对齐,强化视觉与文本模态的语义一

该研究聚焦LLM辅助课程开发的界面设计挑战,提出两种基于直接操作(DM)原则的新型UI(UI Predefined和UI Open),以解决传统文本界面依赖复杂提示工程、认知负荷高的问题。通过20名不同教育背景参与者的对照实验,将其与标准ChatGPT界面(通过open-webui模拟)在可用性(SUS)和认知负荷(NASA RTLX)方面对比,结果显示UI Predefined显著优于其他两者(

课程映射在教育中发挥着关键作用,以确保学习结果、内容、毕业技能和评估之间的一致性。项目要求通常根据行业需求制定,并嵌入课程和评估任务中。课程分析(CA)主要通过机器学习(ML)模型为课程映射过程引入了一定程度的自动化。虽然这种CA方法有助于减轻工作负担,但它们在捕获毕业技能在整个项目中发展的细微程度方面仍然面临挑战。本研究引入了一种使用大语言模型(LLMs)作为协同课程审查者的新方法。

本文提出了一种结合数字笔技术与多模态大型语言模型(MLLMs)的新型方法CogChain,通过收集25名高中生在数学、物理、化学三科共87,679条解题手写轨迹数据,自动构建逻辑链并从解题维度、时间维度、课程维度展开多维度分析,发现中等复杂度解题模式准确率最高、结构化推理时间占比更高的学生表现更优、不同学科需适配专属解题与时间管理策略等关键结论,为个性化教育提供了重要指导。核心痛点:传统考试评估难

理解学生在问题解决中的认知模式对个性化教育至关重要,然而传统方法难以有效捕获和分析这些模式。本文提出了CogChain,一种将数字笔技术与多模态大语言模型(MLLMs)协同结合的新方法,用于自动构建学生在考试期间的逻辑链。我们收集了一个包含25名真实高中学生在数学、物理和化学科目中的87,679条手写轨迹的综合数据集。基于构建的学生逻辑链,我们从三个维度进行了深入分析:解题、时间和课程,揭示了一系

该研究发表于AIED 2025会议,提出了一种基于直接偏好优化(DPO)训练开源大语言模型(LLM)辅导器的新方法,通过收集多来源候选辅导话语,结合LLMKT学生模型预测学生正确响应概率和GPT-4o基于教学评分标准的评估构建偏好对,对Llama 3.1 8B进行微调,最终模型在学生正确响应预测上比次优方法(GPT-4o)提升33%,同时教学质量接近GPT-4o,且通过定性分析和人类评估验证了其高

威斯康星大学麦迪逊分校的研究人员开发了AIBAT(AI行为分析工具),旨在支持教育工作者在特定教学情境中审计和评估大型语言模型(LLMs)等AI支架的利弊,其核心功能包括自定义主题与行为的情境化评估、相关语言变体的行为分析扩展、评估与意义建构的行为可视化,通过让教师指定AI预期行为并开展测试,增强了AI透明度与教师信任;一项涉及14名不同教龄、学科背景教师。

随着AIED越来越依赖不透明的黑盒支架(如大型语言模型)来支持学生学习,人们越来越担心它们在不同教学情境中使用时的局限性。这种不透明性往往削弱了教育工作者的信任并影响他们的看法,导致学校对采用AI支架的抵制。为了应对这些挑战,我们开发了AIBAT,这是一个旨在支持教育工作者在其特定教学情境(例如,学科、年级水平、英语熟练程度)中审计和批判性评估AI系统的潜在益处和危害的工作流程和系统。通过AIBA
阅读障碍给全球学生的教育带来了重大挑战。虽然辅助技术已被用于提高可读性,但尚未有研究系统性地评估语言模型(LMs)生成符合既定无障碍指南的阅读障碍友好文本的能力。本概念验证研究评估了三个最先进的语言模型识别和应用阅读障碍友好文本标准的能力。我们的研究发现,它们的知识是有限的并且存在潜在风险。为了解决这个问题,我们引入了DysText,这是一个基于英国阅读障碍协会阅读障碍风格指南量化阅读障碍友好文本

本研究是一项概念验证研究,聚焦阅读障碍友好文本标准与语言模型(LMs)的适配性,首次提出量化标准的DysText指标,基于英国阅读障碍协会的《阅读障碍风格指南》评估了Gemma、Phi4和GPT4-turbo三款模型。研究发现,这些模型仅能识别33项标准中的约13项,虽能显著提升文本的阅读障碍友好性(Phi4的DysText平均总分最高达3.24,满分11分),但存在推荐额外非标准标准、生成文本出







