logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CodeSearchNet:一个大规模代码-文档检索数据集的构建、应用与挑战

CodeSearchNet 数据集自发布以来,已成为代码智能领域一个事实上的标准基准,其影响深远。

文章图片
#人工智能#机器学习
MATH-500:大模型数学推理能力评估基准

MATH-500是一个专门用于评估大型语言模型(LLM)数学推理能力的高难度基准测试数据集。它包含了500道高质量、富有挑战性的数学题目,覆盖了多个数学分支领域,旨在全面检验模型解决复杂数学问题的能力。该数据集作为对原有MATH数据集的补充和扩展,提供了更加全面和具有挑战性的评估环境。本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起

文章图片
#人工智能
SQuAD:机器阅读理解领域的里程碑数据集

SQuAD(Stanford Question Answering Dataset)是斯坦福大学自然语言处理组于2016年推出的机器阅读理解数据集,被誉为"机器阅读理解界的ImageNet"。该数据集包含10万多个问题-答案对,基于500多篇维基百科文章构建,成为评估机器理解人类语言能力的重要基准。让机器真正理解文本内容并回答相关问题。与传统的问答系统不同,SQuAD要求模型不仅能够识别关键词,还

文章图片
#人工智能#深度学习
CodeBLEU:面向代码合成的多维度自动评估指标——原理、演进与开源实践

是由与联合提出的代码合成评估指标,首次发表于(论文编号:2009.10297)。该指标针对传统自然语言评估方法(如BLEU)在代码任务中的局限性,创新性地融合与,成为代码生成、翻译与精炼任务的事实评估标准。

文章图片
#人工智能#神经网络#机器学习
权威指南:SFT数据集格式、用途与开源资源

本文对SFT常用数据集格式、用途及相关开源数据集进行总结说明。

文章图片
#人工智能#深度学习#神经网络
直接偏好优化(DPO):原理、演进与大模型对齐新范式

是由斯坦福大学与 CZ Biohub 研究团队于 2023 年提出的突破性方法,用于,无需显式训练奖励模型或依赖强化学习(RL)。其核心思想是将模型自身隐式转化为奖励函数,通过数学变换将复杂的强化学习问题转化为简洁的监督学习目标,显著提升训练效率与稳定性。

文章图片
#人工智能#机器学习#神经网络 +1
HotpotQA:推动多跳推理问答发展的标杆数据集

HotpotQA作为多跳问答研究的标杆数据集,通过其精心设计的多文档推理挑战和丰富标注,推动了问答系统从简单模式匹配向复杂推理的范式转变。虽然最佳模型在受限设置下已接近人类表现,但全维基环境和复杂推理场景下仍有显著差距。这一数据集继续激励着研究者探索更智能、可解释的问答技术,最终实现机器像人类一样深度理解和推理文本的目标。本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖

文章图片
#人工智能#神经网络
RoPE:相对位置编码的旋转革命——原理、演进与大模型应用全景

RoPE通过几何旋转的统一框架,实现了位置编码的相对性、可逆性与外推性的平衡,成为大模型位置感知的基石技术。跨模态统一:N维李群框架支撑视频、3D点云位置建模动态频率学习:替代预设θbaseθbase​,实现任务自适应编码鲁棒性增强:融合FoPE思想抵抗深层频谱损坏RoPE的本质是将位置关系映射为复数空间的旋转群——它不仅是Transformer的“位置感知器”,更是AI理解时空的数学透镜。当旋转

文章图片
#人工智能#深度学习#算法
    共 147 条
  • 1
  • 2
  • 3
  • 15
  • 请选择