logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

论文精读·Does Context Matter? CONTEXTUALJUDGEBENCH for Evaluating LLM-based Judges in Contextual Settin

摘要: 研究提出ContextualJudgeBench基准,系统评估大模型在“有上下文输入”任务中的评审能力。该基准包含2000对覆盖拒答性、忠实性等4类标准的样本,通过人工标注与LLM扰动构建。研究发现,现有评审模型在上下文评估中表现有限(最优模型准确率仅55.3%),并存在位置偏差与推理缺陷。创新性提出分层评估框架(拒答→忠实性→完整性→简洁性),揭示了模型在复杂上下文任务中的评估挑战,为未

#人工智能#算法#机器学习
论文精读·大模型评审(LLM-as-a-Judge)

摘要:大模型评审(LLM-as-a-Judge)是一种利用大语言模型进行自动化评分和评价的技术。其核心流程包括输入设计、模型选择和后处理,通过优化提示、微调模型和标准化输出来提升性能。评估指标关注模型输出与人类标注的一致性,包括分类准确率、偏差检测和对抗鲁棒性。研究还提出了元评估框架,分析不同优化策略对模型能力的有效性。该技术可应用于文本生成、问答系统等多个领域,但需解决输出格式混乱和潜在偏见等问

文章图片
#深度学习#人工智能
论文精读·大模型评审(LLM-as-a-Judge)

摘要:大模型评审(LLM-as-a-Judge)是一种利用大语言模型进行自动化评分和评价的技术。其核心流程包括输入设计、模型选择和后处理,通过优化提示、微调模型和标准化输出来提升性能。评估指标关注模型输出与人类标注的一致性,包括分类准确率、偏差检测和对抗鲁棒性。研究还提出了元评估框架,分析不同优化策略对模型能力的有效性。该技术可应用于文本生成、问答系统等多个领域,但需解决输出格式混乱和潜在偏见等问

文章图片
#深度学习#人工智能
深度学习·mmsegmentation基础教程

继承类别和RGB标签的映射关系指定图像扩展名、标注扩展名seg_map_suffix='.png', # 标注mask图像的格式reduce_zero_label=False, # 类别ID为0的类别是否需要除去**kwargs)# 类别和对应的 RGB配色# 指定图像扩展名、标注扩展名seg_map_suffix='.png', # 标注mask图像的格式reduce_zero_label=Fa

文章图片
#深度学习#人工智能
深度学习·经典模型·SwinTransformer

【代码】深度学习·经典模型·SwinTransformer。

文章图片
#深度学习#人工智能
深度学习·MAFT

效率上:为每个图片叠加提议生成多个子图像,并使用子图像分类效率低下,本文提出了一种同时处理多个提议的方法。所以也要考虑使用提议时,保留原本的全局信息。性能上:子图像之外的区域都为0,导致。+ 实验:对不同的提议,

文章图片
#深度学习#人工智能
深度学习·VPT

VPT 核心思想:冻结backbone,在encoder的输入中 引入额外可学习的token,微调这些token和decoder部分,避免直接调整backbone。两种方法:Deep和Shallow 只有第一层的prompt token是可以学习的参数 每一层transformer layer的prompt token都是可以学习的参数 VPT的应用 VIT模型SWIN transformer,这

#深度学习#人工智能
深度学习·MAFT

效率上:为每个图片叠加提议生成多个子图像,并使用子图像分类效率低下,本文提出了一种同时处理多个提议的方法。所以也要考虑使用提议时,保留原本的全局信息。性能上:子图像之外的区域都为0,导致。+ 实验:对不同的提议,

文章图片
#深度学习#人工智能
深度学习·mmsegmentation基础教程

继承类别和RGB标签的映射关系指定图像扩展名、标注扩展名seg_map_suffix='.png', # 标注mask图像的格式reduce_zero_label=False, # 类别ID为0的类别是否需要除去**kwargs)# 类别和对应的 RGB配色# 指定图像扩展名、标注扩展名seg_map_suffix='.png', # 标注mask图像的格式reduce_zero_label=Fa

文章图片
#深度学习#人工智能
机器学习·L3W1-聚类和异常检测

计算每个样本点的正态分布概率密度,并且累乘得到最终概率,依据概率选择epsilon处理异常。公式是计算每一个聚类中心和当前样本的距离,挑选一个最短距离作为当前点的类别。参照分类模型的评估标准,选择F1分数最高的模型参数。异常检测是无监督学习,分类是有监督学习;一般采取计算样本的均值,使用。两层for循环直接暴力搜索。注意python的条件索引。利用python的判断语法。注意高斯函数算完后还要。距

文章图片
#机器学习#聚类#人工智能
    共 16 条
  • 1
  • 2
  • 请选择