logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

大数据人工智能相关课程培训,人工智能培训及咨询,合作抠抠526346584

ICLR2023 | PromptPG:当强化学习遇见大规模语言模型

区别于随机选择 in-context 示例,本文提出的 PromptPG 通过 Policy Gradient 训练一个策略网络来选择更合适的 in-context 示例,在 TabMWP 上取得了最高的预测结果(68.23%),其平均预测准确率超过最好基准模型(Few-shot-CoT GPT-3)5.31%。通过让 Few-shot GPT-3 在生成最终答案前生成多步的中间步骤(Few-sh

文章图片
#语言模型#人工智能#自然语言处理
OpenAI联合创始人通俗解读大语言模型

Andrej Karpathy,作为OpenAI的创始人之一,不仅在人工智能界享有盛名,也以其对技术的深入解析而受到广泛尊敬。本文将依循Karpathy视频中的视角,结合一些看法,探讨大型语言模型的奥秘,希望可以帮助到你。

文章图片
#语言模型#人工智能#自然语言处理 +1
OpenELM:开启开放训练和推理框架的高效语言模型家族

随着大模型模型规模的增长,这些强大工具的透明度、可复现性和对数据偏见的敏感性也引起了人们的关注。这些问题不仅关系到研究的开放性和公平性,也关系到模型输出的可信度和安全性。为了应对这些挑战,Apple的研究团队发布了名为OpenELM的新一代开放语言模型。OpenELM采用了层级缩放策略,优化了变换器模型中每层的参数分配,从而提升了模型的准确性。例如,在大约十亿参数的预算下,OpenELM在准确性上

文章图片
#语言模型#人工智能#自然语言处理 +2
GLoRE:大型语言模型的逻辑推理能力探究

在这项研究中,研究团队提出了一个名为GLoRE的数据集,专门用于评估LLMs在处理多种逻辑推理任务上的表现。研究发现ChatGPT和GPT-4在大部分逻辑推理基准测试上都显著超越了传统的微调方法。尽管商业模型在GLoRE测试中的表现相对较弱,但通过对相似数据进行指令调整,模型的性能得到了显著提高。此外,通过监督微调、上下文学习和投票技术,研究团队成功地实现了更为出色的结果。在对模型进行量化和定性评

文章图片
#语言模型#人工智能#自然语言处理
2024!深入了解 大语言模型(LLM)微调方法(总结)

2021年微软提出的 LORA,斯坦福提出的 Prefix-Tuning,谷歌提出的 Prompt Tuning,2022年清华提出的 P-tuning v2、2023年华盛顿大学提出的QLoRA、2024年英伟达提出DoRA等基本上都是属于该范畴)。LLM微调是一个将预训练模型在较小、特定数据集上进一步训练的过程,目的是精炼模型的能力,提高其在特定任务或领域上的性能。其中,大模型微调技术在此过程

文章图片
#语言模型#人工智能#自然语言处理 +1
从ChatGPT到ChatCAD:基于大型语言模型的医学图像交互式计算机辅助诊断

2023年年初最火热的话题之一就是OpenAI的ChatGPT1,给人类带来了巨大的冲击。1月底,美国《财富》杂志2/3月合刊的封面文章《全球爆红的ChatGPT是如何诞生的?》引爆了创投圈。在这巨大的浪潮冲击下,如何让其在医疗领域发挥其强大的作用呢?沈定刚教授团队给出了初步的答案。在本文中,作者提出了一种将大型语言模型(LLMs)集成到医学影像计算机辅助诊断网络中的初步方法。

文章图片
#语言模型#人工智能
MoE-LLaVA:为大型视觉-语言模型引入专家混合

随着人工智能技术的飞速发展,大型视觉-语言模型(LVLMs)在图像理解和自然语言处理方面展现出了巨大的潜力。这些模型通过结合图像编码器和语言模型,能够处理包括图像描述、视觉问答和图像字幕生成等在内的多种任务。然而,现有模型在训练和推理时存在巨大的计算成本,这限制了它们的应用范围和效率。

文章图片
#语言模型#人工智能#自然语言处理 +2
OpenAI最新突破性进展:语言模型可以解释语言模型中的神经元

语言模型变得更强大,部署更广泛,但我们对它们内部工作原理的理解仍然非常有限。例如,可能很难从它们的输出中检测到它们是使用有偏见的启发式方法还是进行胡编乱造。可解释性研究旨在通过查看模型内部来发现更多信息。可解释性研究的一种简单方法是首先了解各个组件(神经元和注意力头)在做什么。传统上,这需要人类手动检查神经元,以确定它们代表数据的哪些特征。这个过程不能很好地扩展:很难将它应用于具有数百或数千亿个参

文章图片
#语言模型#人工智能#深度学习
基于大型语言模型的学术知识图谱问答

回答:生成SPARQL查询时采用prompt的方式是为了通过提供一些类似的问题-SPARQL对和测试问题来引导LLMs学习并生成准确的SPARQL查询。回答:使用更多的类似问题-SPARQL对可能导致训练的问题与测试问题的相似度降低,从而使LLMs产生不正确的SPARQL查询。回答:相对于其他参与SciQA挑战的模型,该模型具有接近1的性能,并且在使用少量训练样本的情况下可以生成准确的SPARQL

文章图片
#语言模型#知识图谱#人工智能 +2
人工智能 大模型之多模态(Multimodal)机器学习(Machine learning)的相关研究

它主要涉及:分析规划和获取运动信息的处理、步态的模式识别和分析以及步态的转换过程,以及脑电图和关节位置、足部压力等不同模式的数据作为机器学习模型的输入,以提高步态规划的及时性、准确性和安全性。在机器学习中,早期、中期和后期融合的典型特征是,如果所有信息都流入一个模型(早期),一种逐步的方式,其中一个模型的输出变成另一个模型中的输入(中期),最后,所有独特的数据类型都经过单独的建模,然后进行组合和/

文章图片
#人工智能#机器学习
    共 474 条
  • 1
  • 2
  • 3
  • 48
  • 请选择