logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型技术演变-4​Transformer架构奠基Attention is all you need读后笔记

Attention is All You Need》这篇论文无疑是深度学习领域的重要里程碑,它提出的Transformer架构不仅彻底改变了自然语言处理领域,也对整个人工智能学科产生了深远影响。通过阅读这篇论文,我获得了以下核心启示:​简洁即力量​:Transformer架构的核心思想异常简洁——仅使用注意力机制,但这种简洁性却带来了前所未有的性能和效率提升。这提醒我们在解决复杂问题时,有时最简单

#transformer#架构
大模型技术演变-4​Transformer架构奠基Attention is all you need读后笔记

Attention is All You Need》这篇论文无疑是深度学习领域的重要里程碑,它提出的Transformer架构不仅彻底改变了自然语言处理领域,也对整个人工智能学科产生了深远影响。通过阅读这篇论文,我获得了以下核心启示:​简洁即力量​:Transformer架构的核心思想异常简洁——仅使用注意力机制,但这种简洁性却带来了前所未有的性能和效率提升。这提醒我们在解决复杂问题时,有时最简单

#transformer#架构
大模型技术演变-4​Transformer架构奠基Attention is all you need读后笔记

Attention is All You Need》这篇论文无疑是深度学习领域的重要里程碑,它提出的Transformer架构不仅彻底改变了自然语言处理领域,也对整个人工智能学科产生了深远影响。通过阅读这篇论文,我获得了以下核心启示:​简洁即力量​:Transformer架构的核心思想异常简洁——仅使用注意力机制,但这种简洁性却带来了前所未有的性能和效率提升。这提醒我们在解决复杂问题时,有时最简单

#transformer#架构
迈向真正的全球医疗AI:Towards building multilingual language model for medicine论文笔记

摘要: 上海交通大学团队开发了多语言医疗大模型MMed-Llama3,构建了包含6种语言、255亿tokens的医疗语料库(MMedC)及多语言评测基准(MMedBench)。该模型在医疗问答任务中准确率达67.75%,性能媲美GPT-4,显著优于同类开源模型。研究通过领域自适应预训练和指令微调,提升了模型的多语言能力和解释合理性,并开源资源以促进全球医疗AI发展。成果有望缓解医疗资源不均和语言障

#人工智能#语言模型#论文阅读
迈向真正的全球医疗AI:Towards building multilingual language model for medicine论文笔记

摘要: 上海交通大学团队开发了多语言医疗大模型MMed-Llama3,构建了包含6种语言、255亿tokens的医疗语料库(MMedC)及多语言评测基准(MMedBench)。该模型在医疗问答任务中准确率达67.75%,性能媲美GPT-4,显著优于同类开源模型。研究通过领域自适应预训练和指令微调,提升了模型的多语言能力和解释合理性,并开源资源以促进全球医疗AI发展。成果有望缓解医疗资源不均和语言障

#人工智能#语言模型#论文阅读
大模型技术演变-3注意力机制诞生Neural Machine Translation by Jointly Learning to Align and Translate读后笔记

这篇ICLR 2015论文开创性地提出注意力机制,突破传统Seq2Seq模型的信息瓶颈问题。作者通过双向RNN编码和动态注意力权重计算,使解码器能自适应聚焦源语句的关键部分,显著提升长句翻译质量。实验显示模型能自主学习词对齐关系,且性能不受句子长度限制。该工作不仅奠定神经机器翻译基础,其Query-Key-Value思想更为Transformer架构埋下伏笔,最终推动整个NLP领域进入注意力时代。

#机器翻译#人工智能
大模型技术演变-3注意力机制诞生Neural Machine Translation by Jointly Learning to Align and Translate读后笔记

这篇ICLR 2015论文开创性地提出注意力机制,突破传统Seq2Seq模型的信息瓶颈问题。作者通过双向RNN编码和动态注意力权重计算,使解码器能自适应聚焦源语句的关键部分,显著提升长句翻译质量。实验显示模型能自主学习词对齐关系,且性能不受句子长度限制。该工作不仅奠定神经机器翻译基础,其Query-Key-Value思想更为Transformer架构埋下伏笔,最终推动整个NLP领域进入注意力时代。

#机器翻译#人工智能
大模型技术演变-2序列建模突破Sequence to Sequence Learning with Neural Networks读后笔记

Google团队2014年提出的Seq2Seq模型开创了端到端神经机器翻译的新范式。该研究采用编码器-解码器架构,通过多层LSTM将输入序列编码为固定维向量再解码输出,创新性地引入输入反转策略提升性能。实验在WMT'14英法翻译任务上取得34.81 BLEU分,超越当时主流统计方法。尽管存在信息压缩瓶颈等问题,该工作为注意力机制和Transformer的诞生奠定基础,其端到端学习思想深刻影响了NL

大模型技术演变-2序列建模突破Sequence to Sequence Learning with Neural Networks读后笔记

Google团队2014年提出的Seq2Seq模型开创了端到端神经机器翻译的新范式。该研究采用编码器-解码器架构,通过多层LSTM将输入序列编码为固定维向量再解码输出,创新性地引入输入反转策略提升性能。实验在WMT'14英法翻译任务上取得34.81 BLEU分,超越当时主流统计方法。尽管存在信息压缩瓶颈等问题,该工作为注意力机制和Transformer的诞生奠定基础,其端到端学习思想深刻影响了NL

大模型技术演变-1词向量革命Efficient Estimation of Word Representations in Vector Space读后笔记

Word2Vec论文开创了自然语言处理的新范式,通过无监督学习从大规模文本中获取高质量词向量表示。论文提出的CBOW和Skip-gram模型基于"相似上下文词语义相近"的假设,采用层次Softmax、负采样等优化技术,显著提升了训练效率。实验证明词向量能捕捉丰富的语义语法关系,如"国王-男人+女人≈女王"的向量运算。该研究奠定了词嵌入技术基础,推动了NLP从

    共 11 条
  • 1
  • 2
  • 请选择