LHZSMASH！个人主页

@qq_55210199

LHZSMASH！

2023-05-16 23:48:04 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大模型技术演变-4Transformer架构奠基Attention is all you need读后笔记

Attention is All You Need》这篇论文无疑是深度学习领域的重要里程碑，它提出的Transformer架构不仅彻底改变了自然语言处理领域，也对整个人工智能学科产生了深远影响。通过阅读这篇论文，我获得了以下核心启示：简洁即力量：Transformer架构的核心思想异常简洁——仅使用注意力机制，但这种简洁性却带来了前所未有的性能和效率提升。这提醒我们在解决复杂问题时，有时最简单

#transformer #架构

大模型技术演变-4Transformer架构奠基Attention is all you need读后笔记

#transformer #架构

大模型技术演变-4Transformer架构奠基Attention is all you need读后笔记

#transformer #架构

迈向真正的全球医疗AI：Towards building multilingual language model for medicine论文笔记

摘要：上海交通大学团队开发了多语言医疗大模型MMed-Llama3，构建了包含6种语言、255亿tokens的医疗语料库（MMedC）及多语言评测基准（MMedBench）。该模型在医疗问答任务中准确率达67.75%，性能媲美GPT-4，显著优于同类开源模型。研究通过领域自适应预训练和指令微调，提升了模型的多语言能力和解释合理性，并开源资源以促进全球医疗AI发展。成果有望缓解医疗资源不均和语言障

#人工智能 #语言模型 #论文阅读

迈向真正的全球医疗AI：Towards building multilingual language model for medicine论文笔记

#人工智能 #语言模型 #论文阅读

大模型技术演变-3注意力机制诞生Neural Machine Translation by Jointly Learning to Align and Translate读后笔记

这篇ICLR 2015论文开创性地提出注意力机制，突破传统Seq2Seq模型的信息瓶颈问题。作者通过双向RNN编码和动态注意力权重计算，使解码器能自适应聚焦源语句的关键部分，显著提升长句翻译质量。实验显示模型能自主学习词对齐关系，且性能不受句子长度限制。该工作不仅奠定神经机器翻译基础，其Query-Key-Value思想更为Transformer架构埋下伏笔，最终推动整个NLP领域进入注意力时代。

#机器翻译 #人工智能

大模型技术演变-3注意力机制诞生Neural Machine Translation by Jointly Learning to Align and Translate读后笔记

#机器翻译 #人工智能

大模型技术演变-2序列建模突破Sequence to Sequence Learning with Neural Networks读后笔记

Google团队2014年提出的Seq2Seq模型开创了端到端神经机器翻译的新范式。该研究采用编码器-解码器架构，通过多层LSTM将输入序列编码为固定维向量再解码输出，创新性地引入输入反转策略提升性能。实验在WMT'14英法翻译任务上取得34.81 BLEU分，超越当时主流统计方法。尽管存在信息压缩瓶颈等问题，该工作为注意力机制和Transformer的诞生奠定基础，其端到端学习思想深刻影响了NL

大模型技术演变-2序列建模突破Sequence to Sequence Learning with Neural Networks读后笔记

大模型技术演变-1词向量革命Efficient Estimation of Word Representations in Vector Space读后笔记

Word2Vec论文开创了自然语言处理的新范式，通过无监督学习从大规模文本中获取高质量词向量表示。论文提出的CBOW和Skip-gram模型基于"相似上下文词语义相近"的假设，采用层次Softmax、负采样等优化技术，显著提升了训练效率。实验证明词向量能捕捉丰富的语义语法关系，如"国王-男人+女人≈女王"的向量运算。该研究奠定了词嵌入技术基础，推动了NLP从

共 11 条

请选择