logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型入门 | 总结多模态的基础知识(二)什么是深度学习(Deep Learning)?什么是Transformer?

CNN是深度学习中最常用于处理图像和视频数据的网络结构。它通过卷积层自动提取图像中的局部特征,并通过池化层减少数据的空间维度,最终通过全连接层进行分类或回归。

文章图片
#深度学习#transformer#人工智能
一文读懂!DeepSeek-R1 大模型本地部署超详细攻略

在快速发展的人工智能领域,2025 年 1 月,DeepSeek正式推出了备受瞩目的推理大模型。这款模型凭借其低廉的成本和卓越的性能,一经发布便迅速在 AI 行业掀起波澜,吸引了众多研究者、开发者以及企业的广泛关注。之所以能够在竞争激烈的 AI 市场中脱颖而出,其性价比优势功不可没。相较于其他同类型的大模型,它在保证出色性能的同时,大大降低了使用成本,这使得更多的个人开发者、科研团队以及预算有限的

文章图片
#人工智能#DeepSeek
【程序员必看】大模型训练不再是大佬专属!小白也能搞定的LLM微调全攻略

本文系统介绍了大语言模型(LLM)训练的全流程,包括多种微调技术(SFT、DPO、RLHF等)及其适用场景,基于不同硬件配置(特别是单卡显存)的训练方案,以及高质量数据集的准备方法。针对不同模型特性提供了定制化训练建议,最后给出了明确目标、评估资源、准备数据、选择框架的实践路径,使个人开发者也能低成本训练专属LLM。

文章图片
#算法#人工智能#科技
精选报告分享 | 2024大语言模型能力测评报告(附43页PDF)

2023年,中央及地方围绕基础设施、算法、算力、数据等领域出台多项政策,坚持发展和安全并重、促进创新和依法治理相结合的原则,鼓励和规范作为硬科技的Al大模型产业发展。百度、阿里、腾讯、智谱Al、百川智能等多家企业和机构,按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续,获得备案批准,对公众全面开放,标志着大模型发展进入新阶段,加速推动大模型产业化应用。

文章图片
#语言模型#人工智能#自然语言处理
大模型论文 | RAG-MCP :通过RAG进行工具选择缓解大语言模型中的Prompt膨胀

由于提示词膨胀和选择复杂性,大语言模型(LLMs)难以有效利用越来越多的外部工具,比如由模型上下文协议(MCP)[1]定义的那些工具。我们引入了RAG-MCP,这是一种检索增强生成框架,它通过将工具发现任务卸载来克服这一挑战。RAG-MCP在调用大语言模型之前,使用语义检索从外部索引中为给定查询识别最相关的MCP。只有选定的工具描述会被传递给模型,这大幅减少了提示词的大小并简化了决策过程。

文章图片
#语言模型#人工智能#RAG
大模型爆款书推荐《从零构建大语言模型》,中文版来了!

2025 年,人工智能依然是科技圈最热的风口。ChatGPT、Claude、DeepSeek 等模型层出不穷,不断刷新人们对 AI 能力的想象。而支撑这一切的,正是大语言模型(LLM)——这个曾经只是大厂的专属!但问题来了:构建一个属于自己的大模型,真的非得依赖大团队、大算力、大预算不可吗?其实未必!Build a Large Language Model (From Scratch) 这本书,正

文章图片
#语言模型#自然语言处理
深入理解RAG:什么是Embedding Model?Embedding Model的作用,RAG引擎中的工作流

在学习嵌入模型之前,我们需要先了解什么是Embedding。简单来说,Embedding是一种将离散的非结构化数据(如文本中的单词、句子或文档)转换为连续向量的技术。在自然语言处理(NLP)领域,Embedding通常用于将文本映射为固定长度的实数向量,以便计算机能够更好地处理和理解这些数据。每个单词或句子都可以用一个包含其语义信息的向量来表示。Embedding常用于将文本数据映射为固定长度的实

文章图片
#人工智能#自然语言处理#RAG
一篇搞明白AI Agent & 多智能体系统!

LangGraph 是由 LangChain 团队开发的。

文章图片
【深度学习】自注意力机制&多头自注意力机制:技术背景、原理分析及基于Pytorch的代码实现

的提出源于谷歌的Vaswani 等人于2017年发表的著名论文 《Attention Is All You Need》,作为Transformer架构的核心技术,其被广泛应用于自然语言处理(NLP)和计算机视觉(CV)等领域,为后来的如BERT、GPT等许多先进的模型奠定了基础。本文将从方面详细介绍自注意力机制和多头自注意力机制。在自然语言处理任务中,自注意力机制和多头自注意力机制提出之前的循环神

文章图片
#深度学习#pytorch#人工智能
什么是 AI 智能体?AI 智能体系统中的关键模式,五种 AI 智能体模式的比较

AI 智能体是利用 LLM 处理信息、与工具交互并执行任务的系统。工作流(Workflow)LLM 与外部工具按照预定义的执行路径进行结构化序列操作。此类系统注重可预测性,适用于定义明确且可重复的任务。智能体(Agent)更具动态性和自主性的系统,LLM 可自主决定流程、选择工具并确定任务完成方式。这种方式提供了更大的灵活性和适应性。选择工作流还是智能体取决于问题领域:工作流在结构化自动化任务中表

文章图片
#人工智能#深度学习
    共 1367 条
  • 1
  • 2
  • 3
  • 137
  • 请选择