
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
CNN是深度学习中最常用于处理图像和视频数据的网络结构。它通过卷积层自动提取图像中的局部特征,并通过池化层减少数据的空间维度,最终通过全连接层进行分类或回归。

在快速发展的人工智能领域,2025 年 1 月,DeepSeek正式推出了备受瞩目的推理大模型。这款模型凭借其低廉的成本和卓越的性能,一经发布便迅速在 AI 行业掀起波澜,吸引了众多研究者、开发者以及企业的广泛关注。之所以能够在竞争激烈的 AI 市场中脱颖而出,其性价比优势功不可没。相较于其他同类型的大模型,它在保证出色性能的同时,大大降低了使用成本,这使得更多的个人开发者、科研团队以及预算有限的

本文系统介绍了大语言模型(LLM)训练的全流程,包括多种微调技术(SFT、DPO、RLHF等)及其适用场景,基于不同硬件配置(特别是单卡显存)的训练方案,以及高质量数据集的准备方法。针对不同模型特性提供了定制化训练建议,最后给出了明确目标、评估资源、准备数据、选择框架的实践路径,使个人开发者也能低成本训练专属LLM。

2023年,中央及地方围绕基础设施、算法、算力、数据等领域出台多项政策,坚持发展和安全并重、促进创新和依法治理相结合的原则,鼓励和规范作为硬科技的Al大模型产业发展。百度、阿里、腾讯、智谱Al、百川智能等多家企业和机构,按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续,获得备案批准,对公众全面开放,标志着大模型发展进入新阶段,加速推动大模型产业化应用。

由于提示词膨胀和选择复杂性,大语言模型(LLMs)难以有效利用越来越多的外部工具,比如由模型上下文协议(MCP)[1]定义的那些工具。我们引入了RAG-MCP,这是一种检索增强生成框架,它通过将工具发现任务卸载来克服这一挑战。RAG-MCP在调用大语言模型之前,使用语义检索从外部索引中为给定查询识别最相关的MCP。只有选定的工具描述会被传递给模型,这大幅减少了提示词的大小并简化了决策过程。

2025 年,人工智能依然是科技圈最热的风口。ChatGPT、Claude、DeepSeek 等模型层出不穷,不断刷新人们对 AI 能力的想象。而支撑这一切的,正是大语言模型(LLM)——这个曾经只是大厂的专属!但问题来了:构建一个属于自己的大模型,真的非得依赖大团队、大算力、大预算不可吗?其实未必!Build a Large Language Model (From Scratch) 这本书,正

在学习嵌入模型之前,我们需要先了解什么是Embedding。简单来说,Embedding是一种将离散的非结构化数据(如文本中的单词、句子或文档)转换为连续向量的技术。在自然语言处理(NLP)领域,Embedding通常用于将文本映射为固定长度的实数向量,以便计算机能够更好地处理和理解这些数据。每个单词或句子都可以用一个包含其语义信息的向量来表示。Embedding常用于将文本数据映射为固定长度的实

LangGraph 是由 LangChain 团队开发的。

的提出源于谷歌的Vaswani 等人于2017年发表的著名论文 《Attention Is All You Need》,作为Transformer架构的核心技术,其被广泛应用于自然语言处理(NLP)和计算机视觉(CV)等领域,为后来的如BERT、GPT等许多先进的模型奠定了基础。本文将从方面详细介绍自注意力机制和多头自注意力机制。在自然语言处理任务中,自注意力机制和多头自注意力机制提出之前的循环神

AI 智能体是利用 LLM 处理信息、与工具交互并执行任务的系统。工作流(Workflow)LLM 与外部工具按照预定义的执行路径进行结构化序列操作。此类系统注重可预测性,适用于定义明确且可重复的任务。智能体(Agent)更具动态性和自主性的系统,LLM 可自主决定流程、选择工具并确定任务完成方式。这种方式提供了更大的灵活性和适应性。选择工作流还是智能体取决于问题领域:工作流在结构化自动化任务中表








