登录社区云,与社区用户共同成长
邀请您加入社区
随着大语言模型的快速发展,AI Agent 已经从简单的对话机器人进化成能够自主完成复杂任务的智能体。但是,仅仅依靠语言模型本身是不够的——Agent 需要Skills(技能)来与外部世界交互。就像人类需要学习使用工具一样,AI Agent 也需要掌握各种技能:搜索网页、读写文件、调用 API、执行代码等。本文将带你深入了解 Agent Skills 的核心机制,并手把手教你实现自己的技能系统。A
你是不是用 FastAPI 写接口时只会用 str、int、list 这些基础类型注解?或者在写 LangChain 工具链时,不知道怎么让大模型准确识别工具参数的类型?这篇详解 Python typing 模块的常用类型、类型别名、泛型、协议、类型守卫,配合 FastAPI 接口开发和 LLM 工具调用的代码示例,让你彻底搞懂类型注解的底层逻辑和应用场景,代码可读性提升一倍,调试时间减少一半。
本文全面详细讲述了大模型PEFT的发展路线、主要算法的原理,并基于Hugging Face库实现了通用大模型的LoRA微调流程。
AI外呼系统和语音智能体正成为企业客服中心的重要工具。当前市场主要有三类产品:业务导向型,提供完整外呼解决方案;对话体验型,专注自然交互;云平台型,技术强大但部署复杂。企业在选型时应重点考虑上线速度、维护能力、本地化适配和系统集成需求,而非单纯比较技术参数。业务型系统适合快速部署,平台方案则更适合有技术团队的企业进行深度定制。
工作人员齐整坐好,每个人都对着电脑全神贯注,一件又一件的“东西”在眼前划过,经过标准化处理就转到下一流程……这实际上是人工智能行业里的数据标注办公区一角。由于深度学习的研究方向,人力密集型的数据标注工作是推进人工智能技术落地的重要环节之一。很长一段时间以来,在过往AI的发展中数据的采集与标注行业没有过多地被关注,毕竟,与算法、算力这些高大上的东西相比,AI数据的生产总带着那么几分与AI技术的“科技
在当今数字化浪潮中,自然语言处理(NLP)携手大模型,正引领着人工智能的全新变革。NLP 作为理解与生成人类语言的核心技术,正借助大模型的强大算力与海量数据,实现质的飞跃。从精准翻译到智能创作,从复杂问答到情感分析,它们正重塑人机交互的未来。本专栏将聚焦于 NLP 与大模型的前沿动态、技术剖析及实战应用,带你领略这一领域的无限魅力与潜力,共同见证语言智能的蓬勃发展
继续应用实践的案例学习,nlp领域的分类和个性化分析,这个和我们在app移动应用上的体验很相关,根据自定义内容产生个性化的音频,transformer结合NLP领域的应用还是很广泛的,不仅仅是文字,还有音乐。基于MindNLP+MusicGen生成自己的个性化音乐。昇思大模型使用第二十三天。
文本解码是自然语言处理(NLP)中的一个关键步骤,用于将模型生成的向量表示转化为可读的文本。
使用MindNLP组件加载Roberta-Large模型, 设置IA3算法配置并初始化微调模型,加载数据进行训练,最后通过部署gradio呈现。数据集:GLUE-MRPC
一句话介绍:ChatGPT是一个大语言模型,对应大数据、强算力、好算法。
本文介绍了预训练好自己的大语言模型后如何微调,激发模型的对话能力,并讨论了如何调用trl库进行预训练。
本项目基于RAG技术开发了一个法律文书智能解读系统,旨在解决法律文书专业术语难懂、咨询成本高的问题。系统采用三级缓存架构(Redis、MySQL、RAG引擎)实现高效检索,通过BM25算法和混合检索策略提升匹配精度。核心技术包括: 使用BGE-M3模型进行文本向量化,支持稠密和稀疏向量检索 采用LangChain框架整合文档处理流程 部署BERT微调模型进行意图识别 实现四种检索策略(直接检索、H
如果文本数量较少,且时间和资源允许,可以通过人工标注的方式来确定关键情节转折点(plot points)。这种方法非常适用于学术研究,因其准确性较高。专家可以根据叙事的结构定义不同的节点,并将这些节点明确标出。
文本清洗(Text Cleaning)是NLP任务中关键的预处理步骤,旨在将原始文本转化为标准化格式。由于"垃圾输入导致垃圾输出"原则,清洗能有效提升数据质量,避免算法提取无效特征、算力浪费和错误归因。常见需清洗的文本包括社交媒体内容、网页爬取数据、OCR识别文本等。清洗方法分为噪声去除(清除停用词、冗余字符等)、语义还原(重建文本逻辑结构)、语法保留(维护关键标点)和智能分段
BERT tokenizer 可以理解为 BERT 模型处理文本时的“翻译官”——它负责把我们的文字翻译成模型能看懂的数字。既要处理好过长文本的截断,又要给短文本补位填充;既能处理单个句子,也能处理两个句子组合的任务;而且还完美契合了 BERT 训练时的掩码预测这些任务需求。在实际用起来的时候,掌握好 tokenizer 的各种小技巧,无论是整理数据、准备输入,还是优化效果、调试问题,都能帮你省不
CMMLU和C-Eval是两个中文多学科评估基准。CMMLU包含67个主题的测试数据,主要评估中文大模型的知识和推理能力,项目结构分为src、data、script三个模块。C-Eval涵盖52个学科的13948道题目,分为4个难度等级,核心评估代码位于code/evaluator_series目录下,提供命令行参数评估功能。两个项目均开源在GitHub平台,为中文大语言模型评估提供标准化测试框架
通过Dify插件将本地API服务发布为MCP server的实践教程:首先启动本地FastAPI服务,提供天气和空气质量查询接口;然后部署自定义插件到Dify平台,配置OpenAPI Schema URL;最后使用MCP Inspector测试工具验证服务可用性。整个过程包括本地服务开发、插件集成和测试验证三个关键步骤,为开发者提供了将本地服务快速接入Dify平台的完整解决方案。(150字)
在AI飞速发展的今天,大语言模型(LLM)的能力简直逆天,但要让它们真正发挥价值,就需要AI Agent来帮忙。可现有的Agent框架,配置复杂、学习曲线陡峭、依赖特定LLM、工具集成困难,简直就是新手的噩梦。三分钟,从零到一,打造属于你的AI助手!的实际应用超广泛,无论是快速原型开发、教学演示、自动化工作流还是智能助手开发,都能轻松搞定!:#AI #Agent #LLM #开源 #Python
在全球化时代,语言不再是沟通的障碍。得益于 Meta AI 的 **NLLB-200**(No Language Left Behind)模型,我们可以轻松实现 200 种语言的翻译。本文将带你一步步构建一个**基于控制台的多语言翻译工具**,它能自动检测输入语言并将文本翻译成简体中文。无论你是 NLP 爱好者还是想开发多语言应用,这篇教程都将为你提供实用指导。
RTX3060 12G实测qwen3embedding-0.6B/4B向量化速度。模型精度:原始版本,BF16。遍历269条文本进行向量化。输入文本长度:10字以内。
HanLP 1.x 使用。下载时间比较慢,耐心等待。文件夹放在指定目录。
,最终目标是让智能体在风控领域的知识、判断、协作能力,达到 “拥有五年经验的人类风控专家” 水平,实现从 “模型智能” 到 “业务智能” 的落地。从。
尽管GELU在多个实验中表现优异,但它与传统激活函数也存在一些联系。当σ→0σ→0且μ0\mu = 0μ0时,GELU会趋近于ReLU,从这个角度看,GELU可以被视为一种平滑的ReLU。在实际应用中,使用GELU时建议搭配带动量的优化器,这是训练深度神经网络的标准做法。同时,选择合适的高斯分布累积分布函数近似公式很关键,实验发现使用0.5x1tanh2πx0.044715x30.5x1tanh2
Dify 1.8.0采用蜂巢架构实现模块化设计,核心包含API服务、Web前端等模块。关键技术包括:1)RAG实现机制,通过递归分块和混合检索优化文档处理;2)Agent决策机制,支持Function Calling和ReAct两种策略。文章还提供了两个实用案例:1)通过并行ID分组解决工作流节点重复执行问题;2)调整分块参数优化RAG检索性能。该架构具有灵活性、可维护性和扩展性优势,支持从原型到
可访问本条笔记参考实现内网穿透,只要修改最后的端口号为3000即可。可以显示叫你填写邮箱密码,正常填写即可。打开cmd终端执行以下语句。
在大模型落地企业服务的浪潮中,知识库问答(RAG)已成为最核心的应用场景之一 —— 无论是内部文档检索、客户服务智能应答,还是垂直领域知识查询,都离不开 “文本嵌入→向量检索→上下文生成” 的核心链路。而嵌入模型作为整个链路的 “地基”,其性能直接决定了检索精度与最终回答质量。BGE(BAAI General Embedding)作为中文场景下表现突出的开源嵌入模型,凭借优异的通用性和易用性,成为
以后每次简单的启动步骤:刚开始要在主环境下(1)#激活(2)#跳转到该目录下((llama_factory) root@dsw-437932-5b87b8f7f-tsdrx:/mnt/workspace/LLaMA-Factory#)(3)
在当今人工智能飞速发展的时代,自动编码技术正逐渐改变着程序员的工作模式。最近,我在探索如何利用前沿技术提升编码效率,尝试使用 deepseek 结合 cline 来实现自动编码。deepseek 作为一款先进的人工智能语言模型,在代码生成方面表现出色,而 cline 则像是沟通的桥梁,让我能更便捷地与 deepseek 交互。二者结合,有望为我带来全新的编程体验,让代码编写变得更加高效、轻松 。
在使用SGLang部署Qwen3 Reranker系列模型时,由于模型架构差异会出现API不兼容问题。本文将基于生成式架构的Qwen3ForCausalLM转换为二分类模型Qwen3ForSequenceClassification,通过提取yes,no token的权重向量构建新的分类器,最终使用classify接口实现模型部署。该方法借鉴了VLLM的解决思路,成功实现了SGLang部署Qwen
本文深入解析了BERT模型的核心架构,从Transformer编码器演变到三大关键组件:嵌入层(词/位置/段落嵌入)、12层Transformer编码器(多头注意力+前馈网络)和池化层。通过参数分析揭示了BERT-base的1.09亿参数分布,其中编码器占比77.62%,嵌入层21.77%。文章对比了不同BERT变体,并强调了其"预训练+微调"范式对NLP领域的革新意义。理解B
Transformer是一种用于处理序列数据的深度学习模型架构,谷歌在2017年的论文《Attention Is All You Need》中提出的,用于NLP的各项任务,现在是谷歌云TPU推荐的参考模型。
在介绍掩码多头注意力机制之前我先介绍一下多头注意力机制具体可以见我之前的笔记掩码多头注意力机制就是在多头注意力机制的基础上加上了“可见性限制”——通常是因果掩码,禁止当前位置看到“未来”位置,确保自回归生成不泄露信息。
昨晚Qwen3发布了完整的技术报告,介绍了最新的 Qwen3 系列模型,包含稠密架构和 MoE 架构,参数规模从 0.6B 到 235B。Qwen3 将“思考模式”(用于复杂、多步推理)和“非思考模式”(用于快速、上下文驱动的响应)整合入统一框架,无需切换模型。同时引入“思考预算”机制,用户可自适应地分配计算资源。实验评估表明,Qwen3 在代码生成、数学推理、智能体任务等多个基准测试上取得了业界
上课时做的分享CLIP原文:Learning Transferable Visual Models From Natural Language Supervision。
nlp
——nlp
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net