logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

命名实体识别入门:从基础概念到 spaCy 实战

简单说,命名实体是具有特定名称的真实世界对象人名:张三、Elon Musk地点:北京、New York组织机构:Google、阿里巴巴其他:日期(2023 年 10 月)、货币($100 万)、产品名(iPhone 15)python运行print(f"识别到实体:{ent.text},类型:{ent.label_}")输出plaintext识别到实体:San Francisco,类型:GPE识别

#自然语言处理
spaCy命名实体识别进阶:从识别到链接的全流程实践

当默认模型无法识别领域专有名词时,我们通过手动添加实体,分三步实现,重点理解token 索引通过本文,我们拆解了 spaCy 命名实体识别的核心机制、标注方案、实战技巧和代码实现。索引:token 在文档中的位置编号(从 0 开始),用于定位实体包含哪些 token。字符偏移:实体在原始文本中的起止位置,用于可视化和错误定位。批量导入:通过数组高效处理大规模标注数据,适合工程化场景。Cython:

#自然语言处理
高基数列处理实战:用向量存储提升 SQL 问答系统专有名词查询准确性

准确性:利用语义相似度匹配,容忍一定程度的拼写错误效率:预处理阶段构建向量库,查询阶段通过内存检索快速纠错这套方案的核心价值在于让机器理解人类输入的 "不完美",在用户输入与数据库精确匹配之间搭建了智能桥梁。如果你正在开发数据驱动的问答系统,尤其是涉及大量专有名词的场景(如电商商品名称、生物物种名称等),不妨尝试引入向量存储技术。记得在实际应用中根据数据规模选择合适的向量数据库(如 Pinecon

#sql#python
从 0 到 1 构建高效 RAG 问答系统:LangChain+Ollama+Chroma 实战指南

组件优势适用场景Ollama本地部署、模型丰富中小型企业 / 个人开发者Chroma轻量级、支持 HTTP 接口快速原型开发LangChain标准化组件、生态完善复杂 RAG 系统开发。

#RAG
pandas 集成 PyArrow 实战:提升数据处理性能的核心技巧与实践

通过 PyArrow,pandas 从 “轻量级数据分析工具” 向 “高性能数据处理平台” 迈出了重要一步。需要支持高精度数值(如 decimal)、复杂结构(如嵌套列表)或统一缺失值的场景;处理 GB 级以上数据文件,对 IO 速度有要求;需要与 Polars、cuDF 等 Arrow 生态库协同工作。实践小贴士安装时确保 PyArrow 版本不低于 pandas 要求的最低版本(可通过查看);

#pandas
程序辅助语言模型(PAL):让大模型从 “模糊推理“ 到 “精准计算“ 的关键技术

PAL 打破了 “大模型必须直接生成答案” 的固有模式,通过 “语言理解 + 程序执行” 协作,让大模型在精确计算场景中展现可靠的工程价值。这种将 LLM 作为 “逻辑规划器”、程序作为 “执行引擎” 的架构,不仅提升了复杂任务的解决精度,更拓展了大模型在金融、教育、数据处理等领域的应用空间。如果你正在开发需要处理结构化逻辑的 AI 应用,不妨从尝试 PAL 开始 —— 从简单的日期计算入手,逐步

#人工智能
spaCy 模型训练与序列化:从数据准备到生产部署的全流程实践

spaCy 通过config.cfg数据标注:使用spaCy的方法批量导入标注,避免手动计算偏移错误配置管理:通过字段记录训练配置哈希,确保模型可复现过拟合处理:添加正则化,或使用预训练词向量(如 GloVe)作为输入。

#人工智能#自然语言处理
spaCy 规则匹配基础 —— 从 Matcher 入门自然语言处理模式匹配

Matcher 的模式是一个列表,每个元素是描述单个令牌的字典。例如,匹配 “hello, world” 的模式如下:python运行{"LOWER": "hello"}, # 匹配小写为“hello”的令牌(不区分原文本大小写){"IS_PUNCT": True}, # 匹配标点符号(等价于token.is_punct为True){"LOWER": "world"} # 匹配小写为“world”

#自然语言处理#人工智能
从 0 到 1 构建高效 RAG 问答系统:LangChain+Ollama+Chroma 实战指南

组件优势适用场景Ollama本地部署、模型丰富中小型企业 / 个人开发者Chroma轻量级、支持 HTTP 接口快速原型开发LangChain标准化组件、生态完善复杂 RAG 系统开发。

#RAG
LangChain 向量数据库检索器实战:从基础检索到多查询优化全攻略

默认提示词可能不适合所有场景,我们可以自定义查询生成逻辑:python运行# 1. 定义输出解析器(将LLM结果拆分为查询列表)return list(filter(None, lines)) # 移除空行# 2. 自定义提示词模板template="""你是AI助手,任务是生成五个不同版本的用户查询,用于从向量数据库检索相关文档。通过生成多角度查询,帮助用户克服基于距离检索的局限性。原始问题:

    共 336 条
  • 1
  • 2
  • 3
  • 34
  • 请选择