logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

RAG 系统性能跃迁:LlamaIndex 索引优化实战指南

摘要:本文探讨了检索增强生成(RAG)系统中的索引优化策略。通过LlamaIndex工具,提出两种核心方法:1)句子窗口检索技术,在保证检索精度的同时扩展上下文,解决信息碎片化问题;2)结构化索引方案,提升大规模知识库的检索效率。实验表明,相比传统方法,优化后的索引策略能显著提高回答的准确性和完整性。文章包含具体代码实现和技术细节,为开发者提供生产级解决方案。

文章图片
#RAG
李宏毅NLP-12-语音分类

本文介绍了说话人识别与验证的核心技术。说话人识别属于多分类问题,通过语音特征判断说话人身份;说话人验证则是二分类任务,通过比较两段语音的声纹相似度进行身份确认。重点阐述了说话人验证系统的评估指标EER(等错误率)及其在安全与体验场景中的权衡应用。此外还介绍了说话人分离技术及其会议记录等应用场景。最后详细讲解了基于嵌入的说话人验证三阶段框架:开发阶段训练通用特征模型,注册阶段存储说话人嵌入模板,评估

文章图片
#人工智能
李宏毅NLP-7-CTC/RNN-T文本对齐

本文介绍了三种语音识别模型(LAS、CTC、RNN-T)的解码、训练及对齐机制。LAS模型通过直接计算P(Y|X)实现端到端识别,使用束搜索解码。CTC和RNN-T需要处理语音-文本对齐问题,通过引入空白符并求和可能路径的概率来优化识别。三种模型均采用最大对数似然训练,但对齐方式不同:HMM通过状态转移扩展文本长度,CTC允许插入空白符,RNN-T则强制每个token至少出现一次。网格图展示了各模

#自然语言处理#rnn
李宏毅NLP-11-语音合成

语音合成技术经历了从早期电子合成到现代神经网络的演进过程。1939年贝尔实验室的VODER首次用电子设备模拟人类语音,开创了语音合成先河。1960年代计算机辅助合成技术出现,随后拼接式合成方法通过拼接预录语音片段实现自然语音输出,但受限于数据依赖性。参数化合成(HMM/DNN)通过统计模型生成语音,提高了灵活性。2017年Deep Voice首次采用模块化神经设计,实现文本到语音的直接映射。

#语音识别#人工智能
向量数据库:AI时代的数据基石

在 RAG 系统中,嵌入模型将文本、图像等非结构化数据转换为高维向量,但当向量规模达到百万级时,如何快速找到最相关的向量成为瓶颈。毫秒级相似性搜索:通过 HNSW、IVF 等索引技术,在十亿级向量中实现毫秒级查询。多模态数据融合:支持文本、图像、音频等多类型向量存储,满足 ChatGPT-4o 等跨模态模型的需求。弹性扩展能力:分布式架构支持线性扩展,轻松应对数据量的指数级增长。向量数据库已从 A

文章图片
#数据库#人工智能#搜索
李宏毅NLP-2-语音识别介绍

(语音识别很难吗?这是一张关于语音识别模型使用占比的饼状图。数据来源于对INTERSPEECH’19、ICASSP’19、ASRU’19三个会议超100篇论文的调研。“lexicon free” 表示相关系统或方法不依赖预先设定的词汇表来进行处理,比如某些语音识别技术尝试直接对语音信号进行分析转换,不借助传统词汇表的辅助,以适应更灵活、未知的语言场景。

文章图片
#自然语言处理#语音识别#人工智能
目标检测中的非极大值抑制(NMS)原理与实现解析

是一种关键的后处理技术,用于去除冗余的检测结果,保留置信度最高且位置最优的边界框。本文将通过一段Python代码解析NMS的核心实现逻辑,并演示其在OpenCV环境中的实际效果。在目标检测任务中,模型通常会对同一目标生成多个重叠的候选框(如锚框或预测框)。,键为类别名称,值为该类别对应的边界框列表。,表示左上角和右下角坐标及置信度。

文章图片
#目标检测#人工智能#计算机视觉
Dify-2:项目介绍

Dify 是一款开源的大语言模型(LLM)应用开发平台,旨在弥合 AI 应用原型设计与生产部署之间的鸿沟。本文档为希望了解或扩展平台的开发者及技术用户提供 Dify 架构、组件与功能的技术概览。

文章图片
#RAG
    共 182 条
  • 1
  • 2
  • 3
  • 19
  • 请选择