logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Yolo 目标检测总结帖(yolov3,yolov2)

由于项目的需求,需要完成一个目标检测的任务,经过个人一段时间的实践,现将自己实现的功能以及体验过的事情在这里做个总结,以便后续查看,也让其它人少走一些弯路,在这个过程中参考了一些博客,便于入门与提升。个人将大多数的时间花费在yolov3上,其精度效果会比yolov2的效果要好,但仿真和测试时间会花费一倍左右的时间,并且将yolov3的过程弄明白之后,yolov2如何跑动只是更改部分参...

#目标检测#计算机视觉
反欺诈黑产总结

反欺诈是一项长期的工作,反欺诈的技术手段在提升,欺诈分子也在不断优化攻击方式,金融信贷机构需要对黑产产业进行监控,才能做到知己知彼,百战不殆。同时需要认识到欺诈行为是无法完全避免的,金融信贷机构需要做的是提高欺诈分子的作案成本,只有当整个行业的欺诈成本提高,欺诈分子认为无利可图,才会退出行业。最重要的一点金融信贷机构需要做好内控以及信息管理工作,很多欺诈风险都是由于信息安全以及人为的操作原因引起的

#金融
Sherpa 语音识别工具链安装指南(Linux CPU 版)

本文详细介绍了在Python 3.10环境下安装Sherpa语音处理工具集的完整流程。主要内容包括:系统环境配置(推荐Ubuntu/CentOS系统)、虚拟环境创建、核心组件(PyTorch 2.5.0、k2、kaldifeat等)的安装方法与版本匹配技巧,以及Sherpa-ONNX轻量推理引擎的部署。文章还提供了安装验证方法和TTS语音合成示例,帮助用户快速测试功能。整个安装过程强调版本兼容性,

#语音识别#linux#nlp
从CLIP到BGE-M3:多模态嵌入的演进与实践

多模态嵌入技术:打破AI的模态壁垒 多模态嵌入技术通过将文本、图像等不同模态数据映射到同一向量空间,实现了跨模态语义理解。OpenAI的CLIP模型采用双编码器架构和对比学习策略,开创性地实现了图文语义对齐。北京智源研究院的BGE-M3在此基础上进一步发展,通过网格嵌入和多语言支持,提升了复杂场景的处理能力。这些技术突破使AI系统能够理解"一只奔跑的狗"的文字描述与对应图片的语

#搜索
达摩院Paraformer-ONNX模型:一站式高精度中文语音识别工业级解决方案

阿里达摩院推出的`speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx`模型,通过ONNX运行时优化,集语音端点检测、实时转写、标点恢复等核心功能于一体,为工业场景提供开箱即用的高并发语音识别服务。

文章图片
#语音识别#人工智能
经典论文-卷积神经网络可视化与理解及实践

大型卷积网络模型最近在ImageNet基准测试上表现出了令人印象深刻的分类性能(Krizhevesty等人,2012)。然而,目前还不清楚为什么它们表现得如此好,也不清楚如何改进。在本文中,讨论了这两个问题。本文介绍了一种新的可视化技术,可以深入了解中间特征层的功能和分类器的操作,作为一个诊断工具使用,这些可视化允许我们找到在ImageNet分类基准上优于Krizhevsky等人的模型架构。此外还

#cnn#深度学习#机器学习 +1
李宏毅NLP-2-语音识别介绍

(语音识别很难吗?这是一张关于语音识别模型使用占比的饼状图。数据来源于对INTERSPEECH’19、ICASSP’19、ASRU’19三个会议超100篇论文的调研。“lexicon free” 表示相关系统或方法不依赖预先设定的词汇表来进行处理,比如某些语音识别技术尝试直接对语音信号进行分析转换,不借助传统词汇表的辅助,以适应更灵活、未知的语言场景。

文章图片
#自然语言处理#语音识别#人工智能
RAG系统中的文本分块技术:从基础策略到智能分块的深度解析

文本分块是RAG(检索增强生成)系统的核心环节,直接影响知识检索的精度和效率。本文系统分析了文本分块的核心价值、经典策略和智能进阶技术。固定大小分块和递归字符分块是基础策略,能够适配模型上下文窗口限制;语义分块通过嵌入向量和语义距离实现上下文感知的动态切分;结构化文档分块则利用标题层级保留元数据。此外,Unstructured框架基于文档元素智能分块,LlamaIndex采用面向节点的解析方法。不

文章图片
    共 264 条
  • 1
  • 2
  • 3
  • 27
  • 请选择