logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

达摩院Paraformer-ONNX模型:一站式高精度中文语音识别工业级解决方案

阿里达摩院推出的`speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx`模型,通过ONNX运行时优化,集语音端点检测、实时转写、标点恢复等核心功能于一体,为工业场景提供开箱即用的高并发语音识别服务。

文章图片
#语音识别#人工智能
经典论文-卷积神经网络可视化与理解及实践

大型卷积网络模型最近在ImageNet基准测试上表现出了令人印象深刻的分类性能(Krizhevesty等人,2012)。然而,目前还不清楚为什么它们表现得如此好,也不清楚如何改进。在本文中,讨论了这两个问题。本文介绍了一种新的可视化技术,可以深入了解中间特征层的功能和分类器的操作,作为一个诊断工具使用,这些可视化允许我们找到在ImageNet分类基准上优于Krizhevsky等人的模型架构。此外还

#cnn#深度学习#机器学习 +1
李宏毅NLP-2-语音识别介绍

(语音识别很难吗?这是一张关于语音识别模型使用占比的饼状图。数据来源于对INTERSPEECH’19、ICASSP’19、ASRU’19三个会议超100篇论文的调研。“lexicon free” 表示相关系统或方法不依赖预先设定的词汇表来进行处理,比如某些语音识别技术尝试直接对语音信号进行分析转换,不借助传统词汇表的辅助,以适应更灵活、未知的语言场景。

文章图片
#自然语言处理#语音识别#人工智能
图像搜索:以图搜图

以图搜图随着数字时代的到来,单单的文字搜素已经无法满足人们的搜索了,图像搜索,甚至是视频搜索都已经比较成熟。本文大致讲解下图像搜索:原理搜索项目:主要分为三个部分——图像特征抽取,构建搜素库,构建索引。第一步:就是选取好合适的图像特征抽取方法,传统的方法有各种图像处理的方法,比如hog直方图,小波过滤等方法提取特征,现有比较热门的深度学习方法,比如卷积神经网络等;根据实际情况进行合理选择...

工业级静默活体检测开源算法技术解析记录

工业级静默活体检测开源算法技术解析(小视科技分享)视频链接: https://www.bilibili.com/video/BV1qZ4y1T7CH相关背景定义:无感鉴别镜头前人脸的真伪,人脸识别系统中尤为关键的安全屏障应用场景:高安全级别刷脸支付刷脸取款人脸门禁一般等级门禁闸机自助身份核验互联网专用设备解锁,登录考勤等其他刷脸设备常见攻击手段:电子屏幕攻击2D打印攻击局部无关置换3D打印攻击数据

达摩院Paraformer-ONNX模型:一站式高精度中文语音识别工业级解决方案

阿里达摩院推出的`speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx`模型,通过ONNX运行时优化,集语音端点检测、实时转写、标点恢复等核心功能于一体,为工业场景提供开箱即用的高并发语音识别服务。

文章图片
#语音识别#人工智能
RAG系统中的文本分块技术:从基础策略到智能分块的深度解析

文本分块是RAG(检索增强生成)系统的核心环节,直接影响知识检索的精度和效率。本文系统分析了文本分块的核心价值、经典策略和智能进阶技术。固定大小分块和递归字符分块是基础策略,能够适配模型上下文窗口限制;语义分块通过嵌入向量和语义距离实现上下文感知的动态切分;结构化文档分块则利用标题层级保留元数据。此外,Unstructured框架基于文档元素智能分块,LlamaIndex采用面向节点的解析方法。不

文章图片
从大模型到Agentscope——多智能体应用开发实战

基于AgentScope完成多智能体应用开发游戏

文章图片
    共 264 条
  • 1
  • 2
  • 3
  • 27
  • 请选择