logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

《可视化解释Transformer——不仅解释它是如何工作的,还解释为什么它如此有效》

点积运算在Query和Key之间进行,用于计算每对单词之间的相关性。然后,这种相关性作为“因子”用于计算所有Value单词的加权和。这个加权和输出为注意力分数。Transformer以一种方式学习词嵌入等,使得相关联的词更加对齐。这是引入三个线性层并为Query、Key和Value创建三种输入序列版本的原因之一。这样给注意力模块提供了一些额外的参数,它能够学习调整创建词向量的过程。希望这能让你对T

文章图片
#transformer#深度学习#人工智能
Deepseek Natively Sparse Attention

提出一种高效、可训练的稀疏注意力机制,以提高长文本处理的计算效率,同时保持模型性能。:可根据任务需求设定不同的窗口大小(例如代码生成任务可能需要更大的窗口)。NSA 通过以下三种不同的注意力计算路径,让 Transformer。是可学习的门控参数(Gating Mechanism)。- 这样,原始 Key-Value 变成了。- 这样可以降低计算量,同时保留重要信息。,为长文本建模提供了新的解决方

文章图片
#人工智能#深度学习#机器学习
什么是DeepSeek-R1蒸馏模型?

所以昨晚,DeepSeek在DeepSeek-V3之后发布了另一个革命性的模型,即DeepSeek-R1和我的孩子,这看起来是一个重大的发布,因为这个模型在几个基准测试中已经超越了OpenAI-o1,即SOTA推理模型。例如,在推理基准测试中,DeepSeek-R1-Distill-Qwen-32B的表现优于DeepSeek-R2-Zero-Qwen-34B,这表明对于较小的模型来说,蒸馏是一种更

文章图片
#人工智能
VMware Workstation虚拟机不能联网的解决办法

原文地址:http://jingyan.baidu.com/article/066074d668155bc3c21cb0ca.htmlVMware Workstation虚拟机在使用过程中,会经常因为虚拟机不能使用网络而烦恼么?下面来教大家一个小方法来解决这个题工具/原料正常运行的VMw

智能手环/智能手表如何监测睡眠?--一篇文章带你了解其中的原理

一个完整的睡眠周期可分为两大部分:快速眼动(REM)时期和非快速眼动睡眠期(NREM)。而非快速眼动时期又包括:入睡期、浅睡期、熟睡期、深睡期。睡眠阶段(这也就是为什么很多手环厂家把“快速眼动睡眠监测”作为卖点之一的原因,因为只有具备这个能力,才能说明对睡眠状态完整的监测到了。在睡眠中,人在这几个状态中循环往复,每夜通常有 4~5个睡眠周期,每个周期90~110分钟。即大约在90~100分钟的时间

文章图片
android 语音识别 之 讯飞语音移植

原文地址:http://blog.csdn.net/chenshufei2/article/details/8496905一、简介    语音识别现在应用越来越广泛了 比如语音写短信、语音搜索商品、语音搜索关键字等等,这遍我们就简单的谈谈国内比较流行的讯飞语音在android平台上的实现。   笔者认为:           google语音识别并不是十分符合中

从自联想神经网络到深度神经网络

深度神经网路已经在语音识别,图像识别等领域取得前所未有的成功。本人在多年之前也曾接触过神经网络。本系列文章主要记录自己对深度神经网络的一些学习心得。第六篇,简要描述深度神经网络模型。1.  自联想神经网络与深度网络      自联想神经网络是很古老的神经网络模型,简单的说,它就是三层BP网络,只不过它的输出等于输入。很多时候我

#神经网络#深度学习
Just Say It!——DNN在语音识别系统中的应用

作者:james 1.    背景介绍         近些年来,随着Siri的走红,类似Siri、搜狗语音助手这样利用语音实现控制,语义理解的系统开始大量涌现。而语音识别系统作为这类系统的入口,很大程度上决定了这类应用的质量。没有一个好的语音识别系统做支撑,再好的助手也只能干瞪眼。         与此同时,随着微信的发展,越来越多的用户反馈,在多种场合下

机器学习入门的书单(数据挖掘、模式识别等一样)

好久没有写博客了,最近的主题还是机器学习了。上了一年的课,自己也看了一两本书,但是对整个机器学习还是很迷茫。看看其他人怎么做的吧。(写在前面)昨天说写个机器学习书单,那今天就写一个吧。这个书单主要是入门用的,很基础,适合大二、大三的孩子们看看;当然你要是大四或者大四以上没看过机器学习也适用。无论是研究智能还是做其他事情,机器学习都是必须的。你看GFW都用机器学习了,咱是不是也得科普一下。(

#机器学习
Caffe学习:使用pycaffe读取caffemodel参数

#!/usr/bin/env python# 引入“咖啡”import caffeimport numpy as np# 使输出的参数完全显示# 若没有这一句,因为参数太多,中间会以省略号“……”的形式代替np.set_printoptions(threshold='nan')# deploy文件MODEL_FILE = 'caffe_deploy.prototxt'#

到底了