NCU_wander 个人主页

@NCU_wander

NCU_wander

2023-02-08 22:18:44 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

GAN（生成对抗网络）发展

引言：之前对GAN进行相关的介绍，并在组内进行分享；但之前的分享比较偏向于GAN的前世，对于GAN的今生关注的程度不高，本文重点对GAN的今生进行梳理。GAN的今生GAN的前世之前进行过相关总结，在此不再进行赘述，具体可以观看李弘毅老师的讲课视频，深入浅出；Goodfellow在写成 Geneativeadversarial nets 这一划时代的大作的时候自然是留了为数众多的坑代填，后来...

#生成对抗网络 #深度学习 #人工智能

大语言模型RAG，transformer，rerank原理

第一张图是比较经典的RAG知识图谱，第二张图是更加详细扎实的介绍图。

#语言模型 #transformer #人工智能

保边滤波--bilateral filter and guided filter

机缘巧合之下最近对两种保边滤波器涉及较多，其中一种是bilateral filter被广泛应用于暗光/夜景的滤波，另外一种是广泛应用于图片增大恢复的guided filter，在此对两种常见的滤波器进行summary和conclusion。1、引子-高斯滤波双边滤波很有名，也是非常经典的算法，简单的说就是一种同时考虑了像素空间差异与强度差异的滤波器，因此具有保持图像边缘的特性，而高斯滤波只考虑..

深度学习中的量化学习与量化训练

量化(quantized)，即将神经网络前向过程中浮点数运算量化为整数运算，以达到计算加速的目的。通常是指将float32转化为int8进行运算，经实践部署dsp上能提升2.5~3倍左右的推理速度。我们知道对浮点数的量化操作是将其从一个高维度映射到低维度的转换过程。参考文章见：量化训练：Quantization Aware Training in Tensorflow（一）量化训练：Quantiz

#深度学习 #机器学习 #神经网络

Token的数值化，从文本到向量

这三个技术本质上都是为了弥补模型对 “文本结构信息” 的天然缺失：位置编码→补充 “顺序信息”；分段嵌入→补充 “片段边界信息”；Chat 格式对齐→补充 “对话角色与轮次信息”。它们共同作用，让模型能更准确地理解复杂文本的语义和结构，是大模型实现高质量输出的基础。

#人工智能 #语言模型

Function Calling 和 mcp

场景推荐构建多工具协同的系统✅ 使用 MCP（基于 Function Calling）构建对话式 API 接入✅ 结合 Function Calling + MCP使用 OpenAI/Claude/RAG/插件/LLM 多模型接入系统✅ MCP 提供统一入口只做语言生成，无插件需求Function Calling 非必需，MCP 不需要。

#人工智能

Float16 Bfloat16 w8a8数据类型以及E4M3的计算

W8A8 代表权重（Weights）和激活值（Activations）均被量化为 8 位（INT8 或 UINT8），常用于深度学习推理，以减少模型的存储、计算需求，并提升硬件执行效率。W8（8-bit Weights）：将神经网络的权重从 32 位浮点（FP32）转换为 8 位整数（INT8）。A8（8-bit Activations）：将神经网络的激活值从 32 位浮点（FP32）转换为 8

#深度学习

卷积padding和反卷积原理探究

反卷积（Deconvolution）的概念第一次出现是Zeiler在2010年发表的论文Deconvolutional networks中，但是并没有指定反卷积这个名字，反卷积这个术语正式的使用是在其之后的工作中(Adaptive deconvolutional networks for mid and high level feature learning)。随着反卷积在神经网络可视化上的成功应

#深度学习 #神经网络 #pytorch

模型压缩- 剪枝/量化/蒸馏/AutoML

原因深度学习训练得到的网络复杂度高，参数冗余。解决方式（1）线性或非线性量化（2）结构或非结构剪枝（3）网络结构搜索（4）权重矩阵的低秩分解（5）蒸馏目的优化精度、性能、存储……使得可以在一些场景和设备上进行相应模型的部署。...

#剪枝 #机器学习 #深度学习

风格转化及其Loss

风格转换及其Loss的问题来源于自己之前对于CVPR2019论文的分享，牵扯到风格转换的相关知识，在此进行相关总结。风格转换问题常见Losscontent loss：使用逐像素计算差值，又称pixel-wise loss,追求生成的图片和原始的图片逐像素的差值尽可能的小；很多时候会使用mse(mean square error)来作为损失函数。style loss：经常借助于Gram矩阵定...

共 17 条

请选择