ouliten 个人主页

@ouliten

ouliten

2023-02-02 00:44:12 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

C++笔记：Lambda表达式

解决了“动不了”的问题：支持std::move捕获。解决了“写不死”的问题：参数支持auto，实现了一次编写，多类型适用。语法灵活性：捕获列表不再仅仅是“取变量”，而是一个可以进行“赋值操作”的地方。特性C++11C++14C++17C++20参数类型固定类型auto(泛型)保持泛型模板参数列表<T>捕获写法基础值/引用初始化捕获 (可移动)[*this](拷贝对象)显式this捕获要求编译期运行

#c++

C++笔记：C++20风格线程池

提交任务和取任务都会争抢同一把锁，任务提交非常频繁时，生产者和消费者容易互相阻塞。工作线程不需要每执行一个任务都和提交线程争同一把队列锁，只有读缓冲耗尽时才需要接触写缓冲。：它内置了一个停止状态，允许你安全地请求线程停止，而不是粗暴地杀死线程。：根据任务积压数量自动增加线程，根据空闲时间和低水位线自动回收线程。保护提交和停止之间的临界区，避免线程池停止时仍然有新任务进入队列。：把任务生产者和消费者

#c++#c++20

C++笔记：偏现代C++日志系统

头文件intLogStream::currentLogStream::currentLogStream::currentLogStream::current源文件definedintintint。

#c++

[Triton笔记5]低内存 Dropout

假设我们有一个输入向量x∈Rnx∈Rn。在应用 Dropout 时，我们引入一个随机向量r∈01nr∈01n，其中每个元素rir_iriri∼Bernoulli1−pri∼Bernoulli1−p这里，ppp是失活概率（即置为 0 的概率）。Dropout 的数学本质是通过稀疏化输入来强制模型学习鲁棒特征（防止共同适应，Co-adaptation）。

vllm笔记(1)：最基础的离线推理

这三个参数用于控制重复和多样性，避免模型输出死循环或内容太重复。

Boost.Asio学习（5）：c++的协程

C++20 协程和普通函数完全不同，编译器在看到协程时不会直接返回值，而是生成一个状态机对象（Frame）。协程的返回类型必须定义一个嵌套类型。编译器规则co_return;编译器会查找，并生成代码去：创建一个对象。调用它的，把结果作为协程的返回值。调用控制是否立即挂起。调用或处理co_return。就是协程的“大脑”，控制协程生命周期。它必须提供一组固定接口（编译器调用）。

#学习

Boost.Asio学习（6）：Boost.Asio搭配c++协程

回调风格协程风格参数通过回调函数传入直接用获取需要捕获外部变量协程帧自动保存局部变量错误处理要在回调里处理try/catch一次性处理。

#学习 #c++#开发语言

cuda编程笔记（39）--Asynchronous Barriers（异步屏障）

本文需要有cooperative_groups的API基础，可以见我以前的文章，虽然讲解的不太好，以后有时间重置一下。可以将理解为的“进化增强版”。传统的是且的，而异步屏障则允许“到达”和“等待”这两个动作。在传统的 CUDA 同步中，调用后，线程必须停下来等待所有线程到齐。线程可以先声明“我到了”（Arrive），然后去执行不依赖同步结果的代码，最后再检查“大家都到了没”（Wait）。在等待数据

cuda编程笔记（8）--线程束warp

CUDA 中的是 GPU 并行计算的，这些线程将以的方式同步执行同一条指令。SIMT 执行模型（Single Instruction Multiple Threads）Warp 内 32 个线程但每个线程可以对操作（类似 SIMD）每次由发出一个 warp 执行一个指令周期分支发散（Divergence）问题如果 warp 内线程执行了不同的分支语句，会导致这时 warp 会执行，实际上还是串行，

cuda编程笔记（30）-- CUDA算子给python调用

我们知道深度学习里，虽然接口语言是python，但是实际上还是调用的cuda代码。那么我们自己写的cuda代码该怎么提供给python调用？最普遍的一种方法就是把C++/cuda代码导出成库，然后用python的ctypes包去调用不过本文将专门使用PyTorch提供的转换方法。

#python #深度学习

共 23 条

请选择