logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型面试题13:pandas的基本操作

view()仅适用于连续张量,非连续需先;返回视图,修改会影响原张量;bmm无广播,批量矩阵相乘需保证batch数一致;dot对高维张量会展平,优先用matmul替代。

#pandas
《AI Flow: Perspectives, Scenarios, and Approaches》论文解读

家族模型:一组“尺寸不同但隐藏特征对齐”的模型,共享中间计算结果(无需额外中间件转换),可灵活切换以适配端、边、云硬件。关键优势:灵活伸缩:参数规模可从数百万(端侧)到数十亿(云端)调整;高效协作:小模型的中间特征可直接被大模型复用,减少重复计算与数据传输。AI Flow的核心创新在于打破AI与通信的技术壁垒,通过“硬件分层协同+模型家族适配+智能交互涌现”的三位一体设计,解决了大模型落地的“资源

#人工智能#机器学习#职场和发展 +2
高增长科技股投资法 核心内容深度拆解

最近读了《高增长科技股投资法》,我发现这个很不错,也很符合这次周期的内容。于是用AI生成了一个概要记录,给朋友们分享一下做个参考。有时间推荐去读一下原书,内容很有意思,可惜的就是很多时候晚上太困了,看的时候脑袋瓜不甚清晰。没有链接很多其它的内容。

#人工智能#深度学习#机器学习 +1
私有化部署 DeepSeek + Dify,构建你的专属私人 AI 助手

DeepSeek 是一款开创性的开源大语言模型,凭借其先进的算法架构和反思链能力,为 AI 对话交互带来了革新性的体验。通过私有化部署,你可以充分掌控数据安全和使用安全。你还可以灵活调整部署方案,并实现便捷的自定义系统。Dify 作为同样开源的 AI 应用开发平台,提供完整的私有化部署方案。通过将本地部署的 DeepSeek 服务无缝集成到 Dify 平台,企业可以在确保数据隐私的前提下,在本地服

文章图片
#人工智能
YOLOv5(四):models/tf.py

TensorFlow层类对应PyTorch层功能说明TFBN批量归一化层,读取PyTorch的beta、gamma、均值、方差参数。TFPad手动Padding操作实现和PyTorch一致的填充逻辑(如autopad计算的填充量)。TFConvConv(YOLOv5的Conv)标准卷积层,包含卷积+BN+激活函数,处理权重格式转换(PyTorch→TensorFlow)。TFFocusFocus聚

大模型面试题91:合并访存是什么?原理是什么?

合并访存的核心:让同一个线程束的32个线程访问连续、对齐的全局内存地址,将32次分散请求合并成1~2次批量请求;底层原理:匹配GPU内存控制器的“批量处理规则”,充分利用内存带宽,减少访存请求次数;优化要点:线程索引和内存地址一一对应(步长=数据类型大小),保证起始地址对齐,避免跨步访问。对小白来说,合并访存是GPU编程中“投入最少、收益最大”的优化手段——只需调整线程访问地址的方式,就能让全局内

#人工智能#深度学习#算法 +1
大模型面试题90:half2,float4这种优化 与 pack优化的底层原理是什么?

核心原理:打包多个基础数据成一个单元,利用GPU的SIMD向量指令一次处理多个数据,同时减少内存访问次数,充分利用硬件宽度;收益来源:一是减少运算指令数(提升运算速度),二是减少内存访问次数(提升带宽利用率);使用原则:优先用half2/float4(简单高效),常规浮点场景足够用;只有定制化场景(如int8量化)才需要通用pack优化。

#人工智能#算法#机器学习
大模型面试题88:cuda core的数量 与 开发算子中实际使用的线程 关系是什么?过量线程会发生什么情况?

核心关系:CUDA Core是硬件运算单元,线程是软件任务,线程数需适配SM资源(让占用率接近100%),而非和Core数相等;过量线程的后果:先导致资源不足、占用率下降(性能降),再增加调度开销(性能更差),极端情况程序崩溃;新手原则:线程块大小选32的倍数,总线程数设为SM最大线程数的总和,逐步测试找到最优值。对新手来说,不用追求“线程数越多越好”,先保证“线程数能让SM占满”,再微调优化,就

#人工智能#机器学习#职场和发展 +2
大模型面试题87:CUDA出现bank conflict,应该怎么解决?

要理解bank conflict,先搞懂CUDA里的共享内存(Shared Memory)——这是GPU线程块(block)内所有线程共享的高速内存,速度比全局内存快几十倍,是CUDA优化的核心,但它的“存储结构”是导致冲突的关键。Bank Conflict本质:多个线程同时访问共享内存的同一个Bank,导致并行访问变成串行。核心解决思路:让线程访问的地址分散到不同Bank,优先用「调整访问模式」

#人工智能#机器学习#机器人 +1
    共 81 条
  • 1
  • 2
  • 3
  • 9
  • 请选择