logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek底层揭秘——动态注意力机制

动态注意力机制是一种通过动态调整注意力权重分布的深度学习技术,能够根据输入数据的特性自适应地提取关键特征,提升模型的表达能力和泛化性能。动态注意力机制(Dynamic Attention Mechanism)是一种深度学习技术,旨在根据输入数据的特性动态调整注意力权重分布,从而更高效地捕获数据的关键特征。与静态注意力机制不同,动态注意力机制会根据输入的上下文或任务需求实时调整注意力分配,而不是使用

文章图片
#人工智能#知识图谱#深度学习
AI大模型底层技术——LoRA for Vision Transformer (ViT)

"LoRA for Vision Transformer (ViT)" 指的是将 LoRA (Low-Rank Adaptation) 技术应用于 Vision Transformer (ViT) 模型,以实现参数高效的微调。ViT 模型在图像识别领域取得了显著的成果,但其庞大的参数量使得全参数微调成本高昂。LoRA 提供了一种解决方案,通过只训练少量参数,即可使 ViT 模型适应新的图像任务,同

文章图片
#人工智能#机器学习
大模型剪枝系列——非结构化剪枝、结构化剪枝、动态结构化剪枝

这三者代表了模型“瘦身”艺术从“粗放雕琢”到“精细手术”再到“自适应变形”的演进路径。| 相对简单 (基于幅值) | 较复杂 (需评估结构重要性) | 非常复杂 (需训练路由/门控网络) || | 结构化剪枝是动态剪枝的基础,动态剪枝是一种特殊的、运行时的结构化剪枝。| 可达极高稀疏度 (90%+) | 压缩率通常适中 (30%-70%) | 不减少存储,只降低。未来的模型优化将不再是单一技术的胜

文章图片
#人工智能
DeepSeek底层揭秘——多跳推理

多跳推理是一种通过跨越多个信息片段或知识点逐步推导答案的技术,能够处理复杂的推理任务,提升模型的逻辑推理能力和信息整合能力。多跳推理(Multi-hop Reasoning)是一种复杂的推理技术,指模型在回答问题或解决任务时,需要跨越多个信息片段或知识点,逐步推导出最终答案,而不是直接从单一信息源中获取结果。例如,在自然语言处理(NLP)中,多跳推理任务可能需要模型从多个段落中提取相关信息,并将这

文章图片
#人工智能#深度学习#神经网络
DeepSeek底层揭秘——数据飞轮效应

数据飞轮效应”是一种通过数据驱动实现系统持续优化的正反馈机制,广泛应用于推荐系统、搜索引擎、自动驾驶等领域。未来,随着多模态数据融合、自适应学习和隐私保护技术的发展,数据飞轮效应将进一步推动人工智能和数据驱动型业务的创新与发展。“数据飞轮效应”是一种正反馈循环机制,指的是通过数据的不断积累和利用,驱动系统性能的持续提升,从而吸引更多用户、产生更多数据,进一步优化系统性能的过程。这个效应类似于飞轮的

文章图片
#人工智能
AI大模型-提示工程学习笔记22-元提示(meta-prompting)

是一种利用大语言模型 (LLM) 本身来生成、优化或选择提示(Prompt)的提示技术。与传统的由人类手动设计提示不同,Meta-Prompting 将提示的生成过程也交给 LLM 来完成,从而实现提示的自动化和自适应。通过利用 LLM 的生成能力和上下文学习能力,Meta-Prompting 可以生成更有效、更符合特定任务需求的提示,从而提高 LLM 在各种任务中的性能。

文章图片
#人工智能#机器学习
K8S中GPU资源请求与限制

nvidia.com/mig-1g.5gb: "1" # 精确请求一个 1g.5gb 规格的 MIG 实例。aliyun.com/gpu-mem: "4" # 请求 4GiB 的显存配额和相应的算力时间片。nvidia.com/gpu: "1" # < 请求 1 个 GPU。下面我们看看在不同的技术方案下,nvidia.com/gpu: "1" # < 限制也必须是 1。nvidia.com/mi

文章图片
#kubernetes#k8s
ACP科普:敏捷项目中的业务优先级和风险冲突

在敏捷项目管理的过程中,业务优先级与风险之间的冲突是一个经常遇到的问题。业务优先级往往是由市场需求、客户需求、利润目标等因素驱动的,而风险则可能来源于技术难度、依赖关系、资源瓶颈等方面。作为一个10+年敏捷开发深度践行者,猫哥将通过两种流行的敏捷方法——SCRUM和Kanban,向大家阐述它们如何处理这两者的冲突。

文章图片
#敏捷流程#scrum
AI大模型底层技术——LoRA微调

是一种针对大型预训练语言模型 (LLMs) 的高效微调技术。它旨在解决全参数微调所带来的计算和存储成本问题。冻结预训练模型的原始参数,并通过引入少量可训练的低秩矩阵来模拟参数更新。这样,在微调过程中,只需要优化这些低秩矩阵的参数,而不需要修改原始模型的参数,从而大大减少了需要训练的参数量。

文章图片
#人工智能
用AI大模型写小说@20231223

人生如同一盘盛满丰盛美味的饺子,其中有争斗,有友情,也有懂得舍弃与分享的智慧。无论身处何方,我们都应珍惜这样的瞬间,品味生活的酸甜苦辣,将传统与现代、东方与西方的文化交融,创造出更美好的未来。作为一个非著名民间金庸研究者,猫哥第一时间想到的是《飞狐外传》中,胡斐给苗人凤送药,在苗家吃饭时,苗人凤想试出胡斐武功,而特意阻止后者吃白菜的场景。在这个寒冷的圣诞夜,他们明白,饺子固然美味,但真正珍贵的是那

文章图片
#人工智能#AI作画#gpt-3
    共 97 条
  • 1
  • 2
  • 3
  • 10
  • 请选择