logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从DeepSeek-V3到Kimi K2:八种现代 LLM 架构大比较

与传统的全局注意力机制相比,这种设计显著减少了KV缓存的内存占用。此外,Kimi 2在MoE模块中使用了更多的专家,在MLA模块中使用了更少的头。Llama 4采用了与DeepSeek V3类似的架构,但在某些细节上进行了优化,以提高模型的性能和效率。Llama 4使用了分组查询注意力(GQA)而非多头潜在注意力(MLA),并且在MoE模块中使用了更少但更大的专家。Qwen3的密集模型采用了较深的

#架构#语言模型
复杂文档、图表解析大总结

模型首先对降采样后的图像进行全局版面分析,然后对原生分辨率的裁剪区域进行文本、公式、表格的细粒度识别。该基准涵盖学术论文、财务报告、报纸、教科书等 9 种文档类型,包含 15 个块级元素(文本段落、标题、表格等)和 4 个跨度级元素(文本行、行内公式等)的注释信息,以及页面和块级别的各种属性标签。支持识别文本、图像、表格、公式、手写体、表单字段、页眉页脚等各种元素,并支持印章、二维码、条形码等子类

#人工智能
MAAS平台

第二步,对收集到的需求进行详细分析和梳理,结合行业最佳实践和 AI 技术发展趋势,识别出适合大模型应用的关键业务场景,并明确每个场景的具体需求和目标。第七步,基于选定的模型和业务需求,进行大模型应用的整体架构设计和功能模块设计,确定应用的技术架构、交互设计和用户体验方案。第十一步,根据企业需求和 IT 架构,选择合适的部署方式(如公有云、私有云、混合云),将经过测试和验证的大模型应用部署到企业生产

#人工智能#深度学习#语言模型
大模型数据预处理方法总结

可以直接使用现有分词器,如 GPT-2 的分词器用于 OPT 和 GPT-3,而当语料库涵盖多个领域、语言和格式时,专门针对预训练语料库定制的分词器可能带来更多优势。该分类器通常使用从高质量数据源(例如维基百科)精选的数据作为正样本,将待评估数据作为负样本,进而训练一个二分类器,该分类器生成评分用于衡量每个数据实例的质量。这种方法通过设计一系列规则或策略来识别和删除低质量的数据,这些规则或策略基于

#深度学习#人工智能
Agent 设计模式

(答:41岁),最后组合答案。提出背景:出现在 2023 年前后的 Agent 应用开发框架实践(如 LangChain 社区)核心思想:把任务拆成两个阶段,先生成计划(Planning),再逐步执行(Execution)场景例子:假设你让 Agent写一篇“新能源车的市场调研报告",它不会直接生成报告,而是先拟定计划:收集销量数据,分析政策趋势,总结消费者反馈,写结论。场景例子:让 Agent

#设计模式#javascript#开发语言
显著性目标检测之PoolNet

论文:A Simple Pooling-Based Design for Real-Time Salient Object DetectionGithub: https://github.com/backseason/PoolNet官网:http://mmcheng.net/poolnet/论文提出两个模块GGM (Global Guidance Module,全局引导模块)和F...

NASNet

 论文:Learning Transferable Architectures for Scalable Image Recognitiongithub:https://github.com/tensorflow/models/tree/master/research/slim/nets/nasnet cvpr2017 google brain作品,利用强化学习,使用500块p10...

正则化方法之DropBlock

论文:DropBlock: A regularization method for convolutional networks Github:https://github.com/miguelvr/dropblockhttps://github.com/DHZS/tf-dropblock 论文主要提出了一种针对卷积层的正则化方法DropBlock,最终在ImageNet分...

目标检测Bounding_Box_Regression_With_Uncertainty_for_Accurate_Object_Detection

论文:Bounding_Box_Regression_With_Uncertainty_for_Accurate_Object_DetectionGithub:https://github.com/yihui-he/KL-LossCVPR 2019 CMU&&face ++论文提出了一种回归边框的不确定性的方法,来实现对于边框的后续矫正。主要包括...

从DeepSeek-V3到Kimi K2:八种现代 LLM 架构大比较

与传统的全局注意力机制相比,这种设计显著减少了KV缓存的内存占用。此外,Kimi 2在MoE模块中使用了更多的专家,在MLA模块中使用了更少的头。Llama 4采用了与DeepSeek V3类似的架构,但在某些细节上进行了优化,以提高模型的性能和效率。Llama 4使用了分组查询注意力(GQA)而非多头潜在注意力(MLA),并且在MoE模块中使用了更少但更大的专家。Qwen3的密集模型采用了较深的

#架构#语言模型
    共 72 条
  • 1
  • 2
  • 3
  • 8
  • 请选择