
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
MiniCPM4.1-8B是一款专为终端设备优化的8亿参数大语言模型,通过架构创新实现了高效边缘计算。其核心创新包括:1)高效注意力机制设计,减少30%计算开销;2)InfLLM v2可训练稀疏注意力,仅计算关键token间的注意力,降低长序列处理复杂度;3)参数精细分配策略,在保持性能的同时优化存储需求。该模型采用合并QKV投影、优化张量操作等技术,显著提升了在资源受限设备上的推理效率,为移动端

Google推出的EmbeddingGemma-300M是一款革命性的轻量级文本嵌入模型,凭借仅3亿参数的紧凑架构实现了卓越性能。该模型基于Gemma 3技术,支持2048标记的上下文长度和多语言处理,特别优化了搜索检索任务。其核心创新包括Matryoshka表示学习技术,允许动态调整嵌入维度(768/512/256/128维),在精度和效率间灵活权衡。模型通过任务特定提示模板(如检索、问答、分类

核心架构:基于Latent Diffusion Model(LDM),通过VAE将图像压缩至潜空间进行扩散训练,支持512x512分辨率生成,兼容二次元与写实风格混合创作12。核心架构:采用MM-DiT(多模态Diffusion Transformer),文本与图像特征通过独立权重分支处理,增强跨模态对齐能力23。SVD(Stable Video Diffusion):基于时序扩展

MiniCPM-V-4_5:边缘设备上的多模态AI革命 本文介绍了突破性的MiniCPM-V-4_5视觉语言模型,它通过创新的3D重采样器实现96倍视频压缩,结合LLaVA-UHD架构处理180万像素图像,在8B参数下超越GPT-4o等商业大模型。核心技术包括:1)时空联合压缩的3D注意力机制,高效处理高帧率视频;2)自适应分块策略动态分配计算资源;3)统一OCR与文档知识的学习框架。该模型支持设

MiniCPM-V-4_5:边缘设备上的多模态AI革命 本文介绍了突破性的MiniCPM-V-4_5视觉语言模型,它通过创新的3D重采样器实现96倍视频压缩,结合LLaVA-UHD架构处理180万像素图像,在8B参数下超越GPT-4o等商业大模型。核心技术包括:1)时空联合压缩的3D注意力机制,高效处理高帧率视频;2)自适应分块策略动态分配计算资源;3)统一OCR与文档知识的学习框架。该模型支持设

摘要: Kimi-K2-Instruct-0905是Moonshot AI推出的革命性万亿参数MoE模型,采用混合专家架构实现高效计算。其核心创新包括:1)稀疏激活机制,仅激活320亿参数;2)负载均衡技术确保专家网络均衡利用;3)优化的多头注意力机制(64头,7168隐藏维度)。模型在代码生成和智能代理任务中表现卓越,通过旋转位置编码等技术提升性能,为AI编程助手设定了新标准。

摘要: Kimi-K2-Instruct-0905是Moonshot AI推出的革命性万亿参数MoE模型,采用混合专家架构实现高效计算。其核心创新包括:1)稀疏激活机制,仅激活320亿参数;2)负载均衡技术确保专家网络均衡利用;3)优化的多头注意力机制(64头,7168隐藏维度)。模型在代码生成和智能代理任务中表现卓越,通过旋转位置编码等技术提升性能,为AI编程助手设定了新标准。

GeoGPT-R1-Preview是专为地球科学设计的大规模AI模型,基于Qwen2.5-72B架构优化,采用旋转位置编码(RoPE)和RMSNorm等先进技术,显著提升了处理地球科学长文本的能力。该模型通过专业化注意力机制和地球科学数据集的训练,能够有效理解地质学、气象学等领域的复杂概念和关系。架构上采用8192维隐藏层、64个注意力头和80层Transformer,支持32k上下文长度,为地球

天一大模型:AI赋能天文学研究的新范式 国家天文台与之江实验室联合研发的天一大模型(AstroOne)开创了人工智能与天文学融合的新时代。面对现代天文观测产生的海量数据(如FAST年20PB、SKA预计年600EB),传统处理方法已无法满足需求。AstroOne采用分层架构设计,整合文本、光谱和图像多模态数据处理能力,配备专门的天文词汇表和物理参数预测模块。该模型不仅能高效处理异构天文数据,还能进

金乌-太阳大模型:天文AI的多模态创新 国家天文台怀柔基地研发的"金乌-太阳大模型"是天文研究领域的突破性进展。该模型基于Qwen2架构,创新性地融合了多模态数据处理能力,实现了太阳物理知识问答、图像识别分析和耀斑爆发预报三大核心功能。模型采用双编码器-单解码器设计,整合文本、图像和科学数据编码器,并引入专门的天文注意力机制,有效捕捉太阳活动的时空关联特征。在耀斑预报任务中,模
