logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

第五十六个问题-对于万摸狂奔这件事有什么看法?是否真的必要每家AI都有自己的大模型?

例如,DeepSeek-R1通过强化学习与混合专家架构(MoE)优化推理效率,接近GPT-o1性能,体现了开源生态对技术普惠的推动210。华为、百度等头部企业虽在行业应用(如工业制造、生物科研)中取得突破,但中小企业的技术积累不足可能造成资源分散,难以突破高端算力、数据质量等瓶颈48。(如华为盘古、商汤VisionPerformer)更强调垂直场景的深度适配,例如医疗影像分析、智能制造流程优化,这

文章图片
#人工智能#深度学习#机器学习 +1
第五十八个问题-沐曦C500计算卡是什么样的水平?

沐曦曦云C500是一款面向高性能计算与AI大模型场景的国产通用计算GPU,其综合性能接近国际主流产品的阉割版本(如A800),且在软件生态和国产化适配方面表现突出。尽管在制程(采用7nm)和单卡算力上与国际顶尖产品仍有差距,但其高性价比、多卡扩展能力及广泛的应用适配性,使其成为当前国产算力自主可控的重要选项。曦云C500具备多精度混合算力,FP32(矩阵运算)算力达36 TFLOPS(OAM版本)

文章图片
#人工智能#深度学习#机器学习 +1
看看ChatGPT怎么说-Qwen3的两种思考模式是什么?

在此模式下,模型以极低延迟直接生成答案,不做或仅做极少的内部推理,类似“一次性出稿”。适合常识性、简单问答或对延迟敏感的场景,比如“巴黎是法国的首都吗?”这类无需多步演绎的问题,可瞬间给出“是”或“Paris”即可。优势:响应速度最快、计算开销最低。引用:Qwen3 官方博客指出,其“非思考模式”可在简单对话中启用以保证极低延迟;C# Corner 技术解读中称之为“blitz”或“instant

文章图片
#人工智能#机器学习#深度学习 +1
第六十一个问题Deepseek R1-Qwen3的两种思考模式是什么?

例如,在需要调用外部工具或执行复杂任务链时,思考模式能确保精准决策,而非思考模式则优化了高频交互的响应效率5710。例如,Qwen3-235B-A22B在混合模式下,显存占用仅为同类模型的1/3,部署成本大幅降低3910。:模型直接生成答案,跳过多步推理,响应速度接近实时,适用于日常对话、简单问答或需要快速反馈的场景(如客服应答、信息检索)357。:在此模式下,模型会进行多步深度推理,通过逐步分析

文章图片
#深度学习#机器学习#人工智能 +1
第二十五个问题-什么是智能体?

随着AI技术的进步,智能体正从简单的自动化工具发展为具备类人认知能力的复杂系统,未来将在更多领域成为人类能力的延伸。智能体(Agent),也称为代理或智能代理,是计算机科学和人工智能领域中的一个核心概念,指一种能够。| **感知模块**|← 传感器/数据输入(图像、文本、声音等)| **执行模块**|→ 控制指令输出(机械动作、API调用等)| **环境反馈**|→ 新的状态触发下一轮感知-决策循

文章图片
#人工智能#语言模型#机器学习 +2
看看豆包怎么说-小米开源MiMo-VL多模态大模型

小米 MiMo-VL 的开源是多模态 AI 民主化进程的重要里程碑。其高性能、低成本、强隐私保护的特性,为开发者和企业提供了替代闭源模型的可行选择,尤其在 GUI 交互、数学推理和复杂任务处理领域具有显著优势。尽管存在工具调用能力不足、多模态支持缺失等挑战,但其开源策略和技术突破已对行业产生深远影响,有望推动 AI 技术更广泛地服务于社会。对于用户而言,MiMo-VL 是探索多模态 AI 应用的理

文章图片
#开源#人工智能#机器学习 +2
【番外】Deepseek的回答-垃圾佬是怎么诞生的?

**第二阶段(2018年后)**:中国禁止进口电子垃圾后,“土垃圾”兴起,即国内企业和机构报废的电子产品。- **社区与技术传承**:在线论坛(如51NB、Hi-PDA)和开源社区(如OpenWrt)为垃圾佬提供了技术交流平台,推动了知识的传播和创新。- **社区文化**:图拉丁吧形成了独特的“捡垃圾”文化,如“3000预算进图吧,学校对面开网吧”的调侃,体现了用极低成本实现高性能的核心理念。-

文章图片
#人工智能#深度学习#机器学习
看看ChatGPT怎么说-沐曦C500计算卡是什么样的水平?

沐曦 C500在国产GPU中具备较强的竞争力,特别适用于AI大模型训练与推理、科学计算、数据库加速等高密度计算场景。​其自主研发的GPU IP架构和软件栈兼容性,降低了用户的迁移成本。​在显存带宽和功耗方面,C500与国际同类产品相当,具有较高的性价比。​CSDN 博客聚超值+1CSDN 博客+1如果您有兴趣了解更多关于沐曦 C500的应用案例或与其他国产GPU的对比,欢迎继续提问。

文章图片
#开发语言#深度学习#机器学习 +1
看看豆包怎么说-字节跳动的Deepflow是什么?

字节跳动的 DeepFlow 是一款由云杉网络(现已被字节跳动收购)开发的云原生可观测性平台,专注于为复杂云基础设施和分布式应用提供全栈、零侵扰的监控与分析能力。其核心技术基于 eBPF(扩展伯克利数据包过滤器)和 Wasm,能够在不修改业务代码的前提下,自动采集应用性能指标、分布式追踪数据和持续性能剖析信号,显著降低开发者的观测成本348。

文章图片
#人工智能#深度学习#机器学习 +1
看看Grok3怎么说-Qwen3的两种思考模式是什么?

它支持两种思考模式,分别是“思考模式”和“非思考模式”,这些模式为用户提供了灵活的推理选项,适应不同任务需求。例如,在资源有限的边缘设备上,非思考模式可以提供高效的实时响应,而在数据中心场景,思考模式可以支持更复杂的推理任务。这种设计大大节省了计算资源,同时提高了模型的通用性。研究表明,这种双模式设计不仅提升了 Qwen3 的灵活性,还为用户提供了更大的自主权,可以根据任务需求选择最佳模式。Qwe

文章图片
#百度#人工智能#机器学习 +2
    共 126 条
  • 1
  • 2
  • 3
  • 13
  • 请选择