logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【使用三化总结大模型基础概念】

摘要: 大模型的研发与应用涉及系统性、全局性和结构化的多维度分析。从系统生态看,需关注算力基础设施、数据来源、法规伦理及商业竞争等外部因素。模型内部结构涵盖Transformer架构、训练流程、参数规模、能力维度及部署方式。各要素间存在动态关联:算力影响训练规模,数据质量决定模型性能,架构优化提升推理效率,训练策略适配部署需求,法规约束应用落地。研究大模型需综合考虑技术实现、资源条件和社会环境的多

#语言模型
【AI简史】

人工智能(AI)的发展经历了多个阶段,从早期的符号推理到现代的深度学习和大模型。:大数据 + GPU 计算 + 深度学习,AI 进入实用化阶段。AI 的发展仍在加速,未来十年可能迎来更颠覆性的变革。:基于规则和专家系统,但受限于计算能力和知识表示。:计算能力不足、数据匮乏,AI 研究资金减少。:以逻辑推理为主,依赖数学和符号计算。

文章图片
#人工智能
【假设微调1B模型,一个模型参数是16bit,计算需要多少显存?】

全量微调1B模型显存需求约20GB(权重2GB+梯度2GB+优化器12GB+激活4GB),高效微调可大幅降低开销。LoRA通过冻结原参数仅训练0.1%的适配层,显存降至6GB(含4GB激活);QLoRA进一步引入4-bit量化,模型权重压缩至0.5GB,总显存仅需4.6GB。两种高效方法均能显著减少梯度和优化器状态占用,但激活值仍是主要瓶颈。实际应用中,QLoRA配合梯度检查点技术可在消费级显卡上

#人工智能#机器学习#深度学习
【GPT-5 与 GPT-4 的主要区别?】

GPT-4是 OpenAI 于 2023 年 3 月发布的多模态大型语言模型,广泛应用于 ChatGPT、Copilot 等产品,并支持多种任务。GPT-5则是 2025 年 8 月 7 日发布的最新旗舰模型,接替包括 GPT-4、GPT-4o、GPT-4.5 等多个版本,成为统一平台。特性GPT-4GPT-5发布时间2023 年2025 年 8 月 7 日架构多模型流派(GPT-4 / 4o)统

#人工智能
GPT5的Test-time compute(测试时计算)是什么?

Test-time compute(测试时计算)是指在模型推理阶段动态调整计算资源的技术,根据任务复杂度分配不同算力。简单问题调用轻量计算,复杂任务则启用更深层推理或更大子模型。常见实现方式包括专家混合模型、动态深度网络和多步推理机制。其优势在于提升计算效率和准确性,但面临实现复杂度高、响应时间不稳定等挑战。该技术让AI能像人类一样"因题制宜",在保证简单任务快速响应的同时,为

#人工智能
【人工智能AI、机器学习ML、深度学习DL、基础模型FM、LLM、GPT、Generative AI 分别是什么?他们之间的关系是什么?】

本文系统梳理了人工智能领域的关键概念及其层级关系。人工智能(AI)是总括概念,机器学习(ML)是其子集,通过数据自动学习;深度学习(DL)作为ML的分支,采用神经网络;基础模型(FM)是在海量数据上预训练的大模型;大语言模型(LLM)是FM的一种,专注自然语言处理,GPT是其代表架构;生成式AI(Generative AI)则涵盖跨模态内容生成,包括文本、图像、音频和视频。这些概念呈现清晰的树状层

#人工智能#机器学习#深度学习
【《人工智能:现代方法(第4版)》第一遍总结】

算法(f(n)=g(n)+h(n))、贪心最佳优先、加权A。第一章 人工智能概述与思想基础。第三章 对抗环境下的博弈与决策。第五章 约束满足问题(CSP)第七章 不确定知识与概率推理。第二章 问题求解与搜索基础。蒙特卡洛树搜索(MCTS)第四章 知识表示与逻辑推理。第九章 深度学习与前沿进展。随机博弈与部分可观测博弈。第六章 规划与自动推理。分层任务网络(HTN)第八章 机器学习基础。

文章图片
#人工智能
【机器学习、深度学习、神经网络之间的区别和关系】

手工设计特征(胡须长度、眼睛形状等):从数据中学习规律,而不是被显式编程。:由“神经元”连接而成的计算模型。:深度学习 ≈ 人工智能代名词。:神经网络第一次热潮。

#机器学习#深度学习#神经网络
【《人工智能:现代方法(第4版)》第一遍总结】

算法(f(n)=g(n)+h(n))、贪心最佳优先、加权A。第一章 人工智能概述与思想基础。第三章 对抗环境下的博弈与决策。第五章 约束满足问题(CSP)第七章 不确定知识与概率推理。第二章 问题求解与搜索基础。蒙特卡洛树搜索(MCTS)第四章 知识表示与逻辑推理。第九章 深度学习与前沿进展。随机博弈与部分可观测博弈。第六章 规划与自动推理。分层任务网络(HTN)第八章 机器学习基础。

文章图片
#人工智能
【多模态大模型的三化】

多模态大模型(MLLM)可以通过“三化”框架通俗理解: 系统化:结合算力、数据、应用等外部环境,将多模态视为连接不同感官的统一大脑; 全局化:拆解为输入、表示、对齐、融合、输出等模块,强调跨模态语义对齐与信息融合; 结构化:类比“翻译共同语言→集体推理”流程,核心是解决模态间的协同问题。 关键点:多模态需先统一语义表达,再实现生成与推理。常见应用包括文生图、视频理解等,技术难点在于对齐质量与数据偏

#人工智能
    共 46 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择