logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

万亿赛道!生成式AI产业落地解决方案深度分析 2024

在当下新一轮科技革命和产业变革加速发展的背景下,数据已成为新的生产要素,算力成为新的基础能源,而人工智能则成为新质生产力。2024年的政府工作报告中,明确指出要深化人工智能应用,并首次提出开展“人工智能+”行动。该行动打开了新质生产力的大门,人工智能正在成为产业创新的关键抓手。尤其是以大模型为代表的生成式AI技术,已成为推动新一代产业变革的核心动力。为抓住此次技术机遇,企业开始积极尝试将生成式AI

文章图片
#人工智能#语言模型#自然语言处理
OpenAI o1 技术初探2:使用MCTS增强推理能力(基于代码实践的解读)

在o1的整体框架篇中(https://zhuanlan.zhihu.com/p/773907223),我们从现有开源的论文和代码中(https://github.com/hijkzzz/Awesome-LLM-Strawberry),抽象出了o1可能的技术实现路径,如下图:这里对于这张框架图我们不再做赘述,详情可以参见上面《框架篇》的文章链接。我们之前说过,这是一张高度抽象的框架图,旨在说明o1官

文章图片
#人工智能#微服务#架构 +2
人工智能智能体(AI Agent)发展趋势2024年总结与2025年展望

人工智能(AI)的快速发展引发了各行业的变革性转变。在 AI 的众多进步中,智能体作为创新的基石脱颖而出,重塑了行业格局,提升了用户体验,并将自动化推向了新的高度。这些自主运行的虚拟机已经在客户服务、医疗保健、金融甚至娱乐等领域占据了一席之地。那么,人工智能智能体的未来会是怎样的呢?在本文中,我们将探讨 2025 年及未来几年人工智能智能体的趋势和预测。什么是人工智能智能体?2024 年人工智能智

文章图片
#人工智能#microsoft#自然语言处理 +2
大白话解释什么是模型蒸馏?模型蒸馏=老师教学生?

大模型能够生成流畅的文本、理解复杂的语言,然而,这些大模型通常拥有数十亿甚至上千亿参数,计算和存储成本极高,难以部署到手机、嵌入式设备或低算力环境中。为了解决这个问题,模型蒸馏应运而生。这是一种让小模型学习大模型知识的技术,能够在大幅降低计算资源消耗的同时,保持高性能。◽李飞飞团队通过知识蒸馏技术仅用26分钟在 Qwen2.5-32B 基础上训出超越o1的模型 S1。◽ DeepSeek-R1 通

文章图片
#python#人工智能#机器学习 +4
突破LSTM!结合CNN多变量时间序列预测 !!

LSTM 是一种特殊的循环神经网络(RNN),旨在解决 RNN 的梯度消失与梯度爆炸问题。它通过引入“门控机制”,能够在时间序列中记住长时间的依赖关系,同时避免对无关信息的记忆。LSTM 单元的核心在于一个“细胞状态” (),它能够通过线性传递保留重要信息。此外,LSTM 包括三个门控单元:遗忘门、输入门和输出门,用于控制信息的流动。

文章图片
#lstm#cnn#深度学习 +3
用微调、量化与推断,玩转 Qwen2-VL多模态大模型自定义OCR数据!

最近,我尝试对 Qwen2-VL-2B 进行微调。这是一款强大的多模态大语言模型,既能处理文本,又能理解图像。简单来说,它就像一个既能“看”又能“读”的智能助手。我希望利用它的能力,从图像中提取关键信息,也就是完成 OCR(光学字符识别)任务。在这篇文章中,我会带大家一步步了解我的完整过程:如何构建并标注一个适合的图像数据集、将其格式化以适配模型、进行模型训练、实施量化优化,以及最终的模型评估。但

文章图片
#语言模型#架构#人工智能 +2
vLLM推理框架|用“内存分页术“榨干GPU,让KV缓存不再“爆仓“!

高效的批处理策略,使得更多的请求可以组成batch并行处理,但是batch组的请求数仍受到GPU内存的限制,如何的突破内存瓶颈,最大化batch中请求数量,是提高推理吞吐量的关键,本文主要围绕分页注意力高效管理KV cache缓存机制,介绍以下几个问题:

文章图片
#缓存#人工智能#面试 +3
大白话解释什么是模型蒸馏?模型蒸馏=老师教学生?

大模型能够生成流畅的文本、理解复杂的语言,然而,这些大模型通常拥有数十亿甚至上千亿参数,计算和存储成本极高,难以部署到手机、嵌入式设备或低算力环境中。为了解决这个问题,模型蒸馏应运而生。这是一种让小模型学习大模型知识的技术,能够在大幅降低计算资源消耗的同时,保持高性能。◽李飞飞团队通过知识蒸馏技术仅用26分钟在 Qwen2.5-32B 基础上训出超越o1的模型 S1。◽ DeepSeek-R1 通

文章图片
#python#人工智能#机器学习 +4
DeepSeek本地部署+本地知识库构建

首先我们需要安装Ollama,它可以在本地运行和管理大模型,访问链接为:https://ollama.com/根据自己操作系统选择对应的安装包,需要注意的是这里可能需要魔法。下载完成后点击安装,完成后安装窗口会自动关闭,你的系统托盘图标会出现一个常驻的Ollama标记接下来win+R进入命令行界面,输入ollama就会返回相应的信息可以根据自己的电脑配置来进行判断,自己应该下载哪个模型,我的电脑显

文章图片
#vr#学习#人工智能 +2
论文解读 | 浙江大学吴飞教授团队:基于SOLO分类法的大语言模型驱动认知诊断

认知诊断作为评估学生学习状态的核心环节非常重要,传统认知诊断模型(CDMs)却因依赖有限先验知识而表现不佳。大语言模型(LLMs)虽具备丰富的语义理解和知识储备能力,但其语义空间与CDMs的行为特征空间存在本质差异,且难以捕捉细粒度的学生—习题交互信息,直接融合面临挑战。

文章图片
#语言模型#人工智能#自然语言处理 +4
    共 759 条
  • 1
  • 2
  • 3
  • 76
  • 请选择