
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在当下新一轮科技革命和产业变革加速发展的背景下,数据已成为新的生产要素,算力成为新的基础能源,而人工智能则成为新质生产力。2024年的政府工作报告中,明确指出要深化人工智能应用,并首次提出开展“人工智能+”行动。该行动打开了新质生产力的大门,人工智能正在成为产业创新的关键抓手。尤其是以大模型为代表的生成式AI技术,已成为推动新一代产业变革的核心动力。为抓住此次技术机遇,企业开始积极尝试将生成式AI

在o1的整体框架篇中(https://zhuanlan.zhihu.com/p/773907223),我们从现有开源的论文和代码中(https://github.com/hijkzzz/Awesome-LLM-Strawberry),抽象出了o1可能的技术实现路径,如下图:这里对于这张框架图我们不再做赘述,详情可以参见上面《框架篇》的文章链接。我们之前说过,这是一张高度抽象的框架图,旨在说明o1官

人工智能(AI)的快速发展引发了各行业的变革性转变。在 AI 的众多进步中,智能体作为创新的基石脱颖而出,重塑了行业格局,提升了用户体验,并将自动化推向了新的高度。这些自主运行的虚拟机已经在客户服务、医疗保健、金融甚至娱乐等领域占据了一席之地。那么,人工智能智能体的未来会是怎样的呢?在本文中,我们将探讨 2025 年及未来几年人工智能智能体的趋势和预测。什么是人工智能智能体?2024 年人工智能智

大模型能够生成流畅的文本、理解复杂的语言,然而,这些大模型通常拥有数十亿甚至上千亿参数,计算和存储成本极高,难以部署到手机、嵌入式设备或低算力环境中。为了解决这个问题,模型蒸馏应运而生。这是一种让小模型学习大模型知识的技术,能够在大幅降低计算资源消耗的同时,保持高性能。◽李飞飞团队通过知识蒸馏技术仅用26分钟在 Qwen2.5-32B 基础上训出超越o1的模型 S1。◽ DeepSeek-R1 通

LSTM 是一种特殊的循环神经网络(RNN),旨在解决 RNN 的梯度消失与梯度爆炸问题。它通过引入“门控机制”,能够在时间序列中记住长时间的依赖关系,同时避免对无关信息的记忆。LSTM 单元的核心在于一个“细胞状态” (),它能够通过线性传递保留重要信息。此外,LSTM 包括三个门控单元:遗忘门、输入门和输出门,用于控制信息的流动。

最近,我尝试对 Qwen2-VL-2B 进行微调。这是一款强大的多模态大语言模型,既能处理文本,又能理解图像。简单来说,它就像一个既能“看”又能“读”的智能助手。我希望利用它的能力,从图像中提取关键信息,也就是完成 OCR(光学字符识别)任务。在这篇文章中,我会带大家一步步了解我的完整过程:如何构建并标注一个适合的图像数据集、将其格式化以适配模型、进行模型训练、实施量化优化,以及最终的模型评估。但

高效的批处理策略,使得更多的请求可以组成batch并行处理,但是batch组的请求数仍受到GPU内存的限制,如何的突破内存瓶颈,最大化batch中请求数量,是提高推理吞吐量的关键,本文主要围绕分页注意力高效管理KV cache缓存机制,介绍以下几个问题:

大模型能够生成流畅的文本、理解复杂的语言,然而,这些大模型通常拥有数十亿甚至上千亿参数,计算和存储成本极高,难以部署到手机、嵌入式设备或低算力环境中。为了解决这个问题,模型蒸馏应运而生。这是一种让小模型学习大模型知识的技术,能够在大幅降低计算资源消耗的同时,保持高性能。◽李飞飞团队通过知识蒸馏技术仅用26分钟在 Qwen2.5-32B 基础上训出超越o1的模型 S1。◽ DeepSeek-R1 通

首先我们需要安装Ollama,它可以在本地运行和管理大模型,访问链接为:https://ollama.com/根据自己操作系统选择对应的安装包,需要注意的是这里可能需要魔法。下载完成后点击安装,完成后安装窗口会自动关闭,你的系统托盘图标会出现一个常驻的Ollama标记接下来win+R进入命令行界面,输入ollama就会返回相应的信息可以根据自己的电脑配置来进行判断,自己应该下载哪个模型,我的电脑显

认知诊断作为评估学生学习状态的核心环节非常重要,传统认知诊断模型(CDMs)却因依赖有限先验知识而表现不佳。大语言模型(LLMs)虽具备丰富的语义理解和知识储备能力,但其语义空间与CDMs的行为特征空间存在本质差异,且难以捕捉细粒度的学生—习题交互信息,直接融合面临挑战。








