logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

GPT-5.1 发布:更聪明,也更有温度的 AI

如果说 GPT-5 是一位理性的工程师,那么 GPT-5.1 Instant 就像是那位既懂逻辑又会聊天的朋友。它延续了 GPT-5 的高准确性,同时在语气、理解力和指令执行上都有明显提升。

文章图片
GPU与TPU:AI计算硬件的核心对比

在人工智能,尤其是深度学习和大模型的浪潮中,算力已成为推动技术进步的核心引擎。GPU(图形处理器)和TPU(张量处理器)是两种主流的AI计算硬件,它们既有相似之处——都擅长并行浮点运算,又有显著的架构与定位差异。本文将从架构原理、适用场景和性能差异三个维度,深入剖析GPU与TPU。

文章图片
#人工智能
Hugging Face 200页的大模型训练实录

最近,Hugging Face 发布了一篇罕见的超长技术博客——超过 200 页的《Smol 训练手册》。

文章图片
#算法#人工智能
Kimi K2 Thinking:面向思考+工具调用的高阶智能体大模型

最近Kimi K2 Thinking 在国内外AI圈引起了不小的轰动,它以“思考(thinking tokens)+ 长序列工具调用” 为核心设计理念,并提出训练与推理策略。

文章图片
#人工智能
面试官:为什么需要量化,为什么 int4 _ int8 量化后大模型仍能保持性能?

面试官:说一下什么是量化,为什么将大语言模型从 FP16 量化到 int8 甚至 int4,性能仍然能保持得很好?

文章图片
#算法#人工智能
LongCat-Flash-Omni:美团的全模态大模型

在多模态浪潮加速的 2025 年,美团再次交出了一份令人惊艳的答卷。继 LongCat-Flash-Chat 与 LongCat-Flash-Thinking 之后,LongCat 系列迎来了新成员——LongCat-Flash-Omni。

文章图片
#算法#人工智能
面试官:大模型对齐中的 RLHF 与 DPO有什么本质区别?为何 DPO 能替代 RLHF?

这道题其实是面试官想看你是否真的理解大模型安全对齐(Alignment)背后的优化逻辑。我们都知道这两个词看起来都跟“让模型更听话”有关,但它们在原理、流程和优化目标上,差别非常关键。今天我们来把这件事讲清楚。

文章图片
#算法#深度学习
美团LongCat-Video解析

过去几年,AI 让我们见识了语言理解的奇迹。ChatGPT 能写文章、Midjourney 能画画,但让机器真正理解并预测世界,还需要更深一层的智能——那就是「世界模型」(World Model)。

文章图片
#算法
面试官:KV Cache 了解吗?推理阶段 KV Cache 的复用原理?动态批处理如何提升吞吐?

这道题可以说是大模型推理面试的保留项目。很多人一听就说:“我知道啊,KV Cache 是缓存 Key/Value 的东西,用来加速推理。”但真要问到怎么复用、为什么能复用、系统怎么批处理,大多数人就卡壳了。今天我们就把这件事彻底讲清楚。

文章图片
#深度学习#人工智能
面试官:大模型中的幻觉本质原因是什么?如何通过训练或推理手段抑制?

面试官:你觉得大模型的幻觉(Hallucination)是怎么产生的?能不能从原理上讲讲?那我们又该如何去抑制?别小看这问题,几乎所有大模型都被幻觉困扰——从 ChatGPT 到多模态模型,没有一个能逃得了。

文章图片
    共 54 条
  • 1
  • 2
  • 3
  • 6
  • 请选择