
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Jet- Nemotron- 2B模型在一系列基准测试中实现了与Qwen3、Qwen2.5、Gemma3和Llama3.2相当或更高的准确度,同时提供了高达 53.6× 生成吞吐量加速和 6.1× 预填充加速

这里是@黄建同学在微博发的文章,摘录转载一下,做个记录

这里是@黄建同学在微博发的文章,摘录转载一下,做个记录

这是英伟达针对芯片设计训练的一个领域大模型(ChipNeMo),使用了微调和RAG的组合技术,论文有针对技术细节的大量对比分析,对于理解微调和RAG技术,是一个非常好的技术案例

文章为大型语言模型引入了一个解码器-解码器架构 YOCO,它只缓存一次键值对。它由两个组件组成,即堆叠在自解码器上的交叉解码器。自解码器有效地对全局键值 (KV) 缓存进行编码,交叉解码器通过交叉注意力重用这些缓存。整个模型的行为类似于仅解码器的 Transformer,尽管 YOCO 只缓存一次。该设计大大**降低了 GPU 内存需求,同时保留了全局注意力能力**。此外,计算流程可以在不改变最终

这是关于大模型的DPO方法的论文,尝试使用腾讯元宝进行快速阅读!

要有光。对于生物而言,要有光,原来不是有了光,而是,生物进化了视觉系统,能够看见光,有了光,进一步就有了理解,有了行动。原来如此!

在地平线智驾科技畅想日上,地平线副总裁兼首席架构师苏箐(前华为智驾负责人)做了即兴演讲,以下是其演讲的主要内容:对自动驾驶行业的看法自动驾驶的难度与挑战:苏箐表示自动驾驶非常难,他做自动驾驶到现在已经快抑郁了,很多优秀的同学都改行了,去做具身智能机器人。他认为自动驾驶是第一个在物理世界跟人交互的机器人,是在一个半规则和半非规则的场景里面的东西,如果连自动驾驶都搞不定,去做完全是非结构化的机器人是不

BGE Landmark Embedding这篇论文要解决的技术问题,在RAG技术中,分块是个麻烦的问题,通常通过经验或启发式方法来解决。但是无论如何,分块打破上下文的连贯性,对嵌入不利,另一方面,连续的信息可能划分到不同的块中,显著的块可以很容易地被检索到,其他有用但不那么显著的块可能被忽视,等等问题。那分块有问题,但是文本太长时又不能不分块,采用滑动窗口就成为一个自然的选择。

人工智能发展史三根靠得住的基本支柱:一是神经网络,二是强化学习,三是环境模型。








