xiaosc 个人主页

@xiaosc

xiaosc

2025-02-18 16:41:05 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大模型的每个输入词（Token）会被映射到一个初始的高维向量（如 768 维或 1024 维），每个维度都有物理意义吗

每个词（Token）会被分配一个初始的高维向量（如 768 维或 1024 维），每个维度都有物理意义吗

#transformer #深度学习 #人工智能 +1

大模型的内部知识是如何被编码在高维向量空间

嵌入是将离散的符号（如单词、短语、概念）映射到连续的高维向量空间（通常几百到几千维）的过程。例如，单词“猫”可能被映射为类似。

#transformer #深度学习 #语言模型

Deepseek到底强在什么地方？

找了Deepseek和Qwen，Llama,Claude，GPT的综合能力对比表，除了红色部分Claude和GPT-4o没对外官宣，其余数据均来源Deepseek官网数据，为了便于快速理解，对能力测试项进行了中引文标注和英文缩写解释。Dense（密集）Dense（密集）175B+200B+175B+200B+

#transformer #深度学习

大模型的内部知识库是一种什么形态存在

模型的知识是基于训练数据的，无法自动更新。的知识表示形式，被编码在高维向量空间，它的存在形态和运作方式与传统数据库有本质区别。每个参数（权重）并不直接对应某个具体的知识，而是通过大量参数的组合来表示复杂的语义和关系。在训练过程中，模型通过优化目标（如语言建模目标）逐步调整参数，从而将知识编码到神经网络中。当用户提问时，模型通过其参数中编码的知识生成回答，而不是从外部数据库中检索数据。模型的知识并非

#transformer #深度学习 #人工智能 +1

Deepseek到底强在什么地方？

#transformer #深度学习

到底了