
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
大模型量化 是一种模型压缩技术,其核心思想是使用更低精度的数据类型(如8位整数INT8)来表示和计算原本更高精度的数据类型(如32位浮点数FP32或16位浮点数BF16/FP16)的模型参数和激活值。目前发现不使用4字节FP32精度转而使用2字节FP16半精度可以获得几乎相同的推理结果,这样就可以部署在存储空间不大,计算速度不快的设备上了(如手机,嵌入式设备,边缘计算);如果每个参数占的字节数少点
安装 VS Code 插件:Remote-SSH参考: https://blog.csdn.net/xy3233/article/details/149528434。参考: https://www.lixueduan.com/posts/ai/05-finetune-llamafactory/使用的 LoRA 微调,会生成单独的 LoRA 权重,当微调完成后需要将原始模型和 LoRA 权重进行合并
流式 ASR:实时采集音频,按固定时长(200-500ms)切分「音频块」,每处理一个音频块,就输出增量更新的识别文本。FunASR实时输出有个特性 :每次解码后输出「中间结果」(实时更新),静音时输出「最终结果」,完成一句话的识别闭环;非流式 ASR:麦克风采集到语音生成语音文件(wav/mp3),ASR模型读取语音文件,然后输出识别结果。核心技术是: ASR (语音识别)+ LLM (推理和内
内存存储 (Memory storage): LangGraph 将长期记忆作为 JSON 文档存储在存储 (store) 中。LangChain 的 create_agent 实际上是在 LangGraph 的运行时环境下运行的。活动的智能体发生变化,用户可以继续直接与新的智能体交互。你可以在工具 (tools) 和中间件 (middleware) 中访问运行时信息。当主智能体决定任务与子智能体
参考: https://langchain-doc.cn/v1/python/langchain/quickstart.html。
milvus操作参考: https://milvus.io/docs/zh/manage-collections.md。这种记忆库就是利用大模型,将对话提取/总结, 其效果非常依赖大模型的质量和prompt(默认prompt可能效果不佳)基础存储无记忆管理逻辑,仅提供基础增删改查。milvus安装之后可以使用 http://ip:9091/webui可视化页面查看。git地址: https://g
这是大模型调用工具的信息, 工具的自定义参数是大模型产生的,agent信息在ToolRuntime中,ToolRuntime中的信息 包含messages(对话信息),context(上下文信息),config(运行的配置),stream_writer,tool_call_id(当前调用工具id),store。:系统提示词,信息发送给模型的时候会添加,运行时是看不到的,无论是工具还是中间件,都不会
按照流程图, 使用add_edge 连接节点和节点,并行节点也使用add_edge,条件分支要使用add_conditional_edges。状态是一个类型化字典(TypedDict),用于存储各个节点的结果,加上输入问题 一共9个。全局的 “数据容器”, 用于在节点间传递信息(如上下文、工具结果、中间节点的结果数据)节点间的 “流转规则”, 决定了 “执行完当前节点后,下一步该去哪里”(节点0A
①向量(Vector):将非结构化数据(文本、图像、音频、视频等)通过 Embedding 模型转换后的高维数值数组(例如 768 维、1536 维),每个维度代表数据的一个语义 / 特征属性。更通俗的说法,向量就是一个数字列表,例如:[12, 13, 19, 8, 9]。②向量的数据表示:由ID(唯一标识)、向量(数值表示)、有效负载(元数据)组成。向量数据库是专门用于存储、管理和检索高维向量数
在langchain官方文档中,store是在工具中使用,但是我个人认为,store放在中间件(before_model,after_model)中使用更方便。然而随着聊天轮数越来越多, 聊天记录越来越长,然后送入模型的数据会越来越长,终究会超过大模型的上下文长度;但上述都有缺点,随着聊天轮数的增多,聊天记录总归会超过大模型上下文窗口上限, 无论是截断/精简/摘要都会丢失一些消息或者细节;长期记忆







