三思而后行，慎承诺个人主页

@weixin_42283818

三思而后行，慎承诺

2023-01-13 14:18:49 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

AI 强化学习

在预训练语言模型（PLM）的基础上，使用高质量的标注数据（输入-输出对）进行有监督的微调，使模型适应特定任务。通过人类对模型输出的排序或评分训练奖励模型（RM），再用强化学习（如PPO）优化策略模型，使其符合人类偏好。用AI模型（如大语言模型）替代人类标注反馈，自动化偏好对齐流程。绕过显式奖励建模，直接利用偏好数据优化策略模型，将RLHF问题转化为分类任务。选择技术需权衡数据、计算资源和对齐目标。

#人工智能

训练出一个模型需要哪些步骤

训练一个大模型（如LLM）是一个系统化工程，涉及数据、算法、算力和工程优化的复杂协作。掌握这些步骤后，可根据实际需求调整流程。

#人工智能

模大型格式

是一种专为**本地运行大型语言模型（LLMs）**设计的二进制文件格式，由。它优化了模型加载、内存管理和跨平台兼容性，特别适合在。团队开发，用于替代早期的。设备上高效运行量化模型。GGUF 文件通常以。

#人工智能

Mistral模型

Mistral 是由法国初创公司 Mistral AI 开发的一系列高效开源大语言模型（LLM），以其小体积、高性能著称，尤其在7B（70亿参数）规模下表现优异，甚至超越部分更大的模型（如Llama 2 13B）。以下是关键细节：优势总结：（2）本地量化运行（llama.cpp + GGUF）下载GGUF模型（如Mistral-7B-v0.1-Q4_K_M.gguf）。使用llama.cpp运行：

#人工智能

训练出一个模型需要哪些步骤

训练一个大模型（如LLM）是一个系统化工程，涉及数据、算法、算力和工程优化的复杂协作。掌握这些步骤后，可根据实际需求调整流程。

【代码】Ollama 是什么。

在大模型训练和推理中，显卡（GPU/TPU）的选择与模型参数量紧密相关，需综合考虑显存、计算能力和成本。70B模型原始显存需求（FP16）：140GB →。*基于AWS p4d.24xlarge实例估算。→ 需多卡分布式训练。实际部署前，建议使用。

#人工智能

前端如何连接tcp 服务，接收数据

在传统的浏览器前端环境中，由于浏览器的同源策略和安全限制，无法直接建立 TCP 连接。不过，可以通过 WebSocket 或者使用 WebRTC 来间接实现与 TCP 服务的通信，另外在 Node.js 环境中可以直接使用net模块建立 TCP 连接。