星辰AI 个人主页

@qq_34803115

星辰AI

2026-05-11 15:04:27 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大模型评估指标详解：科学衡量模型能力

分类任务：准确率、F1 分数生成任务代码生成：pass@k、编译成功率数学推理：数值准确率单一指标不足以全面评估需要在多个数据集上测试人类评估仍然不可或缺注意指标的局限性。

#人工智能 #语言模型

大模型微调技术 LoRA 详解：从原理到实践

LoRA 真正让大模型微调变得平民化。掌握 LoRA 之后，你可以在消费级 GPU 上微调几十亿参数的模型，根据自己的需求定制 AI 能力。从 Rank=8 开始，根据效果调整目标模块至少包含 q_proj 和 v_proj学习率可以比全参数微调更高训练后记得合并权重以获得完整模型。

#人工智能 #语言模型

大模型上下文窗口管理技巧：突破长度限制的艺术

"""对话历史管理器"""self,llm,):"""添加消息""""""检查是否需要总结历史""""""总结旧消息"""# 保留最近的消息recent_messages = self.messages[-4:] # 最近 2 轮对话# 将早期消息合并为总结returnsummary_prompt = f"""请总结以下对话的要点：总结（简洁明了，保留关键信息）："""# 用总结替换旧消息。

#人工智能 #语言模型

文档驱动开发：开源项目冷启动阶段的文档规范与交互式示例设计

文档驱动开发有助于理清 API 设计，同时降低新人的上手成本。在开源项目冷启动阶段，一篇结构清晰、包含交互式沙箱的 README 文档，是吸引早期开发者并建立项目信用的有效方法。删除了“事实上”、“本文将探讨”等填充短语简化了“极其稀缺的资源”、“致命弱点”等宣传性语言调整了列表结构，避免三段式列举删除了“此外”、“同时”等连接词将“最佳工程实践”改为更具体的“有效方法”调整了部分句子长度，增加节

#人工智能 #语言模型

AI Agent 工具调用系统设计：让大模型掌控世界

OpenAI API 的 Function Calling 示例messages=[{"role": "user", "content": "北京今天天气怎么样？"}],tools=["description": "获取指定城市的天气信息","city": {"description": "城市名称"},"unit": {"description": "温度单位"},# 模型可能返回：# {

#人工智能 #语言模型

开源大模型生态对比分析：如何选择适合的模型

任务类型：代码、中文、英文、数学等硬件条件：显存大小、GPU 数量部署方式：本地、云端、边缘成本预算：训练成本、推理成本最佳全能：Qwen2-72B（中文任务）或 LLaMA 3 70B（英文任务）最佳性价比最佳代码最佳移动端开源模型的更新速度很快，建议关注各模型的 GitHub 和 HuggingFace 页面，获取最新信息。

#人工智能 #语言模型

大模型硬件选型指南：从消费级到企业级

模型规模：7B/13B/70B 需要不同配置使用场景：推理 vs 训练需求不同预算：消费级 vs 企业级扩展性：未来是否需要扩展消费级 GPU 适合开发和测试企业级集群适合大规模训练云服务提供弹性扩展能力量化技术可以降低硬件需求。

#人工智能 #语言模型

大模型对抗攻击与防御：保护 AI 系统安全

攻击类型：提示词注入、后门攻击、数据污染防御策略：输入过滤、输出验证、对抗训练最佳实践：多层防御、持续监控、安全更新没有绝对安全的系统需要多层防御机制定期测试和更新防御策略保持警惕新的攻击方式。

#人工智能 #语言模型

大模型数据集构建方法：从数据收集到质量保证

数据收集：选择合适的数据源数据清洗：去除噪声和低质量数据数据标注：添加标签和注释质量检查：确保数据质量格式转换：转换为标准格式数据质量是模型性能的关键需要多个标注员保证一致性定期检查数据质量使用标准格式便于后续处理。

#人工智能 #语言模型

大模型能力评估与评测体系：科学衡量 AI 智能

多维度：不能只看单一指标，要综合评估多数据集：不同数据集反映不同能力可复现：评测方法和条件要明确持续跟踪：模型在迭代，要持续评测MTEB 是 Embedding 评测的标准大模型用 MMLU、HumanEval、GSM8K 等多次运行取平均保证稳定性对比评测要控制变量希望这些评测方法和经验对大家有帮助。

#人工智能 #语言模型

共 191 条

请选择