少林码僧个人主页

@yonggeit

少林码僧

2022-11-10 07:55:13 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

19.4 《24GB显卡轻松跑OPT-6.7B！AWQ/GPTQ量化实战：显存直降60%，推理速度翻倍》

本文介绍了OPT-6.7B模型在24GB显存显卡上的量化部署方法，重点对比了AWQ和GPTQ两种4bit量化技术。通过Transformers框架加载量化模型可降低60%显存占用，同时保持推理速度接近原模型。文章提供了详细的环境配置、代码示例和参数解析，并分析了性能测试数据（GPTQ4bit显存4.8GB，速度39.5 tokens/s）。还给出量化兼容性矩阵、优化技巧和常见问题排查方法，帮助开发

#服务器 #运维 #人工智能 +3

15.3 LLaMA 3+LangChain实战：智能点餐Agent多轮对话设计落地，订单准确率提升90%！

多轮对话设计、场景化提示工程、LLaMA 3 微调、LangChain Agent、饭店点餐场景建模。

#windows #人工智能 #语言模型 +1

4.3 AI 大模型应用最佳实践：文章摘要与总结的具体实现

在这篇文章中，我们将深入探讨如何利用OpenAI的大模型实现文章摘要与总结的功能，分析具体实现步骤、技术细节、优化策略，以及实际应用中的最佳实践。对于较为简单的文章，可以使用较小的模型（如GPT-3），对于复杂的文章则使用更强大的GPT-4。在实际操作中，OpenAI的GPT模型可以基于其对文本的深刻理解，提取文章的主要观点、结论，并以简洁的方式重新表达。在生成总结时，GPT模型不仅会提供文章的主

#人工智能

13.21 颠覆传统！LanguageMentor私有化AI方案成本直降92%，日均35美元碾压Duolingo

Cambly 采用真人教师+AI 辅助模式，每个会话成本中 83% 支付给教师。在医疗/金融等敏感领域，LanguageMentor 的本地化部署避免数据出境风险，对比 Cambly 的 AWS 全球传输节省 70% 合规成本。在 RTX 4090 单卡环境下，复杂语法分析的响应时间波动范围达 800-2500ms。从通用英语扩展到商务英语需新增 4200 条标注数据，提示工程需重构 60%在超过

#人工智能 #语言模型 #机器学习

15.3 LLaMA 3+LangChain实战：智能点餐Agent多轮对话设计落地，订单准确率提升90%！

多轮对话设计、场景化提示工程、LLaMA 3 微调、LangChain Agent、饭店点餐场景建模。

#windows #人工智能 #语言模型 +1

11.1 具身智能前沿：AI如何感知并与物理世界交互

具身智能是人工智能的一个重要分支，它强调智能体通过物理身体与环境进行交互来获得智能。与传统的AI系统不同，具身智能体不仅处理抽象的符号或数据，还通过传感器感知物理世界，通过执行器影响物理环境，在这种感知-行动的循环中学习和演化。fill:#333;important;important;fill:none;color:#333;color:#333;important;fill:none;fill

#人工智能 #交互 #算法

11.1 具身智能前沿：AI如何感知并与物理世界交互

#人工智能 #交互 #算法

11.1 具身智能前沿：AI如何感知并与物理世界交互

#人工智能 #交互 #算法

6.7 Git工作流！AI原生开发版本控制策略：优化团队协作的3种模式

本文介绍了AI原生开发中的三种Git版本控制优化策略：1）规范驱动工作流，将规范文档与代码生成分离管理；2）功能分支工作流，基于develop分支进行功能开发与测试；3）GitFlow工作流，采用多分支结构实现复杂项目管理。每种模式都提供了具体实现方案和工作流程图解，帮助团队根据项目特点选择合适版本管理方法。核心要点包括分支命名规范、代码生成隔离、合并策略优化等，旨在提升AI项目开发效率与协作质量

#git #人工智能 #ci/cd +2

11.16 LangGraph百万级并发实战：大厂都在用的Agent线程管理与生产配置秘籍

摘要：本文探讨了LangGraph框架在高并发Agent开发中的工程实践，重点解析了线程管理、配置体系和状态持久化三大核心机制。LangGraph通过线程隔离实现多用户会话处理，采用三层配置体系（全局/线程/调用级）支持动态调参，并利用checkpointer机制实现对话状态持久化。文章包含SQLite存储实现、生产环境配置策略及差旅Agent案例，展示了如何构建支持百万级并发的生产级AI系统。这

#大数据 #架构 #人工智能 +1

共 19 条

请选择