Charlie482 个人主页

@Charlie482

Charlie482

2023-11-17 15:57:45 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【大模型】4.5openAI中的模型使用的分词器

核心目标：掌握OpenAI官方分词器tiktoken的基础用法，理解“文本→token整数→文本”的完整流程，能精准计算文本的token数；关键知识点tiktoken是计算OpenAI模型token数的“金标准”，gpt-3.5-turbo/gpt-4默认使用cl100k_base编码；Token是模型的最小处理/计费单位，英文按词根拆分、中文按单字拆分；encode/decode实现文本与tok

#服务器 #数据库 #运维

【大模型】5.7语音识别

核心流程：本代码实现“中文音频→Whisper-1翻译→英文文本→TTS-1生成→英文音频”的完整链路，核心依赖Whisper-1的翻译能力和TTS-1的配音能力；Whisper-1关键转录（Transcriptions）是“音频→同语言文字”，翻译（Translations）是“音频→英文文字”；音频文件必须用rb模式打开，否则会识别失败；实用技巧长音频（>1小时）建议分段处理，避免API超时；

#语音识别 #人工智能

【大模型】8.2基于LangChain实现带会话历史的多语言聊天机器人

核心能力：LangChain通过实现会话历史管理，session_id是区分不同用户的核心；关键组件是提示模板中关联历史的核心，需与保持一致；调用方式invoke：一次性获取完整响应，适合短文本；stream：逐token返回，适合实时对话/长文本；实用技巧内存存储的会话历史仅适合测试，生产环境需用Redis/数据库持久化；会话历史会增加提示词长度，需注意模型的上下文窗口限制（gpt-4-turb

#机器人 #数据库

【大模型】8.4基于LangChain、LangGraph、Tavily实现具备自动工具调用能力的智能代理（Agent）

Agent核心价值：解决大模型“知识过期”“无实时数据”痛点，能自动判断并调用外部工具（如Tavily搜索）获取最新数据；关键组件TavilySearchResults提供实时搜索能力，需配置API Key；chat_agent_executor封装完整的Agent执行流程，无需手动实现工具调用逻辑；bind_tools让模型具备“是否调用工具”的推理能力（底层逻辑）；执行逻辑无需工具的问题→模型

#服务器

【机器学习】案例1.2——决策树进行鸢尾花分类

鸢尾花（Iris）数据集是机器学习领域的经典基准数据集，由统计学家Fisher于1936年提出，是多分类任务的入门级数据集。该数据集包含150个样本，对应3类鸢尾花（山鸢尾/Iris-setosa、变色鸢尾/Iris-versicolor、维吉尼亚鸢尾/Iris-virginica），每类各50个样本；每个样本包含4个数值型特征：花萼长度、花萼宽度、花瓣长度、花瓣宽度。等优点，但核心痛点是：当决策

#机器学习 #决策树 #分类

【耿直哥深度学习】11.5-注意力池化

注意力可视化通过热图直观展示权重分布，核心工具是，颜色深浅对应权重大小；注意力池化的核心是加权平均，Nadaraya-Watson核回归通过高斯核函数计算权重，相比平均池化能更好拟合非线性规律；Softmax归一化是注意力权重计算的关键步骤，确保权重和为1，是注意力机制的基础特性。

#深度学习 #人工智能

【机器学习】2.梯度下降法

( \theta = [\theta_0, \theta_1, …, \theta_n]^T )：模型参数（如线性回归的权重和偏置）。( X = [x_0, x_1, …, x_n] )：输入特征（( x_0=1 ) 对应偏置项 ( \theta_0 )）。( y )：真实标签，( \hat{y} = h_\theta(X) )：模型预测值（如线性回归 ( h_\theta(X) = X \cdo

#机器学习 #人工智能

【机器学习】3.SVM支持向量机

SVM是监督学习的经典模型，核心是“最大化间隔”，通过核函数突破线性限制，扩展到回归和多分类。实战中需重点关注特征归一化参数调优和核函数选择，小样本高维场景优先使用，大样本可考虑LinearSVC或其他模型（如XGBoost）。

#支持向量机 #机器学习 #算法

【机器学习】1.聚类算法

优先尝试简单算法：KMeans（大规模/凸簇）、DBSCAN（非凸/噪声）；调参核心：KMeans用肘部法则/轮廓系数选K，DBSCAN调ɛ和MinPts；数据预处理：数值特征标准化，分类特征用K-Modes；评估：无标签用轮廓系数，有标签用ARI/AMI。聚类算法的选择需结合数据特性（类型、规模、分布）和业务需求，实战中建议多算法对比，通过评估指标确定最优方案。

#机器学习 #算法 #聚类

【机器学习】案例1.2——文本分类——20个新闻组（20newsgroups）

20个新闻组（20newsgroups）是自然语言处理（NLP）和机器学习领域的经典文本分类数据集，包含20类新闻文本，本项目选取其中4类（无神论、宗教讨论、计算机图形学、太空科学）作为研究对象。

#机器学习 #分类 #人工智能

共 63 条

请选择