
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
还在为机器翻译模型从理论到落地卡壳?系列博客第三弹——模型训练篇强势登场,手把手带你走完Transformer中日翻译项目的最后关键一步!前两期我们搞定了数据预处理(分词、词表构建全流程)和模型搭建(词嵌入、位置编码、编码器解码器核心结构),而这一篇,将聚焦让模型“学会翻译”的核心秘籍:如何设计损失函数,让模型精准捕捉中日语言差异?优化器参数怎么调,才能让训练更稳定、收敛更快?从数据到模型,再到训

在当今的人工智能领域,站在风口浪尖的莫过于大语言模型(Large Language Model,LLM),它使得自然语言处理得到了更加广泛的关注!当谈到大语言模型,必不可少的就是它的开山之作GPT系列,而GPT系列又是基于Transformer的解码器结构,因此想要从事该方向,你必不可少要理解Transformer的基本结构。本篇博客主要介绍Transformer的基本结构,包括位置编码、多头自注

书接上回(机器学习实战案例——保险产品推荐(上)),上回说到,由于任务的目的不同,单靠一个准确率去衡量一个模型的好坏是远远不够的,因此需要其他的指标去衡量模型的好坏。本案例的保险产品推荐,是一个二分类问题,因此有相当多的模型可供选择,不限于本篇博客所举例的,本篇博客主要带你了解机器学习实践的过程

保险产品的多样性、客户特征的复杂性以及需求差异使得保险推荐存在相当大的不确定性,如何精准识别用户、降低销售风险、提升推荐成功率,成为当前一个非常热门的研究和应用话题。通过对用户本身属性和过往保险购买记录分析客户特点,可以对广大用户进行个人信息的有效筛选,从购买保险的用户群体中提取共同的特征,进而针对这些特征规律提高投放精准性。本案例是针对移动房车险的预测,其中保险公司提供了以家庭为单位的历史数据,

书接上回(机器学习实战案例——保险产品推荐(上)),上回说到,由于任务的目的不同,单靠一个准确率去衡量一个模型的好坏是远远不够的,因此需要其他的指标去衡量模型的好坏。本案例的保险产品推荐,是一个二分类问题,因此有相当多的模型可供选择,不限于本篇博客所举例的,本篇博客主要带你了解机器学习实践的过程

书接上回(机器学习实战案例——保险产品推荐(上)),上回说到,由于任务的目的不同,单靠一个准确率去衡量一个模型的好坏是远远不够的,因此需要其他的指标去衡量模型的好坏。本案例的保险产品推荐,是一个二分类问题,因此有相当多的模型可供选择,不限于本篇博客所举例的,本篇博客主要带你了解机器学习实践的过程

书接上回,基于分类算法的学习失败预警(上),我们到底选择训练集上效果好的模型,还是测试集上效果好的模型呢?如何判断它是否过拟合了呢?本篇博客将给出答案,同时介绍一些将结果进行可视化的方法。本案例的基于分类算法的学习失败预警,也是一个二分类问题,因此有相当多的模型可供选择,不限于本篇博客所举例的,本篇博客主要带你了解机器学习实践的过程,相对之前案例,增加了数据集的划分,网格搜索、数据可视化等内容。因

生成模型:将原始数据经过特征工程进行统计加工生成新的样本特征,对所有特征进行验证和清洗,剔除缺失值较多的特征。在分类算法中,不平衡的样本对算法影响较大(上次实验已用实验证明,使用不平衡的训练集进行训练,容易出现过拟合,导致模型实际性能较差),所以在模型训练前先对样本进行平衡,通过子采样的方法使两类标签的样本基本相同,同时将数据集划分成训练集和测试集,用于模型训练和验证,经过多轮训练,验证过后最终确

保险产品的多样性、客户特征的复杂性以及需求差异使得保险推荐存在相当大的不确定性,如何精准识别用户、降低销售风险、提升推荐成功率,成为当前一个非常热门的研究和应用话题。通过对用户本身属性和过往保险购买记录分析客户特点,可以对广大用户进行个人信息的有效筛选,从购买保险的用户群体中提取共同的特征,进而针对这些特征规律提高投放精准性。本案例是针对移动房车险的预测,其中保险公司提供了以家庭为单位的历史数据,
