bulingg 个人主页

@bulling

bulingg

2024-03-31 14:10:20 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

深度学习——过拟合和欠拟合处理

深度学习中过拟合和欠拟合的处理方式

#深度学习 #人工智能 #机器学习

机器学习各类算法的优缺点

介绍常见机器学习模型的优缺点，比如逻辑回归，k近邻，朴素贝叶斯，支持向量机

#机器学习 #算法 #人工智能

NLP中常见的tokenize方式及token类型

不同的任务和应用可能需要不同类型的tokens。例如，在机器翻译中可能会使用子词tokens来处理未知词汇，而在文本分类任务中，则可能更倾向于使用单词tokens。在选择tokenizer时，需要考虑文本的特点、处理任务的需求以及计算资源。通常，基于机器学习的tokenizer虽然性能较好，但计算成本也更高，而简单的基于规则的tokenizer则适用于快速处理或资源有限的场景。Tokenizer是

#自然语言处理 #人工智能

Bert详解

BERT的网络架构使用的是《Attention is all you need》中提出的多层Transformer结构。其最大的特点是抛弃了传统的RNN和CNN，通过Attention机制将任意位置的两个单词的距离转换成1，有效的解决了NLP中棘手的长期依赖问题。Transformer的结构在NLP领域中已经得到了广泛应用。

#bert #人工智能 #深度学习

机器学习各类算法的优缺点

介绍常见机器学习模型的优缺点，比如逻辑回归，k近邻，朴素贝叶斯，支持向量机

#机器学习 #算法 #人工智能

SVM中常用的核函数及适用场景

核函数（Kernel functions）在机器学习中尤其是在支持向量机（SVM）中扮演着重要的角色，它们能够将数据映射到高维空间，从而解决非线性问题。在实际应用中，选择核函数通常取决于问题的具体需求和数据集的特性。通常需要通过交叉验证等方法来调整核函数的参数，以达到最佳的模型性能。

#支持向量机 #算法 #机器学习

长尾问题定义及如何解决长尾分布问题

长尾问题（Long Tail Problem）是指在某些数据分布中，少数类别（或事件）出现的频率非常高，而多数类别（或事件）出现的频率非常低。这个现象在很多实际应用中都存在，比如电子商务中的商品销售、自然语言处理中的词频分布、推荐系统中的用户行为等。在长尾分布中，头部（高频部分）占据了大部分的关注和资源，而尾部（低频部分）包含了大量的类别，这些类别虽然单独出现的频率低，但总量却非常大。解决长尾问题

#算法

python求解中位数

如果数组长度n为奇数，则(n+1)/2处对应值为中位数，如果数组下标从0开始，还需要减去1。如果数组长度n为偶数，则n/2,n/2+1两个位置数的平均值为中位数。首先将数组nums进行排序，然后找到中间位置的数值。假设中位数为x，并采用大小根堆来存储元素。

#python #开发语言

常用的回归损失函数

对于选择损失函数，需要考虑模型的具体需求和数据的特点。例如，如果数据包含许多异常值，可能会选择Huber损失或MAE来减少异常值的影响。如果模型需要惩罚大的误差，MSE或RMSE可能是更好的选择。

#回归 #数据挖掘 #人工智能

到底了