
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
描述了潜在语义分析中的单词向量模型和话题向量模型,以及两者之间的映射和推到;然后介绍了概率潜在语义分析的基本概念,生成模型和共现模型

参数模型,非参数模型,生成式模型,判别式模型,模型选择和评估

归一化在深度学习中的应用包括批量归一化(Batch Normalization)、层归一化(Layer Normalization)、组归一化(Group Normalization)和实例归一化(Instance Normalization)等。这些技术在不同的网络结构和任务中有着广泛的应用,是现代深度学习架构中不可或缺的一部分。Batch Norm:把每个Batch中,每句话的相同位置的字向量

介绍transformer中各个组件的原理,包括attention,resnet,layer normalization,position encoding等

对于选择损失函数,需要考虑模型的具体需求和数据的特点。例如,如果数据包含许多异常值,可能会选择Huber损失或MAE来减少异常值的影响。如果模型需要惩罚大的误差,MSE或RMSE可能是更好的选择。

介绍常见机器学习模型的优缺点,比如逻辑回归,k近邻,朴素贝叶斯,支持向量机

类别不平衡(class-imbalance)就是指分类任务中不同类别的训练样例数目差别很大的情况。

介绍了聚类算法中常用知识点,包括距离或相似度,类间距离的定义,以及层次聚类和Kmeans聚类算法

深度学习中过拟合和欠拟合的处理方式

不同的任务和应用可能需要不同类型的tokens。例如,在机器翻译中可能会使用子词tokens来处理未知词汇,而在文本分类任务中,则可能更倾向于使用单词tokens。在选择tokenizer时,需要考虑文本的特点、处理任务的需求以及计算资源。通常,基于机器学习的tokenizer虽然性能较好,但计算成本也更高,而简单的基于规则的tokenizer则适用于快速处理或资源有限的场景。Tokenizer是
