logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

文本数据清洗

HTML 标签 和 HTML的特殊实体字符。在网页上爬文本后要注意清洗。

文章图片
#nlp
nlp任务中词的权重计算

它是对文档频率的倒数,文档频率指包含某个词的文档数目。TF-IDF(Term Frequency-Inverse Document Frequency): TF-IDF 是将词频和逆文档频率结合起来计算词的权重,用于衡量一个词在文本中的重要程度。这些方法仅是词权重计算的一部分,还有其他方法如基于词共现矩阵的方法、词嵌入(Word Embedding)等也可以用于计算词权重。计算文本中词的权重是自然

文章图片
#自然语言处理#人工智能
jieba.cut(),返回的是生成器对象

生成器对象是一种特殊的迭代器,它并不会立即生成所有的结果,而是在需要时逐个生成,这样可以节省内存和提高效率。当你需要使用分词结果时,可以通过遍历生成器对象或使用。是用于中文分词的函数,它接收一个字符串作为输入,返回一个生成器对象,用于逐个产生分词后的结果。函数返回的确实是一个生成器对象(generator object),而不是一个普通的列表。返回的是一个生成器对象,而不是分词后的结果列表。,而不

#nlp
卷积神经网络基本流程

CNN可以得到图像的局部细节特征(图像中某些线条的弯曲程度等)和空间相关特征(图像中线与线之间的距离等等)从而达到准确的分类和识别。

文章图片
#cnn#人工智能#神经网络
MLP计算过程中的参数初始化,以及激活函数、损失函数的介绍

然而,ReLU 也存在一些问题,如 "Dead ReLU" 问题,即某些神经元在训练过程中可能始终保持不活跃,以及 "Exploding Gradient" 问题,即在某些情况下可能会导致梯度爆炸。Tanh 函数的输出范围在 -1 到 1 之间,这使得它对于一些问题比 Sigmoid 函数更适用,如将输出映射到一个有界的范围。这在某些情况下可能对网络的训练有所帮助。尽管 Sigmoid 函数是非线

文章图片
#机器学习#深度学习#人工智能
报错:C:\cb\pytorch_1000000000000\work\aten\src\ATen\native\cuda\Indexing.cu:699: block: [9,0,0], CUDA

原因:初始化的Embedding词向量集合大小太小(必须要输入的要小),数据没有找到对应词向量,可查看word2index字典大小与词向量集合大小对比分析。

文章图片
#人工智能
到底了