logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

语言模型 Probability Based: Language Model

涉及数学知识点:条件概率、独立概率语句(string)模型的概率(0~1之间)就是每个词在后面词出现的条件下的条件概率的乘积1-gram就是后面的词(不是一个word,是一个词,一个或多个word)只统计一个的条件概率,2-gram就是后面统计两个的条件概率。准备数据:import randomimport pandas as pdfilename = '/home/wangwensong/Cha

BM25检索算法 python

BM25(Best Matching 25)是一种经典的信息检索算法,是基于 TF-IDF算法的改进版本,旨在解决、TF-IDF算法的一些不足之处。其被广泛应用于信息检索领域的排名函数,用于估计文档D与用户查询Q之间的相关性。它是一种基于概率检索框架的改进,特别是在处理长文档和短查询时表现出色。BM25的核心思想是基于词频(TF)和逆文档频率(IDF)来,同时还引入了文档的长度信息来计算文档D和查

文章图片
#python#nlp
多头注意力(MultiHeadAttention)python实现

【代码】手撕多头注意力(MultiHeadAttention)python 笔记。

文章图片
#python#深度学习
常见的前后端鉴权方式

Session-CookieToken 验证(包括 JWT,SSO)OAuth2.0(开放授权)常见的加密算法哈希算法 (Hash Algorithm) 又称散列算法、散列函数、哈希函数,是一种从任何一种数据中创建小的数字 “指纹” 的方法。哈希算法将数据重新打乱混合,重新创建一个哈希值。哈希算法主要用来保障数据真实性 (即完整性),即发信人将原始消息和哈希值一起发送,收信人通过相同的哈希函数来校

机器学习 Python库 乱记录

MLflow是一个平台,帮助你从头到尾管理你的机器学习实验,确保可追溯性和可重复性。它提供了一个集中的存储库,用于存储你的代码、数据和模型工件,以及一个跟踪系统,记录你所有的实验,包括超参数、指标和输出。

文章图片
#机器学习#python
python实现word内容替换

python实现word内容替换

#python
Ubuntu20安装opencv3.1

为啥选3.1不选更新的版本,因为太难了,总是装不好....好不容易装好一个,抓紧记录一下准备工作安装synaptic软件包管理器,后期安装丢失的包(可选项,也可以不安装)sudo apt-get -y install synaptic安装g++、gccsudo apt-get -y install g++ gcc安装anadonda3,找到下载好的安装包然后./Anaconda3-2020.02-

Tensorflow 电影评论文本分类

'''使用评论文本将影评分为积极(positive)或消极(nagetive)两类。这是一个二元(binary)或者二分类问题,一种重要且应用广泛的机器学习问题。我们将使用来源于网络电影数据库(Internet Movie Database)的 IMDB 数据集(IMDB dataset),其包含 50,000 条影评文本。从该数据集切割出的25,000条评论用作训练,另外 25,000 条用作测

    共 65 条
  • 1
  • 2
  • 3
  • 7
  • 请选择