有梦想有行动个人主页

@CSDN_of_ding

有梦想有行动

2022-12-23 17:02:04 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

分布式配置中心Apollo学习

Apollo（阿波罗）是携程框架部门研发的开源配置管理中心，能够集中化管理应用不同环境、不同集群的配置，配置修改后能够实时推送到应用端，并且具备规范的权限、流程治理等特性。

#分布式 #学习

python操作Elasticsearch数据库

Elasticsearch（ES）,ES是一个开源的高扩展的分布式全站搜索引擎，是整个Elastic Stack技术栈的核心。它可以近乎实时的存储、检索数据；本身扩展性很好，可以扩展到上百台服务器，处理PB级别的数据。安装好ES之后，9200端口为浏览器访问的http协议restfu端口Elasticsearch是面向文档型数据库，一条数据在这里就是一个文档。

#python #elasticsearch #数据库

命名实体识别的三种标注方法

1.BMES（四位序列标注法）B表示一个词的词首位值，M表示一个词的中间位置，E表示一个词的末尾位置，S表示一个单独的字词。我/S是/S中/B国/M人/E我/是/中国人/(标注上分出来的实体块)2.BIO（三位序列标注法）B-begin,I-inside,O-outsideB-X代表实体X的开头I-X代表实体的结尾O代表不属于任何类型的3.BIOES（四位序列标注法）B-begin，I-insid

#自然语言处理

word2Vec训练中文模型

本以为so easy，结果搞了一天，记录一下，方便以后回顾，如果能帮到你那最好了！1.准备数据与预处理首先需要一份比较大的中文语料数据，我用的中文维基百科.中文维基百科的数据不是太大，xml的压缩文件大约1G左右。首先用 process_wiki_data.py处理这个XML压缩文件，执行python process_wiki_data.py zhwiki-latest-pages-articl

#自然语言处理 #python

语言模型中unigram、bigram、trigram的概念

语言模型中unigram、bigram、trigram的概念unigram 一元分词，把句子分成一个一个的汉字bigram 二元分词，把句子从头到尾每两个字组成一个词语trigram 三元分词，把句子从头到尾每三个字组成一个词语.softword :视情况而定的分词？？？？？...

#自然语言处理

虽然有transformer但是LSTM并没有过时

虽然有transformer但是LSTM并没有过时在一些小数据集和短文本上里面lstm是由于transformer的，transformer模型太大了，吃数据。如果小数据少的话，用BERT参数这么大的模型，训练会产生严重过拟合，泛化能力也差。...

#自然语言处理

BERT预训练技巧

使用BERT预训练模型进行自然语言的情感分类之BERT训练技巧1. 因为我们是按单个字为单位训练BERT，所以在Masked LM里面，将英文单词所在的区域一起遮盖掉，让模型预测这个部分。2. 很多句子里含有数字，显然在Masked LM中，让模型准确地预测数据是不现实的，所以我们把原文中的数字（包括整数和小数）都替换成一个特殊token，#NUM#，这样模型只要预测出这个地方应该是某些数学就可以

#自然语言处理

Jupyter去使用pytorch的方法

Jupyter去使用pytorch的方法我们的Jupyter是默认在base环境中的，而我们的安装的pytorch虚拟环境可能不在base环境中，那我们在Jupyter中就无法使用pytorch,解决的办法有两种第一种方法：在base中安装pythorch看我之前的博客安装pytorch链接: [link](https://www.csdn.net/).图片:带尺寸的图片:居中的图片:居中并且带尺

#pytorch #自然语言处理

python操作Elasticsearch数据库

#python #elasticsearch #数据库

Transformer中的Layer和heads到底是什么？

上图是Transformer中编码器的部分，谷歌发布的BERT模型中有一个是chinese_L-12_H-768_A-12分别表示的意思是：12个transformer-block768 embedding-dimension(字向量)的维度=76812注意力机制头的个数

#自然语言处理

共 22 条

请选择