
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Apollo(阿波罗)是携程框架部门研发的开源配置管理中心,能够集中化管理应用不同环境、不同集群的配置,配置修改后能够实时推送到应用端,并且具备规范的权限、流程治理等特性。

Elasticsearch(ES),ES是一个开源的高扩展的分布式全站搜索引擎,是整个Elastic Stack技术栈的核心。它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。安装好ES之后,9200端口为浏览器访问的http协议restfu端口Elasticsearch是面向文档型数据库,一条数据在这里就是一个文档。

1.BMES(四位序列标注法)B表示一个词的词首位值,M表示一个词的中间位置,E表示一个词的末尾位置,S表示一个单独的字词。我/S是/S中/B国/M人/E我/是/中国人/(标注上分出来的实体块)2.BIO(三位序列标注法)B-begin,I-inside,O-outsideB-X代表实体X的开头I-X代表实体的结尾O代表不属于任何类型的3.BIOES(四位序列标注法)B-begin,I-insid
本以为so easy,结果搞了一天,记录一下,方便以后回顾,如果能帮到你那最好了!1.准备数据与预处理首先需要一份比较大的中文语料数据,我用的 中文维基百科.中文维基百科的数据不是太大,xml的压缩文件大约1G左右。首先用 process_wiki_data.py处理这个XML压缩文件,执行python process_wiki_data.py zhwiki-latest-pages-articl
语言模型中unigram、bigram、trigram的概念unigram 一元分词,把句子分成一个一个的汉字bigram 二元分词,把句子从头到尾每两个字组成一个词语trigram 三元分词,把句子从头到尾每三个字组成一个词语.softword :视情况而定的分词?????...
虽然有transformer但是LSTM并没有过时在一些小数据集和短文本上里面lstm是由于transformer的,transformer模型太大了,吃数据。如果小数据少的话,用BERT参数这么大的模型,训练会产生严重过拟合,泛化能力也差。...
使用BERT预训练模型进行自然语言的情感分类之BERT训练技巧1. 因为我们是按单个字为单位训练BERT,所以在Masked LM里面,将英文单词所在的区域一起遮盖掉,让模型预测这个部分。2. 很多句子里含有数字,显然在Masked LM中,让模型准确地预测数据是不现实的,所以我们把原文中的数字(包括整数和小数)都替换成一个特殊token,#NUM#,这样模型只要预测出这个地方应该是某些数学就可以
Jupyter去使用pytorch的方法我们的Jupyter是默认在base环境中的,而我们的安装的pytorch虚拟环境可能不在base环境中,那我们在Jupyter中就无法使用pytorch,解决的办法有两种第一种方法:在base中安装pythorch看我之前的博客安装pytorch链接: [link](https://www.csdn.net/).图片:带尺寸的图片:居中的图片:居中并且带尺
Elasticsearch(ES),ES是一个开源的高扩展的分布式全站搜索引擎,是整个Elastic Stack技术栈的核心。它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。安装好ES之后,9200端口为浏览器访问的http协议restfu端口Elasticsearch是面向文档型数据库,一条数据在这里就是一个文档。

上图是Transformer中编码器的部分,谷歌发布的BERT模型中有一个是chinese_L-12_H-768_A-12分别表示的意思是:12个transformer-block768 embedding-dimension(字向量)的维度=76812注意力机制头的个数







