logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

利用word2vec创建中文主题词典——以网络暴力关键词为例

本文主要是记录一下自己过滤分类信息的一个步骤。主要目的是从爬取的素材中得到一个集中、有效的、有关网络暴力的中文词库。主要思路是将已分词的素材 source.txt通过 word2vec 训练出一个模型 vectors.bin,再把人工挑选的种子库 feed.txt 中的种子输入模型,得到相似的词,最后获得词库。目录文本预处理准备语料构建种子库Word2vec模拟Linux环境(Cygwin)wor

#数据挖掘#自然语言处理
清华 ChatGLM-6B 中文对话模型部署简易教程

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反

文章图片
#语言模型#nlp#自然语言处理 +1
清华 ChatGLM-6B 中文对话模型部署简易教程

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反

文章图片
#语言模型#nlp#自然语言处理 +1
到底了