logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

自然语言处理(一):自然语言处理与文本分类简介

自然语言处理发展历程从规则驱动到数据驱动的一个过程1990年以前,基于规则的方法基于规则的方法1990-2019,基于统计学的方法离散表示线性模型2012——,基于深度学习的方法神经网络分布式表示非线性模型自然语言处理的主要研究方向文本分类概述在NLP(自然语言处理)的很多子任务中,有绝大部分场景可以归结为文本分类,比如:情感分析领域识别意图识别文本分类的定义在给定的分类体系中,将文本分到指定的某

#机器学习#人工智能#深度学习 +2
python进行语音播报并保存音频

python进行语音播报并保存音频

#python
使用jieba库识别人名地名

设计思想开始是直接使用jieba的飞浆模式去进行标注,发现其分词效果并不好,于是我先用jieba分词,然后使用jieba进行一次词性标注,将名次传入飞浆,这样效果还挺好的代码import pandas as pdimport jiebaimport jieba.posseg as psegjieba.enable_paddle()def get_per_list(text):per_list =

#自然语言处理#nlp
python爬虫:爬取QQ音乐歌曲

描述可以下载QQ音乐免费音乐和绿钻音乐,但是不能下载付费音乐。运行程序后会在同级目录自动创建名为:歌曲下载的文件夹,下载的文件将被放置在此文件夹如果下载的文件大小为1KB,则表示下载失败,这首歌不支持下载源代码如下:# -*- coding: utf-8 -*-import jsonimport osimport requestsheaders = {'Origin': 'https://y.qq

#python#json
[一起学BERT](二):BERT快速使用

基于pytorch1.4BERT模型本质是一种词嵌入模型,也是句子嵌入模型,输入的最大长度是512BERT模型把离散的单词变成了空间中连续的向量,即把一个单词变成向量Bert词向量模型的好处:对比word2vec,包含了语境(context)信息对比ELMo,速度快,并行程度高对比GPT模型,包含双向(bidirectional)语境信息在各类NLP任务上效果出众,例如文本分类、问答、词性标注、实

#机器学习#深度学习#自然语言处理 +2
沸点工作室Java组介绍/后端介绍

后端与Java的不解之缘Java可以理解为一门编程语言,而后端和Java常常挂钩,因为后端开发主要以Java为主(现在有转型的趋势),所以有人会把Java和后端搞混,但其实不然,Java只是一个开发工具,而后端面对的是具体问题。解决问题的方式有很多,Java也只是进行后端开发的一种语言,很多语言都可以进行后端开发,例如:Python、PHP等等,但相比之下,Java是更加适合的,理由可以见下文20

#java#big data
介绍12个Python数据可视化库

介绍Python有很多数据可视化库,这些数据可视化库主要分为探索式可视化库和交互式可视化库。前者透过简单直接的视觉图形,更方便用户看懂原数据,后者主要用于与业务结合过程中展现总体分析结果。探索式可视化库探索式分析最大的优势在于,可以让业务人员在海量数据中“自由发挥”,不受数据模型的限制。通过探索式分析和可视化,业务人员可以快速发现业务中存在的问题。Python探索式可视化库主要包括如下几个。Mat

python爬取搜狗微信指定关键词的全部内容

整体思路使用webdriver登录并搜索,注意,页面的url并不是文章的真实url,需要使用webdriver进行跳转,同时注意切换窗口的handle函数介绍init()---------->用来初始化,即扫码登陆,有10秒暂停时间get_one_page_data()------------->将某个html界面传进来进行解析,然后传出去spyder()---------------

#python#selenium#爬虫
学习python的jieba库,一篇文章就够了

github地址:https://github.com/fxsjy/jieba/介绍中文分词千千万,人生苦短,我用“结巴”。jieba分词库号称是最好用的中文分词库,具有以下特点:支持四种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索

#python#nlp#自然语言处理
    共 49 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择