logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

python一直爬取网易商城(原生)

这是我接的一个单,一天写完。首先你要知道反爬虫是什么?打败反爬虫很简单。你要模仿用户。1.不同的ip(动态ip)2.随机爬取时间3.随机的用户请求头(访问网易的设备信息随机改变)我的代码如下。# S=s.decode('UTF8','ignore')import requestsimport sysimport socketimport jsonimport jsonpathimport time

cdh zookeeper报错 Canary 测试建立与 ZooKeeper 服务的连接或者客户端会话失败。

我一直纳闷这个是什么问题,搜索了半天没有结果,因为别人没有遇到过。后面我重新搭建了另一套cdh,然后看了一下默认的配置,然后更新上去才发现的。改完zookeeper就启动成功了。

文章图片
#zookeeper#分布式#云原生
中文语音标注工具FunASR(语音识别)

全称(一个语音识别工具)可能大家用过whisper(openAi),它【标注英语的确很完美】,【但中文会出现标注错误】或搞了个没说的词替换上去,所以要人工核对,麻烦。FunASR作用:能【准确】识别语音,并转成【文字、标出声调】他的原理,就不讲了,俺是搞大数据的,python这东西就勉强能写个爬虫和接口,机器学习和ai相关的算法是0基础。

文章图片
#语音识别#人工智能
cdh的hue上oozie启动报错,Cannot allocate containers as requested resource is greater than maximum allowed

我感觉很狗屁,于是我加大oozie的资源为2G,然后把yarn容器资源调成2.5G(在oozie和yarn的配置中)网上说是正常的,在hue中是看不到原因。需要获取他的外部地址,去oozie页面看。这是一个日志,相当于没有日志,只要是出错了,都会导致这种情况。这里我们修改oozie的默认值,将原来的2G改成了500MB。原因是,oozie启动资源默认,需要2GB。1.修改yarn资源调度的内存。2

#hadoop#大数据
通俗易懂解释知识图谱(Knowledge Graph)

由于博客园网站出现了问题,很多大量的优质博客无法访问,所以这里搬运一篇对大家学习及构建知识图谱有帮助的文章0. 目录1. 前言2. 知识图谱定义3. 数据类型和存储方式4. 知识图谱的架构4.1 逻辑架构4.2 技术架构5. 信息抽取5.1 实体抽取(Entity Extraction)5.2 关系抽取(Relation Extraction)5.3 属性抽取(Attribute Extracti

#知识图谱
kantts个性化自动化训练

audio是存放原始音频的位置,auto_train_main是核心自动化代码。官网的都是手动训练,我做了一个自动化训练,执行一下,然后全部就能训练完。

文章图片
#自动化#人工智能#深度学习
TDengine负载均衡测试(运维场景)

负载均衡就是分摊到多台机器上执行,而且是不用改代码的(非侵入式)比如我搭建ABC三台机器,使用了负载均衡,当我访问A的时候,他就会把任务分配给B和C。如果B挂了,那A会把任务【都】发送到C。

#运维#tdengine#服务器
Mysql使用sql获取json字符串的数组长度

select JSON_LENGTH(affect_json) from (SELECT affect,REPLACE(affect,"'",'"') affect_json FROM `vulnerability` limit 10)t1第一步首先ba

#json#mysql
python爬虫爬取视频

通过5分钟的python学习,发现使用python爬虫下载视频真的是简单。我爬取的是https://www.leimulamu.com/play/5d30393cf1caf4594813612b这里使用谷歌浏览器(方便调试)按f12先找一下视频传输过来的源头(也就是你为什么能看到画面),画面有好几种,最简单的是mp4这里是一个一个ts包然后这里我们需要requests导入这...

    共 131 条
  • 1
  • 2
  • 3
  • 14
  • 请选择