victory0508 个人主页

@victory0508

victory0508

2022-06-28 19:24:14 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

基于大数据做文本分析

在对大数据的认识中，人们总结出它的4V特征，即容量大、多样性、生产速度快和价值密度低，为此产生出大量的技术和工具，推动大数据领域的发展。为了利用好大数据，如何有效的从其中提取有用特征，也是重要的一方面，工具和平台化必须依靠正确的数据模型和算法才能凸显出其重要的价值。现在就文本分析作为案例来分析数据处理技术在大数据领域的作用和影响。首先讨论文本分析的三种模型：词袋模型、TF-IDF短语加权表示和

五步评估Ad Hoc报表工具

AdHoc报表工具被组织终端用户用于实时的深度数据分析，这样的解决方案需要具备广泛的功能，比如高度可定制的管理特征业务用户想要的直观的报表模版。实现的业务是资源集中的流程，因此需要确保选择正确的工具。为保证Adhoc报表解决方案被成功采用，需要有一个评估流程。下述5步法可以充分评价报表工具的功能。1. 生成样例报表2. 增加交互3. 使用自己的数据4. 提炼出管理功能5.

Azure虚拟机增加磁盘步骤

1. 新增一块空磁盘2. sudo fdisk -l3. fdisk /dev/sdd4. cat /etc/fstabUUID="4b81d15f-50ac-4ead-8122-6f5eca05002f" /opt ext4 defaults 0 0

Flink流批一体计算（1）：流批一体和Flink概述

数字化经济革命的浪潮正在颠覆性地改变着人类的工作方式和生活方式，数字化经济在全球经济增长中扮演着越来越重要的角色，以互联网、云计算、大数据、物联网、人工智能为代表的数字技术近几年发展迅猛，数字技术与传统产业的深度融合释放出巨大能量，成为引领经济发展的强劲动力。第三，数据口径天然一致。无论是离线的流程，还是实时的流程，都是一套引擎，一套 SQL，一套 UDF，一套开发人员，所以它天然是一致的，不存在

#flink #大数据

tensorflow如何做到分布式计算

I. 从简单开始，首先是单机单卡：服务器是虚拟机，只有CPU，下面程序分别计算加法、乘法#coding=utf-8#单机单卡#对于单机单卡，可以把参数和计算都定义再gpu上，不过如果参数模型比较大，显存不足等情况，就得放在cpu上import tensorflow as tfwith tf.device('/cpu:0'):#也可以放在gpu上 w=

kafka同步数据到ES（nginx filebeat kafka es）

安装配置 nginx步骤1 安装 nginx: yum -y install nginx步骤2 修改 nginx 配置文件中的日志格式:vim /etc/nginx/nginx.conf设置日志打印格式如下：log_format main '[\"$remote_addr\",\"$remote_user\",\"$time_iso8601\",\"$request\"'',\"$status\"

#nginx #linux #运维

docker部署gitlab内存占用过大的解决

1. gitlab几乎占内存50%，需要修改配置文件，进行优化2. vi gitlab.rb注意：所有修改需要掉注释，在注释的情况下默认是服务器上的所有线程。减少数据库缓存postgresql['shared_buffers'] = "64MB"减少数据库并发数postgresql['max_worker_processes'] = 1减少sidekiq并发数sidekiq['concurrenc

#docker #java #服务器

到底了