
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
分布式服务框架:–高性能和透明化的RPC远程服务调用方案–SOA服务治理方案-Apache MINA 框架基于Reactor模型通信框架,基于tcp长连接Dubbo缺省协议采用单一长连接和NIO异步通讯,适合于小数据量大并发的服务调用,以及服务消费者机器数远大于服务提供者机器数的情况分析源代码,基本原理如下:client一个线程调用远程接口,生成一个唯一的ID(比如一段随机字符
数据挖掘主要解决四类问题:分类:预测主题属于(A,B,C)类,前提预先知道分类,根据构造模型算法将输入数据分类,而非一个具体数值(广义预测)-(决策树,Logistic回归,神经网络)聚类:把一个对象划分若干组,核心划分依据,如果选择若干指标(成本,价格,质量)对已有体验用户群进行划分,按指标计算距离归类(K-means聚类,聚类分)根据很多特征,相似分为一组。最大化类内相似性,最小化类间相
一、准备工作 分析较大的dump文件(根据我自己的经验2G以上的dump文件就需要使用以下介绍的方法,不然mat会出现oom)需要调整虚拟机参数 找个64位的系统在MemoryAnalyzer.ini设置-Xmx2g 如果是32位的xp可以使用下面的方法进行尝试:安装jrockit 6.0的JDKmat使用jrockit的jdk来启动Java代码
zookeeper机原理(长连接):Zookeeper 并不是用来专门存储数据的,它的作用主要是用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管。当对目录节点监控状态打开时,一旦目录节点的状态发生变化,Watcher 对象的 process 方法就会被调用。(任何实现org.apache.zookeeper.Watcher类,持有zookeep
这篇文章主要讲kafka producer端的编程,通过一个应用案例来描述kafka在实际应用中的作用。如果你还没有搭建起kafka的开发环境,可以先参考:首先描述一下应用的情况:一个站内的搜索引擎,运营人员想知道某一时段,各类用户对商品的不同需求。通过对这些数据的分析,从而获得更多有价值的市场分析报表。这样的情况,就需要我们对每次的搜索进行记录,当然,不太可能使用数据库区记录这些信息(数
1. 背景介绍 许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征: (1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦; (2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统; (3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平
eclipse mondrian rolap:eclipse配置mondrian3.5 + jpvoit1.8 服务器jettty8,启动报错java.lang.ClassNotFoundException: mondrian.web.servlet.MdxQueryServlet解决方法如下:1)将mondrian.war解压后,lib下jar包拷贝到Dynamic P
Storm:Storm是Twitter开源的分布式实时计算系统,Storm通过简单的API使开发者可以可靠地处理无界持续的流数据,进行实时计算,开发语言为Clojure和Java,非JVM语言可以通过stdin/stdout以JSON格式协议与Storm进行通信。Storm的应用场景很多:实时分析、在线机器学习、持续计算、分布式RPC、ETL处理,等等。storm的优点是全内存计算
git reset & git revert 区别:1. git revert是用一次新的commit来回滚之前的commit,gitreset是直接删除指定的commit。 2. 在回滚这一操作上看,效果差不多。但是在日后继续merge以前的老版本时有区别。因为git revert是用一次逆向的commit“中和”之前的提交,因此日后合并老的branch时,导致这部分改变不会再
当今时代,数据不再昂贵,但从海量数据中获取价值变得昂贵,而要及时获取价值则更加昂贵,这正是大数据实时计算越来越流行的原因。以百 分点公司为例,在高峰期每秒钟会有近万HTTP请求发送到百分点服务器上,这些请求包含了用户行为和个性化推荐请求。如何从这些数据中快速挖掘用户兴趣偏 好并作出效果不错的推荐呢?这是百分点推荐引擎面临的首要问题。本文将从系统架构和算法两方面全介绍百分点公司在实时计算方面的经验和