
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在从事数据科学的人中,最常用的工具就是R和Python了,每个工具都有其利弊,但是Python在各方面都相对胜出一些,这是因为scikit-learn库实现了很多机器学习算法。
1、TF-IDF文本相似度分析余弦相似度计算个体间的相似性,即将两个个体的特征向量化,通过余弦公式计算两者之间的相似性。通过计算模型公式可以明确的求出余弦相似度的值。那么对于我们写程序实现这个算法,就是把两个个体转换为向量,然后通过这个公式求出最终解。比如向量a(x1, x2, x3, x4, x5),向量b(y1, y2, y3, y4, y5)。分子为(x1*y1)+(...
1、什么是SolrSolr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对索引、搜索性能进行了优化。Solr可以独立运行,运行在Jetty、Tomcat等这些Servlet容器中,Solr 索引的实现方法很简单,用 POST 方法向 Solr 服务器发送一个描述 F...
1、Oozie的介绍 Oozie是一个工作流引擎服务器,用于运行Hadoop Map/Reduce和Hive等任务工作流.同时Oozie还是一个Java Web程序,运行在Java Servlet容器中,如Tomcat中。Oozie以action为基本任务单位,可以将多个action构成一个DAG图(有向无环图Direct Acyclic Graph.
1、什么是Kafka1、kafka是一个分布式的消息缓存系统2、kafka集群中的服务器都叫做broker3、kafka有两类客户端,一类叫producer(消息生产者),一类叫做consumer(消息消费者),客户端和broker服务器之间采用tcp协议连接4、kafka中不同业务系统的消息可以通过topic进行区分,而且每一个消息topic都会被分区,以分担消息读写的负载5...
1、项目介绍将通话记录数据由原来的oracle系统改造成使用大数据架构解决方案。主要使用hbase做通话数据的存储方案。需要将原有oracle数据导入到hbase中,以及新生成数据通过flume收集到kafka,再通过消费者存储到hbase数据库。hadoop+hbase+flume+zookeeper实现电信级海量通话日志数据的存储,随机访问与实时读写。通过hash技术对rowkey...
1、KNN算法#!/usr/bin/python# -*-coding:utf-8-*-# __author__ = 'ShenJun'import numpy as npimport operatordef knn(k,testdata,traindata,labels):''':param k:表示到最近的k个点,即以最近的k个点的距离来对测试数据所属...
1、数据处理1.1 模块的使用Pandas的使用#!/usr/bin/python# -*-coding:utf-8-*-# __author__ = 'ShenJun'import pandas as pda'''series:系列数据'''a=pda.Series([8,9,2,1])'''结果:08192231dt...
1、正则表达式#!/usr/bin/python# -*-coding:utf-8-*-# __author__ = 'ShenJun'import re'''par="yue"string="http://yum.iqianyue.com"rst1=re.search(par,string)#
1、Spark核心API[SparkContext]连接到spark集群,入口点.[RDD]它是一个分区的集合.弹性分布式数据集.不可变的数据分区集合.基本操作(map filter , persist)分区列表//数据应用给每个切片的计算函数//行为到其他RDD的依赖列表//依赖关系(可...