登录社区云,与社区用户共同成长
邀请您加入社区
本节书摘来自异步社区《R数据可视化手册》一书中的第3章,第3.7节,作者 【美】Winston Chang,更多章节内容可以访问云栖社区“异步社区”公众号查看3.7 绘制堆积条形图问题如何绘制堆积条形图?方法使用geom_bar()函数,并映射一个变量给填充色参数(fill)即可。该命令会将Date对应到x轴上,并以Cultivar作为填充色,如图...
本节书摘来异步社区《Python机器学习——预测分析核心算法》一书中的第2章,第2.6节,作者:【美】Michael Bowles(鲍尔斯),更多章节内容可以访问云栖社区“异步社区”公众号查看。2.6 多类别分类问题:它属于哪种玻璃多类别分类问题与二元分类问题类似,不同之处在于它有几个离散的输出,而不是只有两个。回顾探测未爆炸的水雷的问题,它的输出只...
2017年6月29日,中国杭州阿里巴巴西溪园区,首届数据挖掘前沿发展与未来论坛成功举办。作为阿里巴巴集团、中国中文信息学会和KDD China三方联合打造的国内业界和学界顶尖数据挖掘论坛,会议吸引了来自国内顶级高校和知名企业的近300名专家学者到场参会。众多数据挖掘领域大咖如:阿里巴巴iDST负责人金榕、蚂蚁金服人工智能部技术总监李小龙、IEEE Fe...
编者按:人们可以训练人工智能 (AI)和机器人完成任务,但整个过程在黑箱中运作。我们并不知道 AI 和机器人是如何决策的。一家名为 OptimizingMind 的初创公司想要解决这个问题。这篇文章将讲述该公司对建立透明 AI 决策过程的愿景和大胆尝试。本文发表于 TechRepublic,作者Hope Reese,原标题《Transparent m...
定性数据分析软件(Qualitative Data Analysis Software)提供工具来帮助定性研究,如转录分析,编码和文本解释,递归抽象,内容分析,语义分析和基础理论方法。定性研究中的数据类型包涵,如面对面访谈,电话访谈,电子邮件访问,互联网访谈,焦点组座谈会、德尔菲法,观察笔记和文件整理。CAQDAS是计算机辅助定性数据分析。计算机辅助定性...
本文主要从霸爷的骑行经历开始聊起,进而联系到数据库经历,从初识数据库谈及到云下转入云上,最后重点与大家分享了POLARDB 数据库。今天的电梯访谈我们请来了褚霸和我们聊聊他的骑行与数据库人生。以下是精彩内容整理:骑行有很多乐趣,骑行给我无拘无束的感觉,骑行是一种激情,让我兴奋,享受着超越感。而数据库与骑行对我来说是相通的,坚持去做的事...
第一部分:早期的数据挖掘研究主要针对字符、数值型的商业数据,随着信息技术的不断提高以及移动设备和网络的广泛使用,数据产生的速度越来越快,数据收集的频率越来越高,数据密度的增长越来越显著,这些因素都使得大数据问题成为一种必然的趋势。而在大数据时代下很多商业数据都包含有时间和空间信息,比如设备,建筑,机构等的管理,能量的产生,分布及预测等。IBM SP...
什么是R语言?R语言,一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R本来是由来自新西兰奥克兰大学的罗斯·伊哈卡和罗伯特·杰特曼开发(也因此称为R),现在由“R开发核心团队”负责开发。R基于S语言的一个GNU计划项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行。R的语法是来自Scheme。...
[导读]Medium 用户Đặng Hà Thế Hiển 制作了一张信息图示,用专业、简洁并且最有吸引力的方式——信息图示,讲述计算机视觉(CV)物体识别的现代史。不仅总结了CV 6 大关键技术和目标识别的重要概念,整个信息图示从 2012年 AlexNet 赢得了 ILSVRC(ImageNet大规模视觉识别挑战赛)说起,总结了至今关键的 13 大...
摘要:阿里云的庞都从数据分析着手,介绍了目前在数据分析领域的现状与困难,通过对比系统的阐述了基于阿里云的Quick BI在成本,安全、稳定以及速度上的优势;Quick BI让每个使用者成为了数据分析师,让企业实现数据化运营。直播视频:https://yq.aliyun.com/video/play/1294以下是精彩内容整理:为什么要进行Quick B...
本文来自AI新媒体量子位(QbitAI)深度学习大热以后各种模型层出不穷,很多朋友都在问到底什么是DNN、CNN和RNN,这么多个网络到底有什么不同,作用各是什么?趁着回答《深度学习的主要分类是什么呀?这些网络cnn dbn dnm rnn是怎样的关系?》这个问题的机会,我也想介绍一下主流的神经网络模型。因为格式问题和传播原因,我把原回答内容在这...
基于第一印象 表象的性格自动分析是计算机视觉和多媒体领域中一类非常重要的研究问题。英文中有句谚语叫:“You never get a second chance to make a first impression.”(你永远没有第二个机会去改变你的第一印象。)一个人的第一印象可以用来快速判断其性格特征(Personal traits)及其复...
相比图像,视频多了一维时序信息。如何利用好视频中的时序信息是研究这类方法的关键。视频理解可以用于多个领域,例如在智能安防领域中可以取代人工来对监控视频进行分析。本文简要回顾视频理解方面的近年进展,并对未来可能的研究方向作一展望。常用数据集视频分类主要有两种数据集,剪辑过(trimmed)的视频和未经剪辑的视频。剪辑的视频中包含一段明确的动作,时间较短...
编者按:DRDO研究人员Ayoosh Kathuria深入浅出地介绍了牛顿法、动量法、RMSProp、Adam优化算法。本系列的上一篇文章介绍了随机梯度下降,以及如何应对陷入局部极小值或鞍点的问题。在这篇文章中,我们将查看另一个困扰神经网络训练的问题,病态曲率。局部极小值和鞍点会使训练停滞,而病态曲率则会减慢训练速度,以至于机器学习从业者可能会觉...
1规划(BI系统经典架构)BI系统经典架构,由数据源层、数据仓库层、数据展现层构成,数据源层提供基础数据,数据仓库层存放各种聚合数据,数据展现层按业务场景展示数据。此处的数据仓库层,采用数据分层的设计理念,相对来说实时计算复杂度要求不高的数据放到开源数据库中(如MySQL),实时计算复杂度要求高的数据放到高性能数据库中(如SAPHANA...
模型压缩是在计算资源有限、能耗预算紧张的移动设备上有效部署神经网络模型的关键技术。在许多机器学习应用,例如机器人、自动驾驶和广告排名等,深度神经网络经常受到延迟、电力和模型大小预算的限制。已经有许多研究提出通过压缩模型来提高神经网络的硬件效率。模型压缩技术的核心是确定每个层的压缩策略,因为它们具有不同的冗余,这通常需要手工试验和领域专业知识来探索模型...
一、介绍Redis是当前比较热门的NOSQL系统之一,它是一个key-value存储系统。和Memcache类似,但很大程度补偿了Memcache的不足,它支持存储的value类型相对更多,包括string、list、set、zset和hash。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作。在此基础上,Red...
第1章 准备工作第2章 Python语法基础,IPython和Jupyter第3章 Python的数据结构、函数和文件第4章 NumPy基础:数组和矢量计算第5章 pandas入门第6章 数据加载、存储与文件格式第7章 数据清洗和准备第8章 数据规整:聚合、合并和重塑第9章 绘图和可视化第10章 数据聚合...
人脑模拟深度学习背后的主要原因是人工智能应该从人脑中汲取灵感。此观点引出了“神经网络”这一术语。人脑中包含数十亿个神经元,它们之间有数万个连接。很多情况下,深度学习算法和人脑相似,因为人脑和深度学习模型都拥有大量的编译单元(神经元),这些编译单元(神经元)在独立的情况下都不太智能,但是当他们相互作用时就会变得智能。我认为人们需要了解到...
暑期回家学车的时候,我为了保持自己的学习状态,于是去看《利用Python进行数据分析》。为了能够运行书上的代码,我去GitHub上下载它们随书数据,不经意间发现这本书要在今年10月份出第二版了,图书地址是http://shop.oreilly.com/product/0636920050896.do。感谢搜索...
商业转载请联系作者获得授权,非商业转载请注明出处。提到‘数据库’,首先被想到的肯定是Oracle、DB2、SQL Server、MySql这些传统的关系型数据库。数据库的概念是非常宽泛的,除了上述的关系数据库,还有NoSQL(Not Only SQL)数据库,还有一些基于分布式技术框架(Hadoop、Spark)的大数据存储和处理体系也被称为数据库...
简介金融业最近以极高的速度采用了Python,一些最大的投资银行和对冲基金使用它来构建核心交易和风险管理系统。 针对Python 3进行了更新,本手册的第二版帮助您开始使用该语言,指导开发人员和定量分析师通过Python库和工具构建财务应用程序和交互式财务分析。在整本书中使用实际例子,作者Yves Hilpisch还向您展示了如何基于一个大型的,现...
图(Graph)在讨论GNN之前,我们先来了解一下什么是图。在计算机科学中,图是由顶点和边两部分组成的一种数据结构。图G可以通过顶点集合V和它包含的边E来进行描述。根据顶点之间是否存在方向依赖关系,边可以是有向的,也可以是无向的。图 1有向图顶点也称为节点,在本文中,这两个术语是可以互换。图神经网络图神经网络是一种直接作用于图结构上的...
本系列「数据可视化基础」文章共三篇,介绍可视化中最基础、最重要的一些概念、理论。这篇为第一篇,主要介绍可视化流程,另两篇则主讲数据模型和视觉编码。原文地址:http://geekplux.com/2017/01/0...很多人认为数据可视化非常简单,无非是输入几组数据,生成简单的条形图、直线图等等。然而,这未免有点管中窥豹。其实数据可视...
深度学习概述o受限玻尔兹曼机和深度信念网络oDropouto处理不平衡的技巧oSMOTE:合成少数过采样技术o神经网络中对成本敏感的学习深度学习概述在2006年之前,训练深度监督前馈神经网络总是失败的,其主要原因都是导致过度拟合,即训练错误减少,而验证错误增加。深度网络通常意味着具有多...
本次实战项目的主要目的是分析北京二手房房价,项目源自博文:入门Python数据分析最好的实战项目(一)和入门Python数据分析最好的实战项目(二)。本篇文章仅记录博主在学习过程中的思路。数据分析首先我们要对数据进行分析,可分为以下几个主要步骤:导入数据检查缺失值情况并对表格进行简单处理数据可视化分析这里我们重点要讲的是...
白话解读离线learning部分本质上是将任意时刻任意空间位置离散化为时空网格,根据派单记录(含参加调度但无单的司机)计算该时空网格到当天结束时刻的预期收入。关键问题:怎么计算预期收入?动态规划思路:假设总共有时刻区间为[0, T);先计算T-1时刻的所有网格的预期收入(此时未来收入为0,只有当前收入),其本质就是计算当前收入的均...
原文地址:https://geekplux.com/2018/08/28/how-to-implement-sankey-diagram.html什么是桑基图Google 搜索桑基图,可以搜到一大堆定义。简而言之,桑基图是一种数据流图,展示了数据是如何从左到右流向最后的节点,每条边代表一条数据流,宽度代表数据流的大小。桑基图常用于...
序本文主要研究一下reactive streams的processorsprocessors分类processors既是Publisher也是Subscriber。在project reactor中processor有诸多实现,他们的分类大致如下:direct(DirectProcessor以及UnicastProcessor)synchronous(EmitterProcess...
选自medium机器之心编译机器之心编辑部Faster R-CNN、R-FCN 和 SSD 是三种目前最优且应用最广泛的目标检测模型,其他流行的模型通常与这三者类似。本文介绍了深度学习目标检测的三种常见模型:Faster R-CNN、R-FCN 和 SSD。图为机器之心小编家的边牧「Oslo」被 YOLO 识别为猫随着自动驾驶汽车、智能监控摄像头、面部识别以及大量对人有价值的应用出现,快速、精准的
第一次遇到这些语言时,我下意识觉得有些程序员可能工作不饱和(微笑)。其实这些语言中有一些是为了特定目的而创建的,另一些则是在于挑战和娱乐。总之,非常羡慕这些又聪明又有时间的人了!不多说,看看这 20 种编程语言有多奇怪 ~▎20. reMorsereMorse 语言旨在使代码看起来像莫尔斯码……(why?reMorse 包含四条指令。dash( - )和 dasher( - 后跟空格...
作者:xiaoyu微信公众号:Python数据科学知乎:python数据分析师上一篇和大家分享了一个入门数据分析的一个小项目 北京二手房房价分析,链接如下:数据分析实战—北京二手房房价分析本篇将继续上一篇数据分析之后进行数据挖掘建模预测,这两部分构成了一个简单的完整项目。结合两篇文章通过数据分析和挖掘的方法可以达到二手房屋价格预测的效果。下面从特征工程开始讲述。特征工程特征工...
作者:xiaoyu微信公众号:Python数据科学知乎:python数据分析师圣人曾说过:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。再好的模型,如果没有好的数据和特征质量,那训练出来的效果也不会有所提高。数据质量对于数据分析而言是至关重要的,有时候它的意义会在某种程度上会胜过模型算法。本篇开始分享如何使用Python进行数据分析,主要侧重介绍一些分析的方法...
南洋理工大学的综述论文《Recent Advances in Convolutional Neural Networks》对卷积神经网络的各个组件以及进展情况进行总结和解读,其中涉及到 CNN 中各种重要层的数学原理以及各种激活函数和损失函数。机器之心技术分析师对该论文进行了解读。论文地址:https://arxiv.org/abs/1512.07108引言近段时间来,深度 CNN 已经在多个深度
爱数据学习社welcome“数据分析的目的在于驱动决策”,为了不让这句话成为空话,请先装备以下13种思想武器,相信将来你一定能用上!一、信度与效度思维这部分也许是全文最难理解的部分,但我觉得也最为重要。没有这个思维,决策者很有可能在数据中迷失。信度与效度的概念最早来源于调查分析,但现在我觉得可以引申到数据分析工作的各方面。信度,是指一个数据或指标自身的可靠程度,包括准确性和稳定性取数逻辑是否正确?
出处丨AI前线本文重点介绍了知乎数据分析平台对 Druid 的查询优化。通过自研的一整套缓存机制和查询改造,该平台目前在较长的时间内,满足了业务固化的指标需求和灵活的分析需求,减少了数据开发者的开发成本。背 景知乎作为知名中文知识内容平台,业务增长和产品迭代速度很快,如何满足业务快速扩张中的灵活分析需求,是知乎数据平台组要面临的一大挑战。知乎数据平台团队基于开源的 Druid 打造的业务自助式的数
爱数据学习社welcome在研究或者使用深度学习技术时,大多数人都会被“维度”这个概念搞晕,无论是数据本身还是算法结构,都面对着各种高维的理论概念,正确理解深度学习中和“维度”相关的概念是掌握深度学习方法过程中不可回避的技术瓶颈。数据的高维度问题深度学习的目标是基于某些给定信息对未知变量进行预测。需要预测的变量,一般是单个变量,若是需要预测多个变量,则也拆成多个深度学习模型处理,因此对每个模型还是
【问题】在做LeetCode的Merge Intervals时用到c++的sort函数,一直出这个错误,甚是郁闷。最后终于找到了问题所在。【代码】#include <iostream>#include <algorithm>#include <vector>using namespace std;struct In
单源最短路径给定一个图,和一个源顶点src,找到从src到其它所有所有顶点的最短路径,图中可能含有负权值的边。Dijksra的算法是一个贪婪算法,时间复杂度是O(VLogV)(使用最小堆)。但是迪杰斯特拉算法在有负权值边的图中不适用,Bellman-Ford适合这样的图。在网络路由中,该算法会被用作距离向量路由算法。Bellman-Ford也比迪杰斯特拉算法更简单和同时也适用于分布式...
http://developer.51cto.com/art/200907/134068.htm软件架构设计描述的是事物本身,而敏捷开发描述的是创建这个事物的过程。所以敏捷开发和架构是没有直接替代关系的两个范畴。 敏捷开发对软件架构设计产生了一定的影响,让人产生敏捷开发中“轻架构设计”的印象。文章就笔者经验,和大家一起讨论一下敏捷中的架构设计这个...
0 架构图如下: 问题1: 为何拆分,拆分后读写时是怎么读写的a) 空间利用率上升,eg:传一个10G文件,但是datanode只有9G,那么按块存放最起码还能放9G,b) 便于管理维护,你传一个10G文件,按块上传,突然中断最起码上传了一部分,否则只能从0开始c) 针对以上可以类比与网上卖枪,整个不会让卖,拆成零件,分批发货,到目的地组装...
一次面试被问到了mysql的相关问题,一个是对mysql了解多少,引擎有什么,主要区别是什么?第二个被问的更多,给你一个百万级别的表怎么查询优化:今天整理了一些资料回答第一个问题:总的思想:MyIASM引擎是为了查和增加,效率高。所有功能都围绕这这个Innodb引擎功能更强(事务等)效率低一些。MySQL数据库引擎详解第一篇:原文链接:http...
数据挖掘的任务分为描述性任务(关联分析、聚类、序列分析、离群点等)和预测任务(回归和分类)两种。本文简介预测任务。数据挖掘预测与周易预测有相似之处。周易建立在阴阳二元论基础上,对天地万物进行性状归类(天干地支五行论),精确到可以对事物的未来发展做出较为准确的预测。许多学者认为周易理论依据是万事万物的相似性、关联性和全息性原理。这三个原理已被现代科学所证实。全息性是指事物的某一局部包含了整体的信..
一、层次聚类1 层次聚类的基本概念层次聚类方法是古老而且常用的聚类方法。层次聚类方法又有两种产生层次聚类的基本方法。凝聚的:该方法是自底向上的方法,初始每个对象看做一个簇,每一步合并最相近的簇,最终形成一个簇。分类的:该方法是自顶向下的方法,从包含的所有点的簇开始,每一步分裂一个簇,知道仅剩下单点的簇。本文主要关注凝聚的层次聚类方法。2 簇之间的邻近性在凝聚的层次聚类...
将写好的代码传到github上时,需要先创建一个新的储存库,步骤如下:1.[code="Shell"]touch README.md[/code]创建名为README.md的文件2.[code="Shell"]git init[/code]git初始化3.[code="Shell"]git add README.md[/code]把REA
SVM基本概念简单的说SVM是一种对线性合非线性数据进行分类的方法。以二维数据为例,中间的直线将数据分为两部分,分别用实心的圆点和空心的圆点表示。对于上边的数据可能有很多直线将数据区分开,如下SVM通过搜索最大边缘超平面来选择最合适的超平面,因为具有较大边缘的超平面对于未来的数据分组分类更好的准确性。分离超平面表示为:W*X+b =0位于超平面上方的点满足 ...
最近想在数据挖掘领域做一些事情,以下为整理的相关应用模型,作为下一步工作的参考。模型名称模型类型采用方法应用方面客户分群模型描述性聚类分析客户分级定向营销模型预测性分类回归分析市场开拓定向服务模型描述性关联分析客户维护客户流失模型预测性时间序列分析/神经元网络/决策树客户维护客户评分模型...
一、基本k均值算法1 根据用户指定的参数K,首先选择K个初始化质心;2 然后每个点指派到最近的质心,指派到一个质心的点形成一个簇。3 更新每个簇的质心4重复步骤2、3,直到簇不在发生变化。伪代码描述如下:选择K个点作为初始质心repeat将每个质心指派到最近的质心,形成K个簇重新计算每个簇的质心until 质心不在发生变化二、Orange中K...
好久没有用C++了,最近写paper,发现做实验java的效率确实比不过C++,花点时间稍微翻一下C++的书。整理一些东西1、设置输出精度float pi=3.1415926;cout.precision(3)cout<<pi<<endl;或者cout<<setprecison(3)<<
看了很多数据仓库方面的资料,都涉及到了“数据集市”这一说法,刚开始对数据仓库和数据集市的区别也理解得比较肤浅,现在做个深入的归纳和总结,主要从如下几个方面进行阐述:(1)基本概念(2)为什么提出数据集市(3)数据仓库设计方法论(4)数据集市和数据仓库的区别(5)仓库建模与集市建模(6)案例分析:电信CRM数据仓库Bill Inmon说过一句话叫“IT经理们面对最重要的...
数据结构与算法
——数据结构与算法
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net