mds聚类matlab,机器学习C9笔记:MDS聚类可视化

MDS简介MDS是一个统计技术集合,用于可视化地描述距离集合中的相似性和差异性.对于经典的MDS的处理过程包括:输入一个包含数据集中任意两个数据点之间距离的距离矩阵,返回一个坐标集合,这个集合可以近似反应每对数据点之间的距离.之所以说是近似反应,是因为在二维空间中很可能不存在被一组距离分开的点集. 例如: 3个彼此之间距离都是1的点,是一个等边三角形的顶点.因此,不可能另外一个点到这个三角形的三个

Shayla Luis

498人浏览 · 2021-03-23 20:32:12

Shayla Luis · 2021-03-23 20:32:12 发布

MDS简介

MDS是一个统计技术集合,用于可视化地描述距离集合中的相似性和差异性.对于经典的MDS的处理过程包括:输入一个包含数据集中任意两个数据点之间距离的距离矩阵,返回一个坐标集合,这个集合可以近似反应每对数据点之间的距离.

之所以说是近似反应,是因为在二维空间中很可能不存在被一组距离分开的点集. 例如: 3个彼此之间距离都是1的点,是一个等边三角形的顶点.因此,不可能另外一个点到这个三角形的三个顶点的距离都是1.

MDS简单应用

构建距离矩阵

library('foreign')

library('ggplot2')

# 构建不用样本对p1-6的评价矩阵1 0 -1表示

set.seed(851982) # To make sure results are consistent

ex.matrix

row.names(ex.matrix)

colnames(ex.matrix)

数据如下

P1 P2 P3 P4 P5 P6

A 0 -1 0 -1 0 0

B -1 0 1 1 1 0

C 0 0 0 1 -1 1

D 1 0 1 -1 0 0

构建相似性矩阵

这里用A*t(A)表示不同样本间的相似性

ex.mult

数据如下

A B C D

A 2 -1 -1 1

B -1 4 0 -1

C -1 0 3 -1

D 1 -1 -1 3

计算欧氏距离

ex.dist

数据如下

A B C

B 6.244998

C 5.477226 5.000000

D 2.236068 6.782330 6.082763

MDS进行可视化

# Visualize clusters

ex.mds

plot(ex.mds, type = 'n')

text(ex.mds, c('A', 'B', 'C', 'D'))

结果:

A B C

B 6.244998

C 5.477226 5.000000

D 2.236068 6.782330 6.082763

书中投票分类例子

dataclean

收集数据文件名

library('foreign')

library('ggplot2')

data.dir

data.files

#[1] "sen101kh.dta" "sen102kh.dta"

#[3] "sen103kh.dta" "sen104kh.dta"

#[5] "sen105kh.dta" "sen106kh.dta"

#[7] "sen107kh.dta" "sen108kh_7.dta"

#[9] "sen109kh.dta" "sen110kh_2008.dta"

#[11] "sen111kh.dta"

foreign包读取dta数据

rollcall.data

function(f)

{

read.dta(file.path(data.dir, f), convert.factors = FALSE)

})

# Ninth code snippet

dim(rollcall.data[[1]])

#[1] 103 647

head(rollcall.data[[1]])

#cong id state dist lstate party eh1 eh2 name V1 V2 V3 ... V638

#1 101 99908 99 0 USA 200 0 0 BUSH 1 1 1 ... 1

#2 101 14659 41 0 ALABAMA 100 0 1 SHELBY, RIC 1 1 1 ... 6

#3 101 14705 41 0 ALABAMA 100 0 1 HEFLIN, HOW 1 1 1 ... 6

#4 101 12109 81 0 ALASKA 200 0 1 STEVENS, TH 1 1 1 ... 1

#5 101 14907 81 0 ALASKA 200 0 1 MURKOWSKI, 1 1 1 ... 6

#6 101 14502 61 0 ARIZONA 100 0 1 DECONCINI, 1 1 1 ... 6

按照document清洗数据

rollcall.simplified

{

no.pres

for(i in 10:ncol(no.pres))

{

no.pres[,i] 6, 0, no.pres[,i])

no.pres[,i] 0 & no.pres[,i] < 4, 1, no.pres[,i])

no.pres[,i] 1, -1, no.pres[,i])

}

return(as.matrix(no.pres[,10:ncol(no.pres)]))

}

rollcall.simple

计算mDS(important part)

# and calculate the Euclidan distance between each Senator.

rollcall.dist

构建MDS数据矩阵

congresses

for(i in 1:length(rollcall.mds))

{

names(rollcall.mds[[i]])

congress

congress.names

function(n) strsplit(n, "[, ]")[[1]][1])# [, ]正则表达式有逗号或空格就拆分字符串

rollcall.mds[[i]]

name = congress.names,

party = as.factor(congress$party),

congress = congresses[i])

}

head(rollcall.mds[[1]])

mds图形化

base.110

scale_size(range = c(2,2), guide = 'none') +

scale_alpha(guide = 'none') +

theme_bw() + #bw背景

theme(axis.ticks = element_blank(), axis.text.x = element_blank(), axis.text.y = element_blank(), panel.grid.major = element_blank()) +

ggtitle("Roll Call Vote MDS Clustering for 110th U.S. Senate") +

xlab("") +# 无横纵坐标名

ylab("") +

scale_shape(name = "Party", breaks = c("100", "200", "328"), #按照不同的Party画不同shape的points labels = c("Dem.", "Rep.", "Ind."), solid = FALSE) +# 标签

scale_color_manual(name = "Party", values = c("100" = "black", "200" = "dimgray", "328"="grey"), breaks = c("100", "200", "328"), labels = c("Dem.", "Rep.", "Ind."))

print(base.110 + geom_text(aes(color = party, alpha = 0.75, label = cong.110$name,#在x,y处画名字 size = 2)))

按不同届的国会记录画多图

# Fourteenth code snippet

# Create a single visualization of MDS for all Congresses on a grid

all.mds

all.plot

geom_point(aes(shape = party, alpha = 0.75, size = 2)) +

scale_size(range = c(2, 2), guide = 'none') +

scale_alpha(guide = 'none') +

theme_bw() +

theme(axis.ticks = element_blank(), axis.text.x = element_blank(), axis.text.y = element_blank(), panel.grid.major = element_blank()) +

ggtitle("Roll Call Vote MDS Clustering for U.S. Senate (101st - 111th Congress)") +

xlab("") +

ylab("") +

scale_shape(name = "Party", breaks = c("100", "200", "328"), labels = c("Dem.", "Rep.", "Ind."), solid = FALSE) +

facet_wrap(~ congress)

print(all.plot)

亚马逊云科技技术品牌专区

更多推荐

STM32节点移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）

STM32移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）前言前言在移植协议之前，先给大家科普一下Lora 和 lorawan 的区别。LoRa 是LPWAN通信技术中的一种，是美国Semtech公司采用和推广的一种基于扩频技术的超远距离无线传输方案。这一方案改变了以往关于传输距离与功耗的折衷考虑方式为用户提供一种简单的能实现远距离、长电池寿命、大容量的系统，进而扩...

亚马逊云科技技术品牌专区

物联网主机E6000引领工业自动化的新篇章

亚马逊云科技技术品牌专区

搞 IoT 物联网，你居然要懂这么多种协议...

物联网协议是指在物联网环境中用于设备间通信和数据传输的协议。根据不同的作用，物联网协议可分为传输协议、通信协议和行业协议。传输协议：一般负责子网内设备间的组网及通信。例如 Wi-Fi、Ethernet、NFC、 Zigbee、Bluetooth、GPRS、3G/4G/5G等。这些协议能够确保在网络上传输的数据的安全性和可靠性。通讯协议：主要是运行在传统互联网TCP/IP协议之上的设备通讯协议，负责