如何给sns.clustermap一个预先计算好的距离矩阵?

Mangs

96人浏览 · 2022-08-20 16:02:17

Mangs · 2022-08-20 16:02:17 发布

回答问题

通常当我做树状图和热图时,我使用距离矩阵并做一堆SciPy的东西。我想尝试Seaborn但Seaborn想要我的数据以矩形形式(行 u003d 样本,列 u003d 属性,而不是距离矩阵)?

我本质上想使用seaborn作为后端来计算我的树状图并将其附加到我的热图上。这可能吗?如果没有,这是否可以成为未来的功能。

也许我可以调整一些参数,以便它可以采用距离矩阵而不是矩形矩阵?

这是用法:

seaborn.clustermap¶
seaborn.clustermap(data, pivot_kws=None, method='average', metric='euclidean',
 z_score=None, standard_scale=None, figsize=None, cbar_kws=None, row_cluster=True,
 col_cluster=True, row_linkage=None, col_linkage=None, row_colors=None,
 col_colors=None, mask=None, **kwargs)

我的代码如下:

from sklearn.datasets import load_iris
iris = load_iris()
X, y = iris.data, iris.target
DF = pd.DataFrame(X, index = ["iris_%d" % (i) for i in range(X.shape[0])], columns = iris.feature_names)

在此处输入图像描述

我不认为我的方法在下面是正确的,因为我给它一个预先计算的距离矩阵,而不是它要求的矩形数据矩阵。没有关于如何将相关/距离矩阵与clustermap一起使用的示例,但有https://stanford.edu/~mwaskom/software/seaborn/examples/network_correlations.html但排序不是聚集 w / 普通的sns.heatmap函数。

DF_corr = DF.T.corr()
DF_dism = 1 - DF_corr
sns.clustermap(DF_dism)

在此处输入图像描述

Answers

您可以将预先计算的距离矩阵作为链接传递给clustermap():

import pandas as pd, seaborn as sns
import scipy.spatial as sp, scipy.cluster.hierarchy as hc
from sklearn.datasets import load_iris
sns.set(font="monospace")

iris = load_iris()
X, y = iris.data, iris.target
DF = pd.DataFrame(X, index = ["iris_%d" % (i) for i in range(X.shape[0])], columns = iris.feature_names)

DF_corr = DF.T.corr()
DF_dism = 1 - DF_corr   # distance matrix
linkage = hc.linkage(sp.distance.squareform(DF_dism), method='average')
sns.clustermap(DF_dism, row_linkage=linkage, col_linkage=linkage)

对于clustermap(distance_matrix)(即,没有传递链接),链接是根据距离矩阵中的行和列的成对距离在内部计算的(完整详细信息请参见下面的注释),而不是直接使用距离矩阵的元素(正确的解决方案) )。结果,输出与问题中的输出有些不同:

注意:如果没有row_linkage传递给clustermap(),则行链接是通过将每一行视为一个“点”(观察)并计算点之间的成对距离在内部确定的。所以行树状图反映了行的相似性。与col_linkage类似,其中每一列都被视为一个点。这个解释应该被添加到文档中。这里修改了文档的第一个示例以明确内部链接计算:

import seaborn as sns; sns.set()
import scipy.spatial as sp, scipy.cluster.hierarchy as hc
flights = sns.load_dataset("flights")
flights = flights.pivot("month", "year", "passengers")
row_linkage, col_linkage = (hc.linkage(sp.distance.pdist(x), method='average')
  for x in (flights.values, flights.values.T))
g = sns.clustermap(flights, row_linkage=row_linkage, col_linkage=col_linkage) 
  # note: this produces the same plot as "sns.clustermap(flights)", where
  #  clustermap() calculates the row and column linkages internally

Python

Python社区为您提供最前沿的新闻资讯和知识内容

更多推荐

求助！为什么用InsCode部署会出现无限重定向？

Python

如何重塑熊猫。系列

问题:如何重塑熊猫。系列在我看来,它就像 pandas.Series 中的一个错误。 a = pd.Series([1,2,3,4]) b = a.reshape(2,2) b b 有类型 Series 但无法显示,最后一条语句给出异常,非常冗长,最后一行是“TypeError: %d format: a number is required, not numpy.ndarray”。 b.sha

Python

在哪里可以找到有关 Keras 中默认权重初始化器的文档? [复制]

问题:在哪里可以找到有关 Keras 中默认权重初始化器的文档? [复制] 我刚刚在这里](https://keras.io/initializers/)中阅读了有关[中的 Keras 权重初始化器的信息。在文档中,只介绍了不同的初始化程序。如: model.add(Dense(64, kernel_initializer='random_normal')) 当我没有指定kernel_initia