logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【生信简单文章复现】差异分析+WGCNA+功能富集分析+PPI网络+Hub基因验证

Weighted Gene Co-Expression Network Analysis,加权基因共表达网络,将复杂生物过程的基因共表达网络划分为高度相关的几个特征模块,其代表着机组高度协同变化的基因集,并可将模块与待定的临床特征建立关联,在研究表型性状与基因关联分析等方面的研究中被广泛应用。本文通过差异分析、WGCNA分析、功能富集分析、PPI网络分析以及生存分析,期望找到乳腺癌(BRCA)的靶

文章图片
#r语言#数据分析
【机器学习】R语言实现随机森林、支持向量机、决策树多方法二分类模型

机器学习建模分析后,还要进行调参或交叉验证以提高模型的预测率,就是所谓的“炼丹”。评估模型也应该用多种指标,包括F1 score,Accuracy(准确率),召回率,绘制ROC曲线等。此外,机器学习是一个“黑盒子”模型,在得到模型预测结果后,还应该深一步进行生物学解释,由于目前我的生信分析能力还不足,后续学习到了再分享~

文章图片
#机器学习#r语言#随机森林 +2
【生信】QTL定位与全基因组关联分析(GWAS)

上面的QQ-plot中,X轴表示期望-Log10(p-value)(值越大,说明p-value越小,即越显著),Y轴表示观测的-Log10(p-value),由上图可以看出,在p-value较小时,观测p值和期望p值比较一致,,表型呈非连续变异,而遗传物质的数量呈潜在的连续变异的性状,即只有超过某一遗传阈值时才出现的性状,如动植物包括人类的抗病力、死亡率以及单胎动物的产仔数等性状,称为阈性状(th

文章图片
如何从NCBI上的Gene数据库批量下载基因序列数据

昨天先尝试了python脚本,为了保险起见,先编写了下载一个基因的压缩包数据,后续批量下载只需改一下ID的提供。但是比较有趣的是与官网直接手动下载相比,我编的程序下载的数据刚刚好缺了我最想要的gene.fna数据,也就是做了大半天无用功,真是drama哈哈哈。实现,但是通过Gene和Nucleotide数据库进行检索得到的结果不同,即Gene数据库检索结果不能直接得到fasta序列,它需要手动点击

文章图片
#数据库#python
到底了