
UCSCXenaTools 提供了下载 UCSC Xena 平台数据的 R 客户端,为官方文档 /project/overview-of-features/download-data 所推荐。
从 CRAN 安装稳定版本:
从 GitHub 安装开发版本:
如果你想要确保在本地构建好包文档,请添加额外两个选项:
如果存在问题或是 Bug,请到 GitHub Issue 上提问。
UCSC Xena 平台根据数据源分为不同的 data hub,(基本上)所有的数据集都可以在 /datapages/ 找到。
当前 UCSCXenaTools 支持 10 个 data hub:
UCSC Public Hub:
TCGA Hub:
GDC Xena Hub:
ICGC Xena Hub:
Pan-Cancer Atlas Hub:
GA4GH (TOIL) Hub:
Treehouse Hub:
PCAWG Hub:
ATAC-seq Hub:
Singel Cell Xena hub:
如果 data hub 的 URL 改变了,或者有新的 data hub 出现了,请通过邮箱 w_shixiang@163.com 或者 GitHub issue 联系我。
我将该包支持的标准流程分为 5 步,它们分别由对应的函数实现:
生成 XenaHub 对象 —— XenaGenerate()
过滤数据 —— XenaFilter()
检索数据 —— XenaQuery()
下载数据 —— XenaDownload()
导入数据 —— XenaPrepare()
它们可以使用管道符号 %>% 进行连接。
下面通过下载 TCGA hub 的肺癌临床数据进行演示。
UCSCXenaTools 使用包内置数据集 XenaData 辅助生成 XenaHub 对象,这个数据集记录了当前所有数据集的信息。
生成对象并过滤数据集:
有时候我们仅仅知道一些关键字词, XenaScan() 函数可以用于逐行扫描 XenaData 所有的列。
检索和下载:
导入 R :
创建两个 XenaHub 对象
to_browse – 包含 1 个队列 1 个数据集
to_browse2 – 包含 2 个队列 2 个数据集
XenaBrowse() 可以用于浏览数据所在的 UCSC Xena 页面,使用默认浏览器打开。默认情况下,我只允许用户一次打开一个网页,以避免页面过多。
如果你确定你想要浏览多个页面,也可以通过设定实现:
上面描述了该包的核心功能,更多用法可以浏览下面的链接查看:
UCSCXenaTools 详细介绍 – PDF
UCSCXenaTools API – PDF
另外,我在 rOpenSci 上有发表一篇博文讲解如何使用该包下载和清理数据,然后用于生存分析:UCSCXenaTools: Retrieve Gene Expression and Clinical Information from UCSC Xena for Survival Analysis
最近,在和官方开发者交流后,UCSC Xena 平台支持了断点续传的功能,这样下载大型数据集就比较有保障了。下面分别演示了不使用断点续传以及分别使用 curl 或者 wget 进行断点续传。
本文是由官方文档 /web/packages/UCSCXenaTools/vignettes/USCSXenaTools.html 翻译而成。
写在最后
1
生信六周年全国巡讲
南宁、南京、福州
2
广州·数据挖掘课
2天带你玩转GEO
3
生信入门课全国巡讲
11月-福州、上海
生信入门课大纲
1
生信R语言入门
2
GEO数据挖掘
3
生信linux入门
4
转录组课题设计与数据分析