阅读是最好的习惯

【原】UCSCXenaTools介绍

【原】UCSCXenaTools介绍

UCSCXenaTools 提供了下载 UCSC Xena 平台数据的 R 客户端,为官方文档 /project/overview-of-features/download-data 所推荐。

lookup(1,0/)的原理

我们经常会看到lookup(1,0/****)这样的公式,本文来介绍lookup函数的这种套路用法。我们先看结论:0/的目的就是把符合条件的变成0,其他的变成错误值,利用lookup查找忽略错误值的特征查找到符合条件的值。【例】在G2中设置公式,根据年级和班级的值,从左表中查找对应的班级人数。G2公式:=LOOKUP(1,0/((A2:A6=E2)*(B2:B6=F2)),C2:C6)Lookup函数的查找原理是二分法。按二分法原理,lookup函数会在在二分位处查找,要想准确查找到,looku 更多

【原】blat简介与格式解读

产生背景2002年的时候,随着人类基因组项目不断推进,需要将大量ESTs(300万) 及mouse基因组的reads (130万)比对到人类基因组来进行注释,而这项任务需要在2周内完成 (90 CPU  Linux 集群),因为blast工具速度相对偏慢,结果也不易处理,无法提供intron 的信息等,因此一款新的比对软件的开发迫在眉睫。为了完成这项任务,W.James Kent(UCSC)开发了一款生物信息学软件BLAT全称为BLAST-Like Alignment Tool。blat的速度大 更多

从 CRAN 安装稳定版本:

从 GitHub 安装开发版本:

如果你想要确保在本地构建好包文档,请添加额外两个选项:

如果存在问题或是 Bug,请到 GitHub Issue 上提问。

UCSC Xena 平台根据数据源分为不同的 data hub,(基本上)所有的数据集都可以在 /datapages/ 找到。

当前 UCSCXenaTools 支持 10 个 data hub:

UCSC Public Hub:

TCGA Hub:

GDC Xena Hub:

ICGC Xena Hub:

Pan-Cancer Atlas Hub:

GA4GH (TOIL) Hub:

Treehouse Hub:

PCAWG Hub:

ATAC-seq Hub:

Singel Cell Xena hub:

如果 data hub 的 URL 改变了,或者有新的 data hub 出现了,请通过邮箱 w_shixiang@163.com 或者 GitHub issue 联系我。

我将该包支持的标准流程分为 5 步,它们分别由对应的函数实现:

生成 XenaHub 对象 —— XenaGenerate()

过滤数据 —— XenaFilter()

检索数据 —— XenaQuery()

下载数据 —— XenaDownload()

导入数据 —— XenaPrepare()

它们可以使用管道符号 %>% 进行连接。

下面通过下载 TCGA hub 的肺癌临床数据进行演示。

UCSCXenaTools 使用包内置数据集 XenaData 辅助生成 XenaHub 对象,这个数据集记录了当前所有数据集的信息。

生成对象并过滤数据集:

有时候我们仅仅知道一些关键字词, XenaScan() 函数可以用于逐行扫描 XenaData 所有的列。

检索和下载:

导入 R :

创建两个 XenaHub 对象

to_browse – 包含 1 个队列 1 个数据集

to_browse2 – 包含 2 个队列 2 个数据集

XenaBrowse() 可以用于浏览数据所在的 UCSC Xena 页面,使用默认浏览器打开。默认情况下,我只允许用户一次打开一个网页,以避免页面过多。

如果你确定你想要浏览多个页面,也可以通过设定实现:

上面描述了该包的核心功能,更多用法可以浏览下面的链接查看:

UCSCXenaTools 详细介绍 – PDF

UCSCXenaTools API – PDF

另外,我在 rOpenSci 上有发表一篇博文讲解如何使用该包下载和清理数据,然后用于生存分析:UCSCXenaTools: Retrieve Gene Expression and Clinical Information from UCSC Xena for Survival Analysis

最近,在和官方开发者交流后,UCSC Xena 平台支持了断点续传的功能,这样下载大型数据集就比较有保障了。下面分别演示了不使用断点续传以及分别使用 curl 或者 wget 进行断点续传。

本文是由官方文档 /web/packages/UCSCXenaTools/vignettes/USCSXenaTools.html 翻译而成。

写在最后

1

生信六周年全国巡讲

南宁、南京、福州

2

广州·数据挖掘课

2天带你玩转GEO

3

生信入门课全国巡讲

11月-福州、上海

生信入门课大纲

1

生信R语言入门

2

GEO数据挖掘

3

生信linux入门

4

转录组课题设计与数据分析

lookup(1,0/)的原理

我们经常会看到lookup(1,0/****)这样的公式,本文来介绍lookup函数的这种套路用法。我们先看结论:0/的目的就是把符合条件的变成0,其他的变成错误值,利用lookup查找忽略错误值的特征查找到符合条件的值。【例】在G2中设置公式,根据年级和班级的值,从左表中查找对应的班级人数。G2公式:=LOOKUP(1,0/((A2:A6=E2)*(B2:B6=F2)),C2:C6)Lookup函数的查找原理是二分法。按二分法原理,lookup函数会在在二分位处查找,要想准确查找到,looku 更多

【原】blat简介与格式解读

产生背景2002年的时候,随着人类基因组项目不断推进,需要将大量ESTs(300万) 及mouse基因组的reads (130万)比对到人类基因组来进行注释,而这项任务需要在2周内完成 (90 CPU  Linux 集群),因为blast工具速度相对偏慢,结果也不易处理,无法提供intron 的信息等,因此一款新的比对软件的开发迫在眉睫。为了完成这项任务,W.James Kent(UCSC)开发了一款生物信息学软件BLAT全称为BLAST-Like Alignment Tool。blat的速度大 更多

赞(0) 打赏
未经允许不得转载:微精选 » 【原】UCSCXenaTools介绍
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏