如何獲取目標基因的轉錄因子(上)
生信寶典 · 程式 ·

如何獲取目標基因的轉錄因子(上)

——Biomart下載基因和motif位置信息

科研過程中我們經常會使用Ensembl(http://asia.ensembl.org/index.html) 網站來獲取物種的參考基因組,其中BioMart工具可以獲取物種的基因注釋信息,以及跨資料庫的ID匹配和注釋等。

在參考基因組和基因注釋文件一文中有詳細介紹如何在Ensembel資料庫中獲取參考基因組和基因注釋文件。(點擊藍字即可閱讀)

生信分析中,想要找到感興趣基因的轉錄因子結合位點,該怎麼做呢?

1. 文件準備

首先需要準備以下3個文件,後面兩個文件可以在ensembl網站中下載:

  1. 感興趣基因的名稱列表(1列基因名即可)
  2. 基因組中各基因位置信息列表(6列的bed文件)
  3. 基因組中各轉錄因子結合位點信息列表(5列的bed文件)

2. 什麼是bed文件?

bed格式文件提供了一種靈活的方式來定義數據行,以此描述基因注釋的信息。BED行有3個必須的列和9個可選的列。 每行的數據格式要求一致。

關於bed文件格式的介紹,在https://genome.ucsc.edu/FAQ/FAQformat.html#format1中有詳細說明。

我們需要下載的基因位置信息列表是一個6列的bed文件,每列信息如下:

Chromosome/scaffold name

Gene start (bp)

Gene end (bp)

Gene stable ID

Gene name

Strand

染色體的名稱(例如chr3)

Gene起始位點

Gene終止位點

Gene stable ID

Gene name

定義基因所在鏈的方向,+或-

註:起始位置和終止位置以0為起點,前閉後開。

轉錄因子結合位點列表是一個5列的bed文件,每列信息如下:

Chromosome/scaffold name

Start (bp)

End (bp)

Score

Feature Type

染色體的名稱(例如chr3)

TF起始位點

TF終止位點

Score

轉錄因子的名字

具體內容見後面示例,更方便理解。

3. BioMart數據下載

1. 進入Ensembl主頁後點擊BioMart

1文件準備首先需要準備以下3個文件,後面兩個文件可以在en

2. 使用下拉框-CHOOSE DATASET- 選擇資料庫,我們選則Ensembl Genes 93;這時出現新的下拉框-CHOOSE DATASET- ,選擇目的物種,以Human gene GRCh38.p12為例。如果自己實際操作,需要選擇自己的數據常用的基因組版本。如果沒有歷史包袱,建議選擇GRCh38最新版。

生信分析中,想要找到感興趣基因的轉錄因子結合位點,該怎麼做呢?

3. 選擇資料庫後,點擊Filters對數據進行篩選,如果是對全基因組進行分析可不用篩選, 略過不填

el資料庫中獲取參考基因組和基因注釋文件。(點擊藍字即可閱讀)

4. 點擊Attributes,在GENE處依次選擇1-6列的內容,勾選順序便是結果矩陣中每列的順序。

在參考基因組和基因注釋文件一文中有詳細介紹如何在Ensemb

5. 如上圖中所示,點擊results後跳轉下載頁面,中間展示了部分所選的數據矩陣,確定格式無誤後點擊GO即可下載。

Mart工具可以獲取物種的基因注釋信息,以及跨資料庫的ID匹配和注釋等。

6. 轉錄因子結合位點矩陣的下載類似上面,不過在下拉框-CHOOSE DATASET- 選擇資料庫時,我們選則Ensembl Regulation 93,再選擇Human Binding Motif (GRCh38.p12)

org/indexhtml)網站來獲取物種的參考基因組,其中Bio

7. 在Attributes處選擇需要的信息列,點擊ResultsGO進行數據下載

程中我們經常會使用Ensembl(http://asiaensembl
——Biomart下載基因和motif位置信息科研過

將上述下載的兩個文件分別命名為 GRCh38.gene.bedGRCh38.TFmotif_binding.bed ,在Shell中查看一下:

基因組中每個基因所在的染色體、位置和鏈的信息,以及對應的ENSG編號和Gene symbol。

Chromosome/scaffold name Gene start (bp) Gene end (bp) Gene stable ID Gene3 124792319 124792562 ENSG00000276626 RF00100 -11 92700819 92700934 ENSG00000201317 RNU4-59P -114 100951856 100951933 ENSG00000200823 SNORD114-2 122 45200954 45201019 ENSG00000221598 MIR1249 -11 161699506 161699607 ENSG00000199595 RF00019 1

第五列為人中的轉錄因子,每一行表示每個轉錄因子在基因組範圍的結合位點分布,即其可能在哪些區域有結合motif。這些區域是與TF的結合motif矩陣相似性比較高的區域,被視為潛在結合位點。有程序MEME-FIMOHomer-Findmotifs.pl可以完成對應的工作。

Chromosome/scaffold name Start (bp) End (bp) Score Feature Type14 23034888 23034896 7.391 THAP13 10026599 10026607 7.054 THAP110 97879355 97879363 6.962 THAP13 51385016 51385024 7.382 THAP116 20900537 20900545 6.962 THAP1
聲明:文章觀點僅代表作者本人,PTTZH僅提供信息發布平台存儲空間服務。
喔!快樂的時光竟然這麼快就過⋯
繼續其他精彩內容吧!
more