NT的启动子数据集说明(来源于GENCODE)

张开发
2026/4/16 17:37:18 15 分钟阅读

分享文章

NT的启动子数据集说明(来源于GENCODE)
来源于https://www.gencodegenes.org/human/release_44.html怎么划分的原始数据是什么它用了两个官方文件promoter 坐标文件Hs_EPDnew_006_hg38.bedhttps://epd.expasy.org/ftp/epdnew/H_sapiens/006/Hs_EPDnew_006_hg38.bedmotif 注释文件promoter_motifs.txthttps://epd.expasy.org/ftp/epdnew/H_sapiens/006/db/promoter_motifs.txt其中 bed 文件里的每一条 promoter长度都是 60bp对应论文里说的49bp upstream 10bp downstream of TSSNT 是怎么处理的先读取 Hs_EPDnew_006_hg38.bed 里的所有 human promoter。用 promoter_motifs.txt 给每条 promoter 打标签TATA-box 1 - TATA promoterTATA-box 0 - non-TATA promoter再把原始 promoter 区间变成固定长度的 300bp 序列窗口作为正样本候选。从基因组里找所有“不和任何 promoter 重叠”的 300bp 窗口作为负样本候选。去掉含 N 的序列。按染色体切分chr20 和 chr21 作为 test其他染色体作为 train对每个任务把负样本下采样到和正样本一样多。再做随机下采样控制 benchmark 规模。三个任务是怎么来的同一批 promoter 和同一批 non-promoter 负样本被拆成了 3 个二分类任务Promoter all正样本所有 promoter负样本不和任何 promoter 重叠的 300bp 窗口Promoter TATA正样本只有 TATA promoter负样本不和任何 promoter 重叠的 300bp 窗口Promoter no-TATA正样本只有 non-TATA promoter负样本不和任何 promoter 重叠的 300bp 窗口你本地发布版数据也能看出这个关系promoter_all test792 正样本promoter_tata test106 正样本promoter_no_tata test686 正样本怎么下载数据集呢这里的 CHR / ALL / PRI 是在说这个注释文件覆盖的是哪一类基因组区域不是文件格式。你可以这样理解CHR只包含标准参考染色体也就是常见的 chr1 到 chr22、chrX、chrY、chrM 这类主染色体。这是最“干净”、最常用的一版。ALL包含所有区域不只是标准染色体还包括scaffoldsassembly patchesalternate loci / haplotypes这一版最全但也最复杂。PRI表示Primary assembly通常是主染色体再加上一些 primary assembly 里的 scaffolds它比 CHR 更大但又没有 ALL 那么杂。你可以把它们记成范围大小CHR最精简PRI中间ALL最全为什么会有这些区别因为人类参考基因组不只有 chr1~chr22,X,Y 这些主染色体还可能有未定位 scaffoldpatchalternate haplotype 区域不同分析需求要的范围不一样所以 GENCODE 给了多个版本。

更多文章