首页
/
每日頭條
/
科技
/
做生信數據分析包括哪些
做生信數據分析包括哪些
更新时间:2025-08-13 04:26:20

在做生物信息的過程中,經常需要進行各種文件格式。每一種生物軟件都有固定的文件格式要求。因此,需要非常每一種數據的文件格式,從某種意義上來說,生物信息分析的過程就是進行各種文件格式的轉換過程。例如當前很多分析都可以概括為從fastq到bam,從bam到vcf的過程。

fasta文件格式

FASTA文件主要用于存儲生物的序列文件,例如基因組,基因的核酸序列以及氨基酸等,是最常見的生物序列格式,一般以擴展名fa,fasta,fna等。fasta文件中,第一行是由大于号">"開頭的任意文字說明,用于序列标記,為了保證後續分析軟件能夠區分每條序列,單個序列的标識必須是唯一的,序列ID部分可以包含注釋信息。從第二行開始為序列本身,隻允許使用既定的核苷酸或氨基酸編碼符号。序列部分可以在一行,也可以分成多行。

>gi|556503834|ref|NC_000913.3|:190-255 Escherichia coli str. K-12 substr. MG1655, complete genome
ATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA
>gi|556503834|ref|NC_000913.3|:337-2799 Escherichia coli str. K-12 substr. MG1655, complete genome
ATGCGAGTGTTGAAGTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTC
TGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCT
GGTGGCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATT
TTTGCCGAACTTTTGACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAACTTTCG
TCGATCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTGGGGCAGTGCCCGGATAG

fastq文件格式

fastq文件格式是用來存儲測序文件的,它是含有quality的fasta文件。

@DJB775P1:248:D0MDGACXX:7:1202:12362:49613
TGCTTACTCTGCGTTGATACCACTGCTTAGATCGGAAGAGCACACGTCTGAA

JJJJJIIJJJJJJHIHHHGHFFFFFFCEEEEEDBD?DDDDDDBDDDABDDCA
@DJB775P1:248:D0MDGACXX:7:1202:12782:49716
CTCTGCGTTGATACCACTGCTTACTCTGCGTTGATACCACTGCTTAGATCGG

IIIIIIIIIIIIIIIHHHHHHFFFFFFEECCCCBCECCCCCCCCCCCCCCCC
  • 第一行:以‘@’開頭,是這一條read的名字,這個字符串是根據測序時的狀态信息轉換過來的,中間不會有空格,它是每一條read的唯一标識符,同一份FASTQ文件中不會重複出現,甚至不同的FASTQ文件裡也不會有重複;

  • 第二行:測序read的序列,由A,C,G,T和N這五種字母構成,這也是我們真正關心的DNA序列,N代表的是測序時那些無法被識别出來的堿基;

  • 第三行:以‘ ’開頭,在舊版的FASTQ文件中會直接重複第一行的信息,但現在一般什麼也不加(節省存儲空間);
    第四行:測序read的質量值,這個和第二行的堿基信息一樣重要,它描述的是每個測序堿基的可靠程度,用ASCII碼表示。

質量值體系

做生信數據分析包括哪些(生信分析必須了解的4種文件格式)1

做生信數據分析包括哪些(生信分析必須了解的4種文件格式)2

從表中可以看到下限有33和64兩個值,我們把加33的的質量值體系稱之為Phred33,加64的稱之為Phred64(Solexa的除外,它叫Selexa64)。不過,現在一般都是使用Phred33這個體系,而且33也恰好是ASCII的第一個可見字符('!')

sam格式介紹

sam文件主要用來存儲短序列比對的結尾,即将測序數據定位到基因組上的表示形式。

做生信數據分析包括哪些(生信分析必須了解的4種文件格式)3

第一列:是reads ID
第二列:是flag标記的總和
第三列:比對到參考序列上的染色體号。
第四列:為在參考序列上的位置
第五列:比對的質量值,MAPQ
第六列:代表比對結果的CIGAR字符串
第七列:mate比對到的染色體号,若是沒有mate,則是*
第八列:比對到參考序列上的第一個堿基位置
第九列:Template的長度,
第十列:為read的序列
第十一列:為ASCII碼格式的序列質量;

VCF文件格式介紹

VCF是Variant Call Format的簡稱,是一種定義的專門用于存儲基因序列突變信息的文本格式。在生物信息分析中會大量用到VCF格式。例如基因組中的單堿基突變,SNP, 插入/缺失INDEL, 拷貝數變異CNV,和結構變異SV等,都是利用VCF格式來存儲的。将其存儲為二進制格式就是BCF。

做生信數據分析包括哪些(生信分析必須了解的4種文件格式)4

1.CHROM [chromosome]: 染色體名稱,
2.POS [position]: 參考基因組突變堿基位置,如果是INDEL,位置是INDEL的第一個堿基位置。
3.ID [identifier]: 突變的名稱,
4.REF [reference base(s)]:參考染色體的堿基
5.ALT [alternate base(s)]: 與參考序列比較,發生突變的堿基,
6.QUAL [quality]: Phred标準下的質量值
7.FILTER [filter status]:使用其它的方法進行過濾後得到的過濾結果
8.INFO

文件格式介紹:https://genome.ucsc.edu/FAQ/FAQformat.html#format1


,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
華為手機省電小技巧
華為手機省電小技巧
1、第一個可以通過關閉手勢功能進行省電,首先打開華為手機主頁面的設置,找到智能輔助功能選項并打開,找...
2025-08-13
美團版花呗怎麼開通
美團版花呗怎麼開通
1、首先在手機上打開美團客戶端。2、接下來在美團中選擇需要購買的商品,點擊“立即結算”。3、接下來在...
2025-08-13
華為手機屏幕有個白色圓圈怎麼關掉
華為手機屏幕有個白色圓圈怎麼關掉
演示機型:華為P40系統版本:EMUI111、首先打開華為手機的設置圖标進入。2、在設置列表中,點擊底部系統的選項進入。3、點擊進入開發人員選項這個選項。4、進入後,可以看到顯示觸摸操作這個選項後方的開關處于打開的狀态。5、點擊該選項後方的開關,将其關閉即可關閉圓圈。華為小技巧:一、關于截屏:華為手機的截屏功能非常強大而且智能。大部分人的截屏方式是同時按住音量下鍵+電源鍵來實現的。那麼有沒有更快速
2025-08-13
蘋果7plus相機功能怎樣使用
蘋果7plus相機功能怎樣使用
1、如何使用Iphone7plus長焦模式(zoom)?打開相機,在照片”上方會出現一個"1x"的字樣。按住"1x"兩秒不放,出現一道弧線。沿着弧線,自右向左滑動,可以把焦距從1倍變化到1.1倍,1.2倍,1.3倍,最大到10.0倍。選定焦距後,放開手指,即可以該焦距拍照。2、如何使用人像”景深”模式(portraitcameramode)拍照?這個模式适合在旅行時,以遠方景物為背景拍攝人物。一個
2025-08-13
Excel工作簿文件擴展名怎麼看
Excel工作簿文件擴展名怎麼看
1、首先我們在電腦上找到excel2019,沒有這個軟件的話大家可以去下載一個,下載好了之後我們開始下一步。2、之後我們打開excel之後,我們看到文件的默認擴展名為xlsx,之後我們開始下一步。3、之後我們單擊鼠标右鍵,找到打開選項,之後我們開始下一步。4、最後我們點擊打開選項之後,就可以打開我們的excel表格了。
2025-08-13
Copyright 2023-2025 - www.tftnews.com All Rights Reserved