Genomics연구중 대량서열결정작업. (대량 DnaSequencing) 다양한 방법이 사용된다. 직접 WholeGenomeShotGun및 CloneByCloneMethod방법으로 직접 Genome서열을 결정할 수 도 있으며, cDNA library의 서열결정작업을 통해 EST연구를 수행할 수도 있다.
다양한 형태의 서열들을 가지고 연구하게 된다.
방법들
사용되는 프로그램들
base calling : Phred
phd to FastaFormat : phd2fasta
vector masking : CrossMatch, VecScreen
RepetitiveSequence masking : RepeatMasker
Contig viewer : Consed
일반적인 프로그램 사용법
$ phred -id chromat_dir -pd phd_dir -dd poly_dir -log $ phd2fasta -id phd_dir -os seqs_fasta -oq seqs_fasta.qual $ cross_match seqs_fasta vector.seq -minmatch 12 -minscore 20 -screen > screen.out $ phrap seqs_fasta.screen -new_ace > phrap.out
GeneticMap을 기초로 작업해서, PhysicalMap을 만들게 된다.
결과Database
관련기술들
관련기업
관련서적
Useful information
WellConvertor.py : 384well 과 96well의 변환을 위한 스크립트
미국에서는 Genome Sequencing의 cost를 줄이고, 분석방법을 발전시키기 위한 연구비를 책정하고, 선정하였다. 관련내용
각종 스크립트
ace 파일의 xls 변환 : ace2xls.py
1 from Bio.Sequencing import Ace
2
3 def main(ifile, ofile):
4 ofile.write('\t'.join([
5 'Contig', 'Contig length', 'No of reads', 'No of segments', 'U or C',
6 'Read name', 'Padded bases',
7 'align start', 'align end'
8 ])+'\n')
9 for contig in Ace.Iterator(ifile, Ace.RecordParser()):
10 if contig:
11 for read in contig.reads:
12 ofile.write('\t'.join(map(str,[
13 contig.name, contig.nbases, contig.nreads, contig.nsegments, contig.uorc,
14 read.rd.name, read.rd.padded_bases,
15 read.qa.align_clipping_start, read.qa.align_clipping_end,
16 ]))+'\n')
17
18 if __name__=='__main__':
19 import sys
20 main(sys.stdin, sys.stdout)