Size: 1454
Comment:
|
Size: 1459
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 13: | Line 13: |
SeeAlso PhredScoreParsing, YongsLib:FastaConvertor | SeeAlso PhredScoreParsing, YongsLib:wiki/FastaConvertor |
NucleicAcid인 [DNA]는 DoubleHelix이다. 이 두 가닥은 반대방향으로 상보적이다. 이를 영어로 ReverseComplement라고 한다. 따라서, 한쪽 가닥을 알면 다른 한쪽 가닥을 알 수 있다. 인간의 총 염기서열갯수를 30억개(HDD에 [ASCII]로 저장하면 3기가) 라고 할때, 이는 한쪽 가닥만을 말하는 것이고, 그 반대가닥은 물론 알수가 있다.
[yong27]이 [Python]으로 처음 프로그래밍하본것이 이 ReverseComplement... 그러다보니, 감회가 새롭다. 모든 생물정보학 초보자들에게 이 문제를 권한다. 이걸 시작으로 많은 일들을 할 수가 있다.
문제는, FastaFormat으로 저장되어 있는 파일을 읽어서, ReverseComplement로 변환된 새 파일을 만드는 프로그램을 만드는것. 이 문제에 대한 해답으로, [yong27]은 세가지 각기 다른 파일을 만들어봤다. 초보자라면, 이거 보지말고 직접 풀길 권한다. 다덜 알다시피, FastaFormat은 1개이상의 서열들이 들어있다.
[ReverseComplementOneRead.py] : 전체를 한번에 읽어들이는 코드
[ReverseComplementIterator.py] : [OOP]로 한 레코드씩 읽으면서 하는 코드
[ReverseComplementGenerator.py] : [Generator]이용
[ReverseComplementBioPython.py] : BioPython을 이용한 코드
[ReverseComplement.io] : [Io]로 작성