BioinformaticsInformation에서 퍼온내용.

미국에선 생물학전공자의 생물정보학하는것에 대해 별로로 생각한다는 것이 충격이네엽...

mathematical way of thinking.... 수학적 마인드..그게 중요한듯합니다. 앞으로 어떤 학문분야도 그것없이는 힘들겠지요.. 미래의 생물학의 세계는 전산잘하는 이에 의해....

생물정보학의 최근 동향

  • Recent Advances in Bioprocess Engineering, 1998, Vol 6, pp. 203-217

생물정보연구소 원세연 sywon@bioinformatics.pe.kr

요약

생물정보학([Bioinformatics])은 생물체가 가진 정보를 컴퓨터를 이용하여 다루는 다양한 분야에 걸친 것으로, 현재 선진국들에서는 대규모의 투자와 급속한 발전이 이루어지고 있는 분야이다. 이 글에서는 생물정보학의 기초적인 개념과 당면과제에 대해 설명하였으며, 특히 최근에 생물정보학의 붐을 형성하는데 핵심적인 역할을 한 DataDrivenDiscovery에 대해 살펴보았다. 또한, 이에 대한 국내의 상황과 대책들에 대해서도 논의를 추가하였다.

키워드

생물정보학, 전산생물학, [Bioinformatics], ComputationalBiology

서론

생물정보학은 최근 생명과학 분야의 연구개발에 핵심적인 분야로 급부상하고 있는 것으로, 그것을 일컫는 다양한 용어([Bioinformatics], ComputationalBiology, ComputationalMolecularBiology, [Biocomputing] 등)들이 말해주는 것처럼 실제로 매우 비균질적인 분야이다. 이 분야의 공통점은 이 분야의 대표적인 국제 학회라 할 수 있는 [ISMB] 97년 모임에서 결성된 [ISCB]의 목적에서 밝힌 것처럼 "dedicated to advancing the scientific understanding of living systems through computation, with an emphasis on the role of computing and informatics in MolecularBiology"로 요약할 수 있을 것이다. 즉, 컴퓨터를 주된 도구로 사용하여 LifeScience 분야의 연구개발에 적용하는 다양한 연구분야를 포함한다.

위의 정의는 일면 지나치게 광범위한 점이 있으며, 오늘날 컴퓨터는 사실상 모든 분야의 연구개발에 사용되고 있으므로 생물정보학이 굳이 특이한 위치를 점유하여야 하는 이유에 의문을 가질 수도 있을 것이다. 이에 대한 설명과 함께, 단순히 전산생물학이라는 용어로 국한되지 않고, 정보학이라는 용어가 등장하게 된 이유에 대한 설명을 아래에 시도해보았다. [Protein] 서열이 알려지기 시작한 70년대 초반부터 서서히 태동하기 시작한 생물정보학은 오랫동안 별로 눈에 띄지 않는 분야로 남아오다가, 최근에 들어 갑자기 큰 붐을 이루게 되었는데, 이는 생물체가 가지는 특성으로 볼 때 당연한 순서라 할 수 있다. 생물체와 이들이 이루는 생물계는 다른 무생물적 대상에 비해 "훨씬 더 정보적"이라 할 수 있다. 하나의 생물체를 볼 때, [DNA] 속에 담겨진 정보에 의해서 다수의 단백질들이 만들어지고, 이 단백질(물론 다른 종류의 생체분자도 포함하여)들은 그 자체의 구조에 대한 정보와 함께 어떤 조건에서 무엇이 어떤 식으로 상호작용을 할 것인가에 대한 정보를 가지게 된다. 다시 다세포 생물의 세포, 조직, 기관들 사이의 상호작용에서 시작하여, 개개의 개체 사이의 상호작용, 무생물환경과의 상호작용, 집단과 집단과의 상호작용, 진화에 이르기까지 다양한 계층의 정보를 가지게 된다.

이에 수반되는 정보의 양은 실로 막대하며, 그 복잡한 정도는 인간이 지금까지 다루어온 그 어떠한 것보다도 크다. 이러한 복잡한 정보를 다룰 수 있는 현재 인간이 가진 도구는 당연히 컴퓨터이며, 이 컴퓨터를 이용하여 생명체가 가지는 정보를 처리하고 이용할 수 있도록 하는 학문분야가 바로 생물정보학인 것이다. 그리고, 정보학이라는 용어가 사용된 이유는 위의 설명에서 자연스럽게 인식이 되었을 것이다. 한마디로 생명현상을 이해한다는 것은, 그것에 수반되는 대규모의 복잡한 정보를 파악하고 나아가 이를 이용할 수 있도록 하는 것이다. 이와 같은 논의를 따르면, 생물정보학이 마치 모든 생명과학 분야를 집어삼킬 거대한 공룡과 같은 인상을 주게 되는데, 이를 다시 뒤집어서 이야기하면 향후 모든 생명과학 분야 속에 정보학이 자연스럽게 스며들게 될 것이라는 뜻이 된다.

현재 생물정보학이라는 용어의 뜻은 일종의 요동 속에 있다고 볼 수 있는데, 장차는 아마도 알고리즘 개발 등과 같은 전산학적인 연구 그 자체가 핵심이 되는 분야에 대한 용어로서 생물정보학이 계속 남게 되고, 전산학에 기반을 두고 컴퓨터가 주요한 도구 중의 하나로 사용되는 연구방법이 생물학의 다양한 분야들 속에 스며들게 되는 형태가 되리라 추측된다.

그리고, 시기적으로 왜 하필 요즘인가 하는 의문을 가질 수 있는데, 이는 이미 잘 알려진 바와 같이 90년대 초부터 시작된, 최초로 생물체가 가진 정보를 대규모로 얻어내는 작업인 인체 유전체 프로젝트의 성공적인 진행이 일종의 도화선 역할을 하였기 때문이다. 물론, 위에서도 언급한 것처럼 생명체는 본질적으로 컴퓨터를 사용한 정보학적인 도구가 그 연구의 핵심을 차지할 수밖에 없는 것이므로 단순히 그 붐이 일게되는 시기만이 문제였던 것이라 할 수 있다. 사람과 몇 가지 모델 종들의 [DNA] 염기서열을 모두 밝혀보고자 하는 것이 그 출발점이었던 HumanGenomeProject는 여러 가지 파급효과를 가져왔는데, 그 중의 하나는 다양한 방식으로 대규모 정보를 생물체들로부터 얻는 일들을 해보자는 움직임이다. 몇 가지 예를 들면, 생물체들이 가지는 모든 단백질들에 대한 3차 ProteinStructure를 인체 유전체 프로젝트와 유사한 형태로 체계적으로 모두 얻어보자는 것에서 시작하여, 인체 유전체 프로젝트의 확장으로 볼 수 있는 것으로 수백만 명에 대한 개개인의 유전적인 차이를 [Database]화 해보자는 것, 인간의 외모와 유전정보와의 관계를 데이터베이스화 해보자는 것, 다양한 종류의 인간의 암세포에 대한 대규모의 정보를 얻어보자는 것, 환경오염물질에 대한 개개인의 차이에 대한 대규모 정보를 얻어보자는 것에 이르기까지 이러한 시도들의 리스트는 계속 증가하는 추세이다.

생물정보학과 함께 이러한 시도들을 포괄하기 위해 최근에 빈번히 등장하는 용어가 [Genomics]라는 것이다. 이 용어는 지금까지 우리가 개개의 유전자에 집중을 해온 것과는 달리, 한 생물체가 가지는 유전정보 전체를 다루어야 하는 시기가 도래했음을 알려주고 있다. 지금까지의 생물학 연구에서 gene이 그 핵심을 차지해왔다면, 장차는 [Genome]이 그 핵심을 차지하게 될 것이며, 나아가 상호간에 복잡하게 환경적으로 그리고 진화적으로 서로 얽혀있는 생물계 전체가 가지는 정보까지 다루어야 함을 의미한다. 실제의 생물체는 개개의 유전자가 홀로, 또는 소수의 밀접한 것끼리만 상호작용을 하는 것들이 우연히 한 장소에 서로 상관없이 모여있는 것이 아니라는 것을 우리는 익히 알고 있다. 당연한 귀결로써, 생물체를 전체적으로 보아야 하며, 이에 대한 최초의 가능한 방법이 우리들 앞에 다가와 있는 것이라 할 수 있다. 이와 같이, 생물정보학이 중요한 이유는 단순히 데이터의 양이 많아져서, 혹은 대표적인 유전정보 데이터베이스인 GenBank의 크기가 커져서가 아니라, 그야말로 생물학 연구의 방식 그 자체를 근본적으로 변화시키고 있는 것이다.

컴퓨터로 처리할 대량의 정보를 얻기 위해서는 당연히 이를 얻어낼 수 있는 도구의 발전도 따라주어야 한다. 전자공학, 로보틱스, 미세기술 등의 발전이 컴퓨터 그 자체의 발전과 함께 이러한 추세의 또 다른 원동력이다. 전산학적인 도구의 사용과 함께, 이를 사용하여 처리할 데이터를 대규모로 얻어낼 수 있는 로보트화된 도구들의 사용이 앞으로 점점 더 생물학 연구의 자연스러운 일부가 될 것이다. 이러한 추세는 대규모 염??결정 프로젝트를 수행하고 있는 센터들에서부터 출발하여, 최근에 생물체로부터 대규모 데이터를 얻어내고 이를 컴퓨터로 분석하는 것을 21세기의 주된 생존전략으로 채택하고 있는 대형 제약, 농약, 종묘, 화학, 식품 회사들을 거쳐(Science, 281: 925-926을 보라), 다시 공공 연구에까지 그 폭을 넓혀가고 있다.

이러한 급변하는 추세는 한 가지 자명한 문제를 야기하는데, 바로 새로운 형태의 생물학자를 양성하는 일이다. 지금까지 아마도 가장 수학, 전산학과는 멀리 떨어져 있을 수 있는 일종의 수학혐오자들의 도피처였던 생물학 분야(물론 생물학이란 용어는 매우 다양한 분야를 포함하는 것이므로 분야에 따라 전혀 다른 상황인 경우도 있지만)가 갑자기 수학과 전산학이 절실하게 필요한 분야로 되어가고 있는 특이한 일이 일어난 것이다. 위에서 이미 언급한 것처럼, 이는 바로, 유전자를 하나 씩 자세하게 들여다보는 것이 주업이었던 분야가 갑자기 정보학적인 처리가 핵심이 되는 분야로 바뀌어가기 때문에 생긴 일이다. 이에 대한 선진국, 특히 미국의 대책은 매우 과감한데, 그 분야(즉, 기존의 생물학 분야) 자체가 저절로 변하기를 기다리는 것이 아니라, 본격적인 변혁을 여러 가지 정책을 통해 유도하고 있다. 미국립과학재단(NSF)에서 실시하는 생물정보학 분야의 컴퓨터 알고리즘 개발에 대한 지원, 미에너지성(DOE)에서 실시하는 생물정보학 분야의 박사후 연수과정에 대한 지원, 그리고 대학들에서 새롭게 생물정보학 학위 과정을 만드는 것을 지원하는 사업 등의 예를 들 수 있다.

여기에서 한 가지 특기할 점은 현재 미국에서 일어나고 있는, 일면 씁쓸한 현상이지만 우리도 앞으로를 위해 주목해야 할 것이 있다. 기존의 생물학에 싫증을 느낀 많은 수의 젊은 생물학도들이, 이제 막 발견된 아직 사람이 거의 살지 않는 신대륙인 생물정보학을 향해 절호의 탈출의 기회로 삼아 대거 이동을 시도하고 있다. 그러나, 미국의 정책은 이를 전혀 추천하지도, 부추기지도 않고 있다. 오히려 단념시키려 하고 있는 것으로 보인다. 이러한 이유는 mathematical way of thinking이 이미 오랫동안 두뇌에서 떠나 있던 사람에게 다시 이를 주입하는 것보다는, 이를 이미 가진 사람에게 생물학적 지식을 가르치는 것이 훨씬 효율적이라 판단하기 때문이다. 물론 예외는 항상 가능할 것이며, 예를 들면 DOE의 박사후 연수과정에 대한 지원 사업의 공고에서도 예외적으로 인정받을 수 있는 경우에는 생물학 분야의 박사도 지원이 가능하다고 되어 있다. 원칙적으로는 수학, 물리학, 전산학, 화학, 그리고 그 밖의 관련분야의 박사학위 소지자의 지원을 바란다고 되어 있다. 우리도 예외일 수는 없으니, 국내에서도 이러한 시도가 반드시 필요할 것이며, 이 때 좋은 참고가 될 것이다.

즉, 새로운 형태의 생물학은 매우 유감스럽게도 기존의 생물학 교육을 이미 다 받은 사람에게 몇 가지 새로운 기술을 습득하게 하면 되는 것이 아니라, 가능한 한 어린 시절부터 사고 체계 자체를 완전히 다른 형태로 쌓아 올라와야만 하는 것이다. 앞으로 수학과 전산학으로 무장한 이러한 새로운 생물학자들이 대거 등장을 하게 되었을 때, 이로 인해 생물학분야 전체에 일어날 혼란이 앞으로 어떤 형태로 진행이 될지는 모두 지켜보아야 할 일일 것이다. 우리만이라도 이런 혼란을 피할 수 있기를 바라기에는 이미 세계가 너무나 좁아져 있기에 물론 불가능할 것이다.

이제 한 가지 심각한 문제로 지적을 하지 않을 수 없는 것은, 이러한 새로운 형태의 생물학적 연구 방식이 국가 경제와 경쟁력에 미치게 될 영향에 대한 것이다. 금세기가 전자공학과 컴퓨터의 세기였다면 21세기는 생명공학의 세기가 될 것이라는 징조는 이미 여러 곳에서 나타나고 있다. 그리고, 그 핵심이 바로 위에서 설명한 생명체의 대규모 정보를 얻고 분석하는 데서 오는 것이다. 따라서, 당연한 결론으로서 이를 담당할 젊은 과학도들을 양성하는 것이 국가적으로 매우 중요하고 또한 시급한 일이 된다.

생물정보학의 당면과제

See also TopTenBioinformaticsChallenges

생물정보학의 대상이 되는 것은

  1. 데이터를 얻기 위한 전산적인 도구
  2. 수집된 데이터를 관리하기 위한 전산적인 도구
  3. 수집된 데이터를 분석하기 위한 전산적인 도구로 크게 구분할 수 있다.

이들 각각은 다시 실제 응용의 종류에 따라 매우 다양한 형태의 것들로 이루어져 있다. 이들은 다시 다루는 데이터의 종류에 따라 분류를 할 수 있으며, 이미 상당히 방대하고 그 리스트가 계속 증가되고 있는 상태이며, 현재 볼 수 있는 대표적인 것으로

  • 서열 데이터
  • 3차구조 데이터
  • domain knowledge 데이터
  • experimental 데이터
  • regulatory network 데이터
  • evolutionary relationship 데이터
  • metabolic pathway 데이터

등을 꼽을 수 있다. 이러한 데이터는 다시 수집되는 범위에 따라 generalized 데이터와 domain specific 데이터로 대별할 수 있다.

이와 같은 데이터들을 다루기 위해 사용되는 전산적인 도구들은 사실상 전산학의 거의 모든 분야를 망라한다고 볼 수 있으며, 데이터의 전체적인 흐름을 분석해보면 다음과 같다. 생물체로부터 얻어지는 정보는 일반적으로 물리화학적, 또는 생화학적 반응을 수행하는 전자공학적인 요소가 가미된 기계장치로부터 얻어진다. 우선 이로부터 얻어지는 데이터를 수집할 컴퓨터와의 상호 통신이 필요하고, 이 데이터는 이용 가능한 데이터베이스 형태로 저장되어져야 한다. 이때, 이로부터 얻어지는 데이터뿐만이 아니라, 위의 기계장치에 투입될 시료들 그 자체도 효율적으로 관리할 수 있는 시스템이 필요하게된다. 이점은 소위 genomics라 부르는 방식의 연구에서는 일련된 한 가지 실험을 위한 시료의 개수가 수천 또는 수만이 되는 것은 흔한 일이므로, 지금까지 수작업으로 충분히 가능했던 개개의 유전자, 또는 단백질을 다루던 방식과는 달리 전산화된 관리체계가 필요하게 된 것이다. 얻어진 데이터는 우선 자체적인 품질 검증과 이를 통한 피드백을 비롯한 여러 가지 컴퓨터 상의 후처리 과정을 거치게 된다. 이렇게 하여 쌓인 데이터는, 데이터의 종류의 따라 각기 다르지만, 서열 데이터인 경우를 예를 들면, 다양한 형태의 주석작업과 다시 기존의 다른 데이터와 연결하는 작업을 거쳐야 하며, 그 밖에 실험 데이터인 경우에도 추가적인 정보를 포함시키는 작업이 필요하게 된다. 이렇게 하여 구성된 데이터베이스에 대해 드디어 본격적인 전산적인 도구들을 사용한 분석작업을 수행하게 된다.

위에서 설명한 흐름을 구성하는데 필요한 전산적인 도구들은 최근에 급속하게 그 발전이 이루어지고 있는데, 데이터의 양적인 면에서 뿐만이 아니라, 특히 그 조직적인 측면에서의 복잡한 정도는 전산학자들에게 새롭게 발견된 엄청난 도전의 대상으로 받아들여지고 있다. 이 도전의 핵심적인 내용을 조금 더 자세히 설명하면 다음과 같다. 우선 어떤 방식으로 정보를 조직화할 것인가 하는 문제가 발생하게 된다. 이러한 정보의 조직화를 위한 전산학이 가진 현재까지의 최고의 기술은 객체지향기술이나, 한 가지 문제는 이 기술이 충분히 성숙되지 않은 점이 있고, 또 실제로 사용할 수 있는 도구가 아직 부족하다는 점이 있다. 실제로 대규모의 생물정보를 다루는 센터들은, 구식이지만 확실히 신뢰할 수 있는 도구가 이미 마련되어 있는 관계형 데이터베이스 시스템에 의존하는 경우가 아직은 더 흔한 상황이다.

그 다음은 개개의 정보를 어떻게 표현할 것인가 하는 것에 대한 문제가 있다. 물론 서열이나 구조 데이터, 실험 데이터의 경우에는 훨씬 쉬운 면이 있지만, 현재 당면한 과제 중 두드러지는 것 한 가지는 DomainKnowledge를 묘사하기 위한 용어의 정립에 대한 문제가 있다. 이것은 단순히 혼동되지 않고 잘 정의된 용어를 사용해야 한다는 것에 국한되는 것이 아니라, 문제의 핵심은 사람이 아니라 컴퓨터가 이것을 처리 가능하도록 만들어야 한다는 데 있다. 단순히 문자열 검색을 위한 문제가 아니라, 어느 정도는 계층적이지만 동시에 복잡한 네트웍을 형성하는 생물정보를 컴퓨터로 다룰 수 있어야 하기 때문에 발생하는 문제이다. 최근에 들어와서야 이에 대한 논의가 본격화되었으며, 생물학의 여러 용어들을 컴퓨터에 알맞도록 좀 더 set-theoretic한 형태의 것으로 만들기 위한 시도가 시작되고 있다.

이렇게 하여 구성된 데이터베이스들 사이를 연결하는 것 또한 쉽지 않은 과제이다. 단순히 프로토콜의 차이를 극복해주는 것과 같은 수준이 아니라, 많은 경우에 데이터의 성질 그 자체가 매우 이질적인 것끼리 연결을 해야 하는 것이 생물정보의 특징이다. 이는 생물정보가 생물체라는 하나의 본질의 여러 면을 다루는 것이므로 발생할 수밖에 없는 문제이다. 적어도 전산 그 자체적인 면인 프로토콜이나 내부 구조의 차이를 극복하는 작업만은 현재 생물정보학 분야에서 어느 정도 자리를 잡아가고 있는데, [CORBA]를 사용하는 ComponentBasedDevelopment 기술이 그 핵심이다.

그 다음으로 등장하는 명백한 문제는 UserInterface 문제이다. 단순한 텍스트 위주의 리스트, 이를 보조하는 2차원 그래프, 그리고 연결 관계를 보여주는 다이어그램 등이 현재 일반화된 전산적 툴로서는 복잡한 생물정보를 나타내기에는 전혀 충분치가 않다. 이러한 문제는 전산학의 한 분야인 HumanComputerInterface 분야에 새로운 도전이자 당면과제로 등장하고 있다. 이 분야의 발전은 이미 기하급수적으로 증가하며 쏟아져 나오고 있는 생물정보가 다수의 생물학자들에게 직접적인 혜택이 돌아가게 하는데 필요한 첨병이라 할 수 있다.

그리고 가장 치명적인 문제 중의 하나는 생물체로부터 얻어진 원시 데이터 속에서 우리가 어떤 것이 정보인지를 잘 모른다는 것이 있다. 예를 들어 서열 데이터인 경우에는, 물론 단백질을 코딩한 부위, promoter, terminator 등을 어느 정도 수준으로 찾아낼 수 있지만, 서열정보 속에 내재된 정보들은 이보다 훨씬 높은 차원의 것을 비롯하여 다양한 형태의 것들이 존재할 것이다. 이에 대한 희망적인 측면으로는, 최근에 들어서야 전체 [Genome]들이 밝혀지기 시작하고 있으므로, 이들의 비교분석을 통해 이전에는 희미한 그림자만을 감지할 수 있었던 것들이 이제 곧 구체적인 정보들로 나타나게 될 것이라는 점이 있다. 그러나, 반대로 우리가 과연 이것을 해낼 수 있을 만큼 기존의 전산학적인 지식이 충분한가 하는 의문이 있고, 또한 기존의 LifeScience 분야의 [Paradigm] 그 자체가 크게 바뀔 수밖에 없는 점들이 상당수 존재하고 있는 것은 아닌가 하는 의문도 있다. 그렇지만, 결론적으로 말해 이러한 생물정보학의 당면과제들은 전산학의 발전, 나아가 생물학 그 자체의 근본적인 발전을 가져다 줄 신천지라는 점이다.

마지막으로 좀 더 원대한 도전이라 할 수 있는 것이 있는데, 생물체의 하나의 세포 내부, 그리고 세포들 사이에서 실제로 일어나는 현상, 즉 수많은 유전자들, 그리고 이들에 의해 생성되는 수많은 생체분자들 사이의 상호작용을 컴퓨터 상에 구현해보고자 하는 시도이다. GeneticNetwork, GeneExpressionNetwork 등의 용어로 불리는 이 분야는, 생명현상의 궁극적인 이해를 향한 과감한 시도라 할 수 있는데, 아직은 걸음마 단계라 할 수 있다. 일단 이러한 복잡계를 다루는데 필요한 수학적, 전산학적인 도구들이 아직 충분치 않은 상태이며, 발표된 지 거의 30년이 된 Kauffman의 BooleanNetwork이 아직까지 실용적인 위치를 차지하고 있는 수준이다. 그러나, 대형 제약회사들을 선두로 하여 이 분야의 연구에 본격적인 박차를 가하고 있으며, 다양한 조건에서의 세밀한 입력 데이터를 대량으로 얻어낼 수 있는 모델 종들에 대한 연구를 중심으로 하여 머지않아 상당히 실용적인 결과들도 나오게 될 것이라 예상되고 있다. 이 분야는 특히 금세기에 들어와 분자생물학보다도 더 뒤에 생겨난 최신의 학문이라 할 수 있는 복잡계 과학과 혼돈 이론 등이 아마도 가장 큰 실용적인 가치를 가지고 적용되는 분야가 될 것이다.

또한, 큰 경제적인 가치를 지닌 점으로 말미암아, 생물학이 바야흐로 그 자체로서 뿐만 아니라 수학을 비롯한 다른 분야의 발전에까지 추진력을 제공해주는 역할까지 하게 될 것이다. 이 분야는 아마도 수학적인 성향이 강하고 복잡한 시스템에 당장 접근을 시도해보고자 하는 희망을 가진 많은 연구자들에게서 일종의 붐을 이루게 될 것이다. 이것은 생물학이 오히려 가장 수학적인 학문이 되어가고 있다는 또 다른 면을 보여주고 있는 것이기도 하다.

Data driven science

최근 들어 선진국의 대형 제약회사들이 생물정보학 전문가들을 대규모로 고용하기 시작했으며, 수요가 공급을 훨씬 초과한 상태이다. Smithkline의 경우 불과 2,3년 사이에 2명에서 70명으로 현재 엄청난 고액의 연봉을 제공해야만 하는 생물정보학자([Bioinformatician])의 수를 늘였다. 또한, 화이자의 경우 50%에 달하던 비제약분야를 모두 매각하고 100% 신약개발 위주의 회사로의 구조조정을 실시했다. 다수의 제약, 농약, 종묘, 화학, 식품 회사들도 이와 같은 추세를 따르고 있다. 그렇다면, 당연히 확실한 사업가적인 마인드를 가지고 있을 이들이 어떻게 이토록 과감할 수가 있는가 하는 것이 자연스러운 의문일 것이다. 물론 다른 모든 학문들처럼 생물학도 계속 발전을 해나갈 것이므로 장기적으로는 당연히 어떤 성과가 있게 되겠지만, 이런 과감한 투자에는 혹시 단기적인 이유도 있는 것이 아닐까 하는 생각을 할 수 있을 것이다.

이에 대해서는 크게 두 가지 해답이 있다. 한 가지는 현재의 붐의 핵심이 "정보적인 것"이라는 점이다. 그리고, 그 정보를 얻어낼 수 있는 도구가 이미 상당히 가시적이라는 점이 있다. 자연상태의 생물체 그 자체는 누구의 것(물론 사람의 그 자신의 몸과 유전정보를 제외하면)도 어느 회사의 소유도 아니다. (물론 각 국가의 고유종에 대한 권리 분쟁에 대한 문제는 여기에서는 논외로 하자.) 이제 이들을 이용하여 여러 가지 큰 돈벌이를 할 수 있는데, 그 핵심은 이들이 포함하고 있는 정보이고, 이를 얻어낼 수 있는 방법은 바로 눈앞에 있고, 이는 또한 국제적인 협약에 의해 보호받을 수 있다는 것이 바로 현상황에 대한 간략한 묘사이다. 이런 상황인데 누군들 뛰어들지 않겠는가? 그리고 두 번째 해답은 좀 더 전문적인 전산학적인 측면 속에 있다.

[Patent]라는 것은 스스로 사용하거나, 누군가가 사용을 해주어서 특허사용료를 챙길 수 있거나 하기 전에는 한편으로는 쓸데없이 돈과 에너지를 낭비하는 것에 불과하다. 또한 특허심사료등의 비용으로도 운영이 되지만, 국민의 세금이 상당부분 소요되는 것이므로 서류상 업적 쌓기 식의 쓰이지 않을 특허신청의 남발은 국가적으로 폐해를 끼치는 것이기도 하다. 자, 그렇다면, 생물체의 복잡성과 신약개발 등에 걸리는 기간을 잘 이해하고 있는 사람이 볼 때, 25년으로 한정되어 있는 특허권의 기간 내에 과연 생물정보에 바탕을 둔 이러한 특허들의 대부분이 쓸모 있게 되기나 할 것인가 하는 의문을 가지게 된다. 그런데, 이들 회사들이 뭔가 크게 믿는 구석이 하나 있다는 것이 이에 대한 대답이다.

이에 대한 핵심용어는 "data driven science", 또는 "DataDrivenDiscovery"이다. 이것은 한마디로 데이터만 엄청나게 많은 양을 구할 수 있다면, 컴퓨터를 가지고 뭔가 해낼 수가 있다는 전략으로 요약할 수 있다. 유전자를 비롯한 생물체의 다양한 요소들의 자세한 메커니즘은 그 하나하나에 대해 장기간에 걸친 많은 인력의 투입을 통해서만 어느 정도 밝혀낼 수 있다는 것이 지금까지 우리의 경험이다. 가장 흔하고 동시에 정복과는 아직 거리가 멀어 보이는 암, 당뇨병, 고혈압, 관절염 등의 예에서도 볼 수 있는 것처럼, 과연 우리가 지금까지 해온 방식으로 가까운 시일 내에 생물체로부터 진정으로 유용하게 사용할 수 있는 지식을 얼마만큼이나 밝혀낼 수 있을 것인가 하는 비관적인 의문도 흔히 가지고 있는 것을 볼 수 있다. 또한, 단순히 정보만 잔뜩 얻어낸다고 해서 뭐가 크게 달라질 것이 있는가, 그리고 단순히 당장에는 손댈 여유도 없는 대상만 잔뜩 쌓아놓고(즉, 데이터베이스화 해놓고) 쓸데없이 뿌듯해 하는 것이 요즘의 소위 [Genome] 프로젝트라는 것이 아닌가하는 말들도 주변에서 들을 수 있다. 그런데, [Paradigm] 자체가 다른 전략이 하나 있다.

이에 대해 한 가지 구체적인 예를 들어 설명을 해보면 다음과 같다. [DNA] 칩은 최초로 실용적이고 대량생산과 자동화가 용이한, 한 생물체의 genome 전체 또는 일부에 대한 대규모 분석, 조직이나 세포로부터 발현되는 유전자 전체의 종류와 양을 측정할 수 있는 도구이다. 10만 명(또는 100만 명)의 60세 이상 고혈압 환자로부터 DNA를 추출하여 (이를 위해 특별히 제작된) 칩과 반응시킨 데이터를 얻어내고, 다시 10만 명의 60세 이상 고혈압이 없는 사람의 DNA를 추출하여 역시 칩과 반응시킨 데이터를 얻어낸다. 이때 우리는 고혈압이 발생하는 메커니즘을 미리 알고서 이를 정확히 집어낼 수 있는 칩을 디자인할 수는 없다는 점을 유의하자. 다만 하나의 칩에 담을 수 있는 정보 양의 한계를 고려하여, 기존의 여러 가지 배경지식과 시행착오를 통해 좀 더 성능이 나은 칩을 디자인 할 수 있을 뿐이다. 물론 20만개의 시료와 이에 수반되는 다양한 정보들을 다루기 위해서는, 단순히 데이터를 얻는 과정 그 자체에서도 컴퓨터가 중요한 역할을 할 것이다. 그러나, 컴퓨터의 진정한 파워는 그 다음부터 발휘된다. 이렇게 대량의 데이터가 있을 경우에는 기존의 컴퓨터 기술은 이 데이터를 이용하여 이들이 공통적으로 가지는 성질을 반영하는 모델을 컴퓨터 내부에 만들 수 있다. 이 모델은 물론 사람이 들어다보아 이해할 수 있는 형태는 아니다. 즉, 이 모델이 만들어졌다고 해서 우리가 고혈압이 발생하는 메커니즘을 이해할 수 있거나, 고혈압에 관련되는 유전자들을 정확히 집어낼 수 있는 것은 아니다. 단지 컴퓨터 내부에 복잡한 네트웍 형태의 구조로 존재하는 것뿐이다. 그렇다면 도대체 이 모델이 무슨 소용이 있을 것인가?

바로 직접적이고 실용적인 소용이 있다. 고혈압 환자와 그렇지 않은 사람 각기 10만 명의 데이터에 대해서 별도의 모델을 만든다. 일단 두 가지 모델들이 만들어진 다음에는 어떤 알려지지 않은 시료(여기서는 알려지지 않은 시료로부터 얻은 칩 데이터)가 어느 모델에 더 잘 들어맞는지를 컴퓨터가 계산을 해낼 수 있다. 즉, 일반적인 경우에는 아직 고혈압과는 거리가 먼 30대(또는 20대)로부터 DNA를 추출하여 모델과 맞추어보는 작업을 하면, 그 사람이 장차 고혈압으로 고통받게 될 확률이 얼마나 되는지를 미리 알려주어 40대쯤부터는 여러 가지 예방 정책을 쓸 수 있게 해주는 것이다. 이와 같은 방식을 diagnosis에 대비하여 prognosis라 부르며, 앞으로 큰 시장을 형성하게 될 것이라 예상되고 있다. 물론 여기에도 칩의 성능, 모델의 성능, 인종과 성별에 따른 차이 등 앞으로 큰 연구 분야를 형성할 많은 내용들을 담고 있지만, 여기에서 더 이상 언급하지는 않겠다.

이상이 바로 최근에 왜 그토록 DnaChip이 붐을 이루며, 대형 제약회사들이 앞다투어 투자를 하고 있는가에 대한 극히 일면에 불과하지만 쉽게 감을 잡을 수 있도록 하는 설명이다. 그리고, 이것은 최소한 7만개는 넘을 것으로 예상되는 인체 유전자 개개의 자세한 작용기작을 모두 이해하게 될 아주 먼 미래가 아니라, (상당한 확신을 가지고) 수년 내로 가능해 보이는 응용 분야가 바로 눈앞에 다가와 있는 것이기 때문이다. 여기에서 핵심은 바로 소위 "DataDrivenDiscovery"라 불리는 것으로, 현재 전산학에서는 MachineLearning, DataMining, KnowledgeDiscovery in [Database] 등의 용어로 비단 생물정보학 분야에서뿐만 아니라, 경영학을 비롯한 여러 분야에서 중요한 기술로 떠오르고 있는 중이다.

data driven science의 한 가지 약점은 바로 데이터를 많이 모아야 한다는 그 자체에 있다. 여기에는 당연히 많은 비용이 들며, 지금까지의 생물학 연구 방식과는 상당히 거리가 있는 대규모 셋업이 필요하게 된다. 앞으로 이와 같은 방식이 주요한 실용적인 결과들이 나오는 연구개발의 많은 부분을 차지하게 된다면, 특별한 대책이 없는 한 현재 국내의 상황으로 볼 때 생명공학 분야에 있어서 선진국과의 격차는 더욱 커질 수밖에 없을 것이다. 또한 data driven science에서 경쟁력을 궁극적으로 좌우하는 핵심이라 할 수 있는 전산학적인 기술들에 대한 개발도 소홀히 할 수 없을 것이다.

결론

이상에서 생물정보학 분야의 최근 동향에 대해서 간략히 살펴보았다. 염기서열의 정렬과 같은 좀 더 고전적인 생물정보학의 여러 분야들은 위의 논의에서는 제외되었으나, 이러한 기술들은 더 복잡하고 본격적인 여러 가지 응용들의 기반을 형성하고 있으며, 생물정보학의 인프라를 구성하는 중요한 분야로서 앞으로도 계속해서 그 발전이 이루어질 것이다. 따라서, 생물정보학자로서 교육을 받기를 원하는 사람은 이러한 기초가 되는 분야에서부터 출발을 하여, 나아가 이 글에서 다룬 것과 같은 좀 더 실제적인 응용 분야들에 이르는 폭넓은 지식과 기술을 쌓아가야 할 것이다.

또 한가지 본 논의에서 생략된 생물학과 전산학 양쪽 모두에 걸친 분야중에는 단백질 3차구조에 대한 것이 있다. 이 분야의 중요성은 굳이 언급할 필요도 없을 터이지만, 한 가지 추가를 하자면 이 분야 역시 최근 들어 상당히 "정보학적"이 되어가고 있다는 점이다. 즉, 분자구조의 QuantumMechanics적인 이해에 주로 의존하던 방식 위에, 다수의 분자들의 구조에 대한 정보학적 처리를 통해 새로운 돌파구를 마련해보자는 다양한 시도들이 일어나고 있다.

이와 같은 다양한 정보학적인 접근들의 근본적인 바탕을 이루는 것은 바로 지구상의 모든 생물체가 결국은 한 가족이라는 점에서부터 출발한다. 유전자에 대한 연구 또한, 이미 수십 개로 그 수가 늘어났고 앞으로 기하급수적으로 증가할 전체 [Genome]의 유전정보가 알려진 생물체들의 비교와 종합을 통해 새로운 양상으로 발전하게 될 것이다. 이미 ComparativeGenomics라는 새로운 분야를 형성하기 시작한 이 분야의 연구는 우리에게 생명체에 대한 새로운 차원의 이해를 가져다 줄 것이다. 어느 한 생물체에 속한 하나의 유전자 또는 단백질은 개별적인 연구의 대상이 아니라, 생물계라는 거대한 가족을 구성하는 일원으로서 서로 밀접하게 얽힌 다이내믹한 변화의 과정으로 이해를 해야 하는 것이다. 물론 이 모든 새로운 조류의 연구에 있어서 정보학적인 도구가 핵심적인 위치를 차지하고 있음은 굳이 언급할 필요도 없을 것이다.

한 가지 본문에서 구체적으로 언급을 하지 않은 것으로 sequencing 프로젝트에 소용되는 전산적인 도구들에 대한 것이 있다. 국내에서도 미약하나마 sequencing 프로젝트들이 이미 출발을 하고 있는 상태이므로, 이에 필요한 전산기술들은 당장 필요한 것이라 할 수 있다. 최근 미국의 인체 유전체 프로젝트의 시간표 자체를 수정할 수밖에 없도록 만든 Craig Ventor의 야심적인 계획, 즉 3년 이내에 인체 유전체 전체를 새롭게 설립하게 될 회사 한군데에서 모두 밝혀버리겠다는 것에 대해, 그리 쉽지만은 않을 것이라 주장하는 사람들의 주된 내용은, 적어도 50명 정도는 필요하게 될 finisher들을 그렇게 빠른 시일 내에 훈련시키기는 힘들 것이라는 점이다. 여기에서 finisher란 sequencing 프로젝트의 핵심적인 기술진으로, 컴퓨터 앞에 앉아 automatic sequencer들이 쉴새없이 쏟아내는 조각난 데이터들을 연결하고 다듬어 의미 있는 데이터로 만들어 가는 상당한 기술과 노하우가 필요한 작업을 맡은 사람들을 말한다. 이 밖에도 sequencing 프로젝트를 위한 전산기술들에는, 또 다른 주된 기술적 난관 중의 하나인 물리적 지도작성에 관한 것을 포함하여 다양한 것들이 있지만, 이를 위해서는 별도의 논의가 필요할 것이다.

겉보기에는 단순히 sequencing을 좀 더 효율적 체계적으로 해보고자 시작된 것처럼 보이는 이러한 생명현상 연구의 새 방법이미 많은 분야들, 즉 생물학 그 자체의 연구, 기초 의학 연구, 제약, 농업, 식품, 화학물질 생산, 나아가 에너지 문제에 이르기까지, 다음 세기의 전세계 경제의 핵심적인 요소로 부상하고 있다. 우리의 경우에도 이러한 선진국들의 추세에 대해 좀 더 본격적이고 실질적인 이해를 통해 시기 적절한 대책이 마련되어야 할 것이다.

한 가지 추가할 것은, 이러한 흐름에서 뒤쳐지지 않기 위해 가장 중요한 것 중의 하나가 이를 담당할 수 있는 신진 과학자들을 양성하는 것이라는 점이다. 특히 생물정보학 분야의 인력 양성은 미국의 예에서도 볼 수 있는것처럼, 매우 시급하며 또한 현실적으로 상당한 어려움을 내포하고 있다. 즉, 지금까지는 서로 거의 어울려본 적이 없는 분야라 할 수 있는 생물학과 전산학의 협동작업이, 연구 그 자체에서뿐만 아니라 인력양성에서도 반드시 필요하다는 점이다. 이것은 국가적인 차원에서 볼 때 기존의 생물학자와 전산학자 모두에게 부여된 새로운 임무라 할 수 있다. 현재 선진국들에서는 위에서 소개한 생물정보학 분야 박사후 과정에 대한 지원과 같은 임시방편적인 것에서부터 시작하여, 생물학자와 전산학자, 그리고 이 혁명의 또 다른 핵을 차지하는 전자공학자들에 이르기까지 다양한 분야의 사람들이 협조하는 미래를 향한 근본적인 대책들을 수립해 가고 있다.

여기에서 한 가지 추가할 것은, "나는 생물학자인데 전산을 조금 배웠다", 또는 "나는 전산학자인데 생물학 책도 몇 권 봤다"는 정도로 행세할 수 있었던 시기는 선진국의 경우에는 이미 끝나가고 있는 분위기라는 점이다. 즉, 새로운 형태의 생물학자-혹은 그것의 이름이 무엇이든 간에-는 그야말로 두 가지 분야 모두에 대해 견고하게 교육을 받은 사람들이 주류를 이루게 될 것이라는 점이다. 물론 개개인의 전문성은 가지게 되겠지만, 지금까지 두 개의 독립된 분야라 여겨왔던 것을 함께 가지고 있는 새로운 형태의 과학자 집단의 등장을 우리는 지켜보고 있는 상태이다. 마지막으로, 국내에서 흔히 부딪치게 되는 일종의 미신을 깨뜨리는 말을 추가하면 다음과 같다. 생물정보학은 단순히 도구의 문제가 아니다. 즉, 돈을 주고 소프트웨어 패키지를 사와서 마우스 버튼만 누르면 되는 형태의 것이 아니다. 생물정보학은 생명현상에 대한 연구 그 자체에 속하는 것이며, 우리가 돈을 주고 사올 수 있는 것은 시약이나 기계이지 "연구" 그 자체가 될 수는 결코 없는 것이다.

If you have comments or questions on this site, contact sywon@bioinformatics.pe.kr


AboutBioinformatics


CategoryArticle

web biohackers.net