본문 바로가기

생명공학소식

[동아 사이언스] '알파고'후배 '알파폴드'도, 북한도 뛰어들었다…단백질 구조예측

아미노산 서열만으로 단백질의 3차원 구조를 예측하는 컴퓨팅 기술이 진화하고 있다.

사진은 에이미 키팅 미국 매사추세츠공대(MIT) 생물학과 교수팀이 시뮬레이션한 3차원 단백질 구조다.

 

우리 몸속에는 단백질이 약 10만 개 있다. 각각 복잡한 3차원 구조를 가지며, 기능도 천차만별이다. 단백질은 세포 안에서 벌어지는 거의 모든 생명 반응에 관여하는 기본단위다. 세포의 핵에서는 유전물질인 DNA를 해독해 필요한 단백질을 끊임없이 만들고 있다. 이렇게 생성된 단백질의 구조와 기능, 생체 내 상호작용을 밝혀 생명의 비밀을 푸는 것이 생명과학 연구자들의 가장 근본적인 숙제 중 하나다. 


1958년 X선 결정학기법으로 단백질의 일종인 미오글로빈의 구조가 최초로 확인됐다. 최근에는 영하 200도 이하의 낮은 온도에서 여러 단백질이 결합한 복합단백질의 구조까지 확인할 수 있는 극저온전자현미경기법도 널리 쓰인다. 


하지만 세포막 위에 존재하는 막단백질의 경우, 막에서 분리되면 구조가 변하기 때문에 실험을 통해 구조를 확인하기 매우 까다롭다. 또 이론적으로 만들 수 있는 무수한 단백질의 구조를 일일이 실험으로 확인하는 방법도 한계가 있다. 


이 때문에 1960년대 초부터 많은 과학자들이 단백질 구조를 실험적 기법 대신 계산을 통해 얻어내려는 연구를 진행했지만, 1990년대 이전까지 단백질 구조의 예측정확도는 거의 0% 수준이었다.


그런데 최근 컴퓨팅 기술이 발전하면서 단백질을 이루는 아미노산의 서열과 구조를 조합해 최적화된 단백질 구조를 계산하고 정확히 예측하는 기술이 급속히 발전하고 있다.

 

템플릿 기반-템플릿 프리, 두 부문 석권 

 

존 점퍼 구글 딥마인드 박사와 강범창 서울대 화학부 연구원이 제 13회 단백질 구조 예측대회에서

'알파폴드'의 성능을 설명하는 발표자료 앞에 서 있다. 석차옥 제공

 

지난해 12월 1~4일 멕시코 칸쿤에서 열린 ‘제13회 단백질 구조 예측(CASP·Critical Assessment of Structure Prediction) 대회’가 열렸다. 구조 예측 분야에 출전한 97개 팀들은 단백질 90종의 선형(1차원) 시퀀스를 받았다. 이들 단백질은 3차원(3D) 구조가 확인됐지만 아직 공개되지 않은 것들이었다. 97개 팀의 미션은 단백질의 1차원 시퀀스만 가지고 이들이 어떻게 3차원으로 접힐지(fold) 계산하라는 것이었다. 구글 딥마인드가 개발한 인공지능(AI) ‘알파고’의 후배쯤 되는 ‘알파폴드(AlphaFold)’가 저명한 연구팀들을 제치고 우승을 차지했다. 

 

1994년부터 2년마다 열리고 있는 CASP에는 전 세계 생물정보계산과학자들이 집결한다. CASP 조직위원회는 대회가 열리는 해의 5월부터 매일 2~3개씩 3차원 구조가 밝혀지지 않은 단백질 관련 문제를 무작위로 출제한다. 출전팀은 이에 대한 답안을 마련해 제출한다. 


실제 대회기간에는 출제된 문제를 7가지 세부 항목(템플릿 기반 구조 예측, 템플릿 프리 구조 예측, 인접 아미노산 예측, 정밀화, 복합체 구조, 구조 정확도 평가, 생물학 연구 활용성)으로 구분해 제출된 답안을 평가한다. 이들 답안과 실제 구조를 비교해 참가팀간 상대적으로 점수를 매긴다. 


이번 대회 심사위원을 맡은 석차옥 서울대 화학부 교수는 “알파폴드는 템플릿 기반 구조 예측 분야에서는 근소한 차로 정상에 올랐고, 템플릿 프리 구조 예측 분야에서는 압도적으로 1위를 차지했다”고 말했다.


템플릿은 이미 알려져 있는 아미노산 서열과 그에 맞는 구조에 대한 자료를 뜻한다. 무작위로 낸 단백질 문제 중 템플릿을 바탕으로 풀 수 있는 문제로 확인된 것은 평가 시 템플릿 기반 구조 예측 항목으로 분류된다. 


이런 템플릿이 없는 단백질은 템플릿 프리 구조 예측 항목에 포함된다. 템플릿 프리 구조 예측은 아미노산의 극성이나 소수성 등 물리·화학적 성질에 근거한 원리와 1차원 아미노산 서열의 규칙성 등을 종합해 결과를 만든다. 단백질 구조 예측에서는 템플릿 기반 구조 예측과 템플릿 프리 구조 예측의 두 가지가 핵심이다.


석 교수는 “대회에서는 아미노산의 규칙성을 찾아 단백질 구조를 예측한 문제를 인접 아미노산 예측으로 분류해 따로 평가했는데, 사실상 템플릿 프리 구조 예측 문제를 푸는 데는 인접 아미노산 예측값이 포함돼야 한다”며 “알파폴드는 인접 아미노산의 규칙성을 찾는 방식을 토대로 문제를 풀어 템플릿 프리 예측 분야에서 우승했다”고 설명했다. 

 

아미노산 서열 30% 같으면 구조는 80% 닮아


핵에 들어있는 DNA 속 염기 세 개(코돈)는 아미노산 한 개에 해당한다. 세포에서 단백질 합성 공장 역할을 하는 리보솜이 각 코돈에 맞는 아미노산을 이어 붙인다. 일반적으로 하나의 단백질은 100~200개의 아미노산으로 이뤄진다. 


100여 개의 아미노산으로 이뤄진 미지의 단백질 구조 문제가 주어지면, 알파폴드는 자체 서버를 통해 단백질정보은행(PDB)에 등록된 템플릿과 문제 속 아미노산 서열을 비교한다. PDB에는 현재 약 15만 개의 템플릿이 등록돼 있다. 템플릿 수는 계속 증가하고 있지만, 이론적으로 아미노산 서열이 9300만 개 이상 존재할 수 있다는 점을 고려하면 적은 편이다. 


최근에 사용되는 템플릿 기반 구조 예측 기술은 다음과 같다. 미지의 단백질에 포함된 아미노산 서열을 10개 이하로 쪼개 단위서열로 구분하고, PDB를 뒤져 이들 단위서열과 닮은 템플릿을 최대한 많이 찾는다(템플릿 찾기). 이렇게 찾아낸 템플릿들을 정렬시켜 모은 뒤(서열 정렬), 각 템플릿을 짜 맞추면서 이상적인 단백질 구조 모델을 만든다(모델 빌딩). 


석 교수는 “템플릿만 있다면 이를 토대로 단백질 구조를 예측하는 게 정확도가 높다”며 “단백질의 경우 아미노산 서열의 진화 속도보다 구조의 진화가 늦었기 때문”이라고 설명했다. 구조의 진화가 더뎌 서열의 일부만 같아도 구조적으로는 큰 차이가 없다는 것이다. 통계적으로는 아미노산 서열이 30%만 동일해도 구조는 80% 이상 닮은 것으로 알려졌다. 아미노산 서열에 대한 구조를 알고 있는 템플릿이 많을수록 예측 정확도가 크게 높아지는 셈이다. 


이번 대회에서 템플릿 기반 예측 분야로 판명된 문제는 90개 중 47개다. 알파폴드는 가장 높은 정확도로 문제를 풀어 2위인 미국 미시간대 연구팀을 근소하게 따돌리고 1위를 차지했다.

 

템플릿 프리 분야 43개 중 25개 정확히 예측 

 

알파폴드가 제출한 답안. 파란색이 알파폴드의 예측 모델이며 초록색은 실제 측정된 구조로 둘을 겹쳐서 비교했다.

알파폴드는 복잡한 구조를 이루는 고난도 단백질 문제 43개 중 25개를 60% 이상의 높은 정확도로 맞추는 데 성공했다.

구글 딥마인드 제공

 

알파폴드의 진가는 템플릿 프리 구조 예측에서 드러났다. 알파폴드는 템플릿이 없는 것으로 확인된 43개 문제 중 25개를 가장 높은 정확도로 예측해 1위에 올랐다. 미국 미시간대 연구팀은 이 항목에서도 2위를 차지했는데, 세 문제에서 가장 높은 점수를 받는 데 그쳤다. 


그간 템플릿이 없는 고난도 단백질 구조 찾기는 대부분의 연구팀이 0점을 받을 만큼 기술적으로 진전이 없었다. 이번에 알파폴드가 이 분야의 기술을 크게 끌어올린 셈이다. 석 교수는 “고난도 단백질 구조 예측 정확도가 25~30점에서 60점 수준까지 높아졌다”며 “향후 복합 단백질의 구조와 기능을 예측하는 기술까지 더 개선되면 신약후보 물질로 쓸 단백질을 설계하는 데 큰 도움이 될 것”이라고 말했다. 


알파폴드는 딥러닝에 기반한 강화학습을 통해 인접한 아미노산이나 짧은 서열조각 사이의 진화적 규칙성을 찾는 데 집중한다. 학계에서는 인접한 아미노산의 관계가 진화적으로 연관된 여러 단백질에서 보존된다고 본다. 예를 들어, 전기적으로 양극(+)을 띠는 아미노산은 음극(-)을 띠는 아미노산과 서열상 인접해 있을 가능성이 크고, 구조적으로도 큰 영향을 미친다는 논리다. 
석 교수는 “알파폴드 같은 인공지능은 알고리듬을 이용해 아미노산 서열을 무수히 많은 조합으로 만들어볼 수 있어 진화적 연관성을 파악하기에 유리하다”며 “알파폴드가 1차원 아미노산 서열만으로 단백질의 3차원 구조를 예측할 수 있었던 것도 이 때문”이라고 설명했다.  


이번 대회에서 한군섭 북한 리과대학 자연과학연구원 연구사가 이끄는 연구팀이 구조정확도 평가 항목(로컬 부문)에 참가해 1위를 차지했다. 이 항목의 경우 전체 단백질 구조 정확도를 평가하는 글로벌 부문과 부분 구조를 평가하는 로컬 부문으로 나뉜다. 석 교수는 “북한 연구자들이 이미 완성된 답안에서 부분적인 단백질 구조의 정확성을 판단하는 기술을 확보한 것으로 볼 수 있다”며 “이는 결국 구조를 예측하는 기술과도 이어지기 때문에 상당한 기술력을 갖고 있다고 해석할 수 있다”고 말했다.

 

김진호 기자 twok@donga.com