2025-01-30 | 박사 첫 연구에 대한 생각

article written on 2025-01-30

최근에 드디어 첫 논문을 완성하였다. 아직 저널에 출판된 것은 아니지만 그래도 박사 첫 1년 간 진행했던 새로운 분야에서의 첫 논문을 완성하니 매우 기뻤다. 

사실 난 박사를 오게 된 계기가 꽤나 즉흥적이었다. 루닛 친구들과 등산을 하고 짬뽕을 먹는데 한 친구가 자기는 병특이 끝나면 갈 박사를 준비하고 있다고 했다. 이제 겨우 취직해서 자리를 잡고 병특까지 끝났는데 긴 유학 생활에 오른다니 대단했다. 그래서 잘 다녀오고 소식도 전해달라고 했다. 그런데 나한테도 박사를 가야된다고 권유하였다. 그래서 어쩌다보니 오게 되었다. 다들 박사 과정이 힘들다고들 경고했지만 막상 해보니 난 되게 잘 맞는 것 같고 딱히 이전 삶보다 더 빡빡하다는 느낌은 들지 않는다. 오히려 시간 사용이 자유로워서 잘 맞는 것 같다. 돈만 조금 더 주면 이렇게 계속 살 수 있을 것 같다는 생각도 든다.

최근에 드디어 첫 논문을 완성하였다. 아직 저널에 출판된 것은 아니지만 그래도 박사 첫 1년 간 진행했던 새로운 분야에서의 첫 논문을 완성하니 매우 기뻤다.

사실 난 박사를 오게 된 계기가 꽤나 즉흥적이었다. 루닛 친구들과 등산을 하고 짬뽕을 먹는데 한 친구가 자기는 병특이 끝나면 갈 박사를 준비하고 있다고 했다. 이제 겨우 취직해서 자리를 잡고 병특까지 끝났는데 긴 유학 생활에 오른다니 대단했다. 그래서 잘 다녀오고 소식도 전해달라고 했다. 그런데 나한테도 박사를 가야된다고 권유하였다. 그래서 어쩌다보니 오게 되었다. 다들 박사 과정이 힘들다고들 경고했지만 막상 해보니 난 되게 잘 맞는 것 같고 딱히 이전 삶보다 더 빡빡하다는 느낌은 들지 않는다. 오히려 시간 사용이 자유로워서 잘 맞는 것 같다. 돈만 조금 더 주면 이렇게 계속 살 수 있을 것 같다는 생각도 든다.

이번 논문 (Generating cognate epitope sequences of T-cell receptors with a generative transformer, https://www.biorxiv.org/content/10.1101/2025.01.13.632824v1)은 T세포 수용체 서열(T-cell receptor sequence)이 주어졌을 때에 그것이 인식할 만한 타겟 epitope sequence를 생성하는 sequence-to-sequence 생성 모델에 관한 것이다. 이 모델을 이용해서 paired single-cell RNA and TCR sequencing (immune profiling이라고도 부름) 데이터를 분석할 수 있다.

본 논문에서는 이 모델을 이용하여 암 환자에서 암에 특이적인 T 세포들을 선별하였고 그들과 background T 세포를 비교 분석하였다. 이 결과 암에 특이적인 CD8+ T 세포들은 background T 세포에 비해 더 높은 cytotoxic marker와 effector-associated transcription factor를 발현하였고, 더 낮은 exhaustion marker를 발현하였다. 이러한 특성은 특히 dual expanded T cell (암 조직과 주변 정상 조직에서 모두 클론 확장 된 T 세포들)에서 뚜렷이 나타났는데, 이는 암을 인식하는 CD8+ T cell들이 주변부에서 모집 된다는 아이디어를 뒷받침한다. 기존에는 이런 분석을 하려면 값비싼 functional assay등을 진행하여야 했는데, 이마저도 소수의 epitope을 갖고 실험할 수 밖에 없기 때문에 본 논문과 같은 CD8+ T cell에 대한 전수 조사는 하기 힘들었다.

또한 본 논문에서는 이 모델을 이용하여 COVID-19 환자에서 COVID-19에 특이적인 T 세포를 선별하였고 그들과 background T 세포를 비교 분석하였다. 이 결과 COVID-19에 특이적인 CD8+ T 세포들은 healthy group보다 patients with mild symptom group 등에서 더 클론 확장 되었다는 것을 발견하였다. 또한 이들은 GZMB, PRF1과 같은 cytotoxic marker 및 IFNG, TNF와 같은 cytokine을 더 뚜렷이 발현하였다. 그러나 이런 현상은 매우 심각한 환자군에서는 발견되지 않았다. 이는 심각한 환자군에서는 COVID-19에 특이적인 T세포들이 비활성화 된 상태일 수 있다는 것을 보여준다. 또한, COVID-19에 특이적인 CD8+ T 세포들은 환자들에서 다양한 antigen을 인식하였는데, 특히 클론 확장된 경우에는 spike protein을 많이 인식한다는 사실을 발견하였다. 환자들에서 COVID-19에 특이적인 T 세포 뿐만 아니라 더 넓은 coronavirus의 항원에 반응하는 T 세포들도 클론 확장 하였다.

향후 이 연구를 적용 및 확장하여 CD8+ T 세포에 대한 더 세분화된 분류를 진행할 예정이다. 또한 면역 항암제 반응률 예측을 위한 biomarker를 계산하는 것을 다음 follow-up 작업으로 생각하고 있다. 또한 현재의 checkpoint inhibitor뿐만 아니라 cancer vaccine과 같은 새로운 종류의 면역 항암 요법에도 도움을 줄 수 있을 것으로 생각하며, 얼른 이 분야에도 공헌해보고 싶다. 최종적으로는 인간 면역 체계에 대한 정확한 시뮬레이션 모델을 구축할 수 있기를 기대하고 있다.

본 논문에서는 기존 연구의 한계점을 지적하며 본 모델의 중요성을 얘기하였다. 그러나 이번 연구를 하게 된 계기에는 상황적인 측면도 있었다. 나는 석사 때랑 그 이후에 도합 5년정도 computer vision을 연구하였다. 아마 나와 비슷한 시기에 인공지능을 전공했다면 computer vision을 어떤 식으로든 접했을 가능성이 크다. deep learning 기법이 처음 각광 받기 시작했던 분야가 바로 image classification 이었기 때문이다. ChatGPT 이후에는 natural language processing을 더 많이 하는 것 같지만. 아무튼 AI 전공자가 biomedical 분야에 뛰어들게 되면 가장 먼저 생각나는 것이 medical imaging일 수 밖에 없는 것 같다. 왜냐하면 데이터가 이미지 형식이라서 기존 computer vision 기술들을 그대로 적용하기 쉽기 때문이다. 물론 데이터와 전처리 과정이 다르고 domain knowledge를 적용해야 할 수 있지만, 기술적으로는 크게 다르지 않은 것 같다. 난 그걸 하다가 다른 걸 하고 싶어서 박사 과정을 왔기 때문에 AI + biomedical 분야에서 할 수 있는 게 뭐가 있는지 계속 탐색하였다.

그러다 발견한 것이 protein science와 drug discovery 분야이다. 이는 매우 핫하고 유망한 분야임에 틀림없다. 흔히 말하는 drug에서 small molecule들은 원자들의 그래프 형태로 표현될 수 있기 때문에 예전부터 AI conference에서도 graph neural network나 diffusion model과 관련한 기법으로 여러 논문이 발표되었다. protein도 근본적으로 아미노산의 서열로 보아서 NLP 기법을 적용하거나 3D 구조로 접힌 이후에는 3D vision 기법 등을 적용하는 것이 자연스러워 보인다. 그러나 이는 역사가 길고 너무 많은 연구가 진행되고 있어서 금방 history를 따라잡기에 힘들 것 같다는 생각이 들었다. 게다가 내 생각에 이쪽 분야는 biology를 잘 몰라도 할 수 있다. 이는 분명 computer scientist에게 장점이 될 수 있지만 진입 장벽이라는 분야에서는 오히려 단점이 될 수가 있고, 하는 사람이 워낙 많다 보니 경쟁력을 확보하려면 꽤 까다로울 수 있다는 생각이 들었다.

다른 한쪽에서는 bioinformatics 분야가 있었다. 이는 next generation sequencing부터 시작된 high throughput sequencing 데이터를 분석하는 계산적 도구를 만드는 분야이다. 이쪽 분야는 컴퓨터 과학자들에게 보다는 생물학과, 생명 공학과, 의학과 등에서 훨씬 유명한 분야이다. 예를 들어 우리 교수님은 signle-cell RNA sequencing 분석을 위한 계산 도구를 만들고 그것들을 이용해 여러 질병 분석을 해오셨다. 그런데 내가 이 분야를 공부해보니 이 분야는 label이 없는 경우가 많아서 주로 unsupervised learning을 사용하게 되고 그러다 보면 scVI와 같은 variational autoencoder 위주의 기법이 제일 잘 된다는 것을 알았다. 더 많은 fancy한 기법들이 있지만 내 판단으로는 간단한 VAE가 제일 잘 되는 것 같고 나머지 성능 차이는 데이터의 양과 질에 의해 결정되는 것 같다. 즉, 이 분야는 내 생각에 VAE 이상의 deep learning 기법이 화려하게 적용되기는 애매한 분야라는 것이다. 특히나 protein science랑 비교한다면 deep learning 전공자가 택하기에 부담이 될 만한 분야임에 틀림없다. 왜냐하면 이 분야의 데이터는 이미지, 서열과 같지 않고 정말 biological assay 실험 데이터라서 데이터를 이해하는 것부터가 진입 장벽이 꽤 높다. 논문을 쓰려고 해도 method는 30% 이하인 것 같고 나머지는 biological / medicinal discovery가 있어야 좋은 저널을 쓸 수가 있다. 즉 medical imaging이나 protein science에 비해 biology를 훨씬 많이 알아야 한다는 부담이 있는 것이다.

이렇다 보니 내 연구실의 특성상 single-cell 데이터 분석을 하긴 해야겠고, 또 나의 장점을 살리려면 deep learning을 해야 하는데, single-cell 분야에서는 VAE 밖에 안 하고.. 하는 고민이 오랫동안 있었다. 그래서 내린 결론은 protein science에서 deep learning을 통해 유의미한 모델(가령 protein-protein docking model)을 만들고 그걸 이용해서 high throughput sequencing으로 대변되는 cellular science 분야에서 새 지식을 추출하자는 것이다. 그래서 난 우선 EpiGen이라는 TCR → epitope 변환기를 만들었고 (이는 protein science에 가까움) 그것을 이용하여 암과 COVID-19 환자에 대한 single-cell RNA - TCR sequencing 데이터에 대한 분석을 진행하게 되었다.

protein science 하는 사람들은 protein science만 보고, cellular science 하는 사람들은 cellular science만 보게 되는데, 이 둘을 이어주는 연구들이 더 많이 나오게 된다면 인간 면역 체계의 이형성을 제대로 이해할 수 있게 되는 날이 오지 않을까 기대해본다.

Replies:

Leave a Reply:












Password: