Next genome system technology development (안씀)

차세대 생명 정보를 활용한 유전체 연구 및 상용화
Next generation bio-data based genome research and commercialization

주관 연구 기관 : (주) 테라젠 이텍스
협동 연구 기관 : KAIST, 연세대학교, 산테카바이오, KT
프로젝트 기간 : 2011. 06 ~ 2016. 05

1. 총괄 목표
-워크플로우 상의 파이프라인 생성 시스템 – 한국과학기술원 및 연세대학교
클라우드 기반에서 대용량 생명정보 데이터 처리를 위한 자동화 워크플로우를 생성하고 연구자들간의 협업을 통한 파이프라인을 관리한다. 선도 유전체, 후성유전체, 전사체 등의 대용량 유전체를 효율적으로 처리할 수 있는 파이프 라인을 구축하고 통합한다. 또한 Business Process Modeling을 활용한 워크플로우 스케줄링 시스템을 구축한다.
15
가. PGP, 1000 genome 등과 호환 가능한 표준화 파이프라인 구축
플랫폼(454, Solexa, SoLid)별 다양한 유전체 데이터 포맷 및 다양한 데이터베이스의 (PGP, 1000. Genome) 유전 정보의 포맷을 표준화 하여, 분석 알고리즘 간의 호환이 가능한 데이터의 표준화 파이프라인을 구축하여, 다양한 알고리즘에 대한 적용성을 확장한다.
나. 유전체, 전사체, 변이체 및 후성 유전체 분석용 파이프라인 개발
전장유전체(de novo, re-sequencing), 전사체, 후성유전체 해독 등의 다양한 유전체 해독 방식 별 조합 및 분석 알고리즘의 개발 및 최적화를 수행 하며, 자동화 파이프라인을 구축함으로써, 인간 유전체의 통합적인 유전 정보의 분석을 통한 질병 및 특정 총체적 유전형에 대한 분석이 가능한 파이프 라인을 개발한다.

-연차별 목표

1차년도
클라우드 자원관리 시스템 개발(KT, 테라젠이텍스, 카이스트, 연세대)
① NGS 데이터 분석을 위한 클라우드 기반의 미들웨어 설계
② 파이프라인 작업 지원을 위한 워크플로우(workflow) 설계
③ 기술 분석 및 기능 정의
④ 작업 처리 시나리오정의
⑤ Workflow architecture 및 interface 설계
⑥ NGS 데이터 통합 관리 및 분석 작업 스케줄링 기술 설계
⑦ 기술 분석 및 기능 정의
⑧ NGS데이터 페더레이션을 위한 스토리지 리소스 브로커 설계
⑨ 병렬 처리 제어 및 스케줄러 시스템 개발
⑩ 가상 머신 및 스토리지 자원 모니터링 시스템 개발

16