Next generation bio-data based genome research and commercialization
주관 연구 기관 : (주) 테라젠 이텍스
협동 연구 기관 : KAIST, 연세대학교, 산테카바이오, KT
프로젝트 기간 : 2011. 06 ~ 2016. 05
1. 총괄 목표
-워크플로우 상의 파이프라인 생성 시스템 – 한국과학기술원 및 연세대학교
클라우드 기반에서 대용량 생명정보 데이터 처리를 위한 자동화 워크플로우를 생성하고 연구자들간의 협업을 통한 파이프라인을 관리한다. 선도 유전체, 후성유전체, 전사체 등의 대용량 유전체를 효율적으로 처리할 수 있는 파이프 라인을 구축하고 통합한다. 또한 Business Process Modeling을 활용한 워크플로우 스케줄링 시스템을 구축한다.
가. PGP, 1000 genome 등과 호환 가능한 표준화 파이프라인 구축
플랫폼(454, Solexa, SoLid)별 다양한 유전체 데이터 포맷 및 다양한 데이터베이스의 (PGP, 1000. Genome) 유전 정보의 포맷을 표준화 하여, 분석 알고리즘 간의 호환이 가능한 데이터의 표준화 파이프라인을 구축하여, 다양한 알고리즘에 대한 적용성을 확장한다.
나. 유전체, 전사체, 변이체 및 후성 유전체 분석용 파이프라인 개발
전장유전체(de novo, re-sequencing), 전사체, 후성유전체 해독 등의 다양한 유전체 해독 방식 별 조합 및 분석 알고리즘의 개발 및 최적화를 수행 하며, 자동화 파이프라인을 구축함으로써, 인간 유전체의 통합적인 유전 정보의 분석을 통한 질병 및 특정 총체적 유전형에 대한 분석이 가능한 파이프 라인을 개발한다.
-연차별 목표
1차년도
클라우드 자원관리 시스템 개발(KT, 테라젠이텍스, 카이스트, 연세대)
① NGS 데이터 분석을 위한 클라우드 기반의 미들웨어 설계
② 파이프라인 작업 지원을 위한 워크플로우(workflow) 설계
③ 기술 분석 및 기능 정의
④ 작업 처리 시나리오정의
⑤ Workflow architecture 및 interface 설계
⑥ NGS 데이터 통합 관리 및 분석 작업 스케줄링 기술 설계
⑦ 기술 분석 및 기능 정의
⑧ NGS데이터 페더레이션을 위한 스토리지 리소스 브로커 설계
⑨ 병렬 처리 제어 및 스케줄러 시스템 개발
⑩ 가상 머신 및 스토리지 자원 모니터링 시스템 개발