하둡이 게놈 시퀀싱에 완벽한 이유

콘텐츠

유전체학의 현재와 미래
게놈 매핑 산업의 요구
솔루션에서 무엇을 기대합니까?
하둡이 게놈 시퀀싱을위한 최고의 솔루션 인 이유
버그 없음, 스트레스 없음-인생을 파괴하지 않고 인생을 바꾸는 소프트웨어를 만드는 단계별 가이드
하둡은 무엇을 할 수 있습니까?
하둡을위한 기회
석궁 : 차세대 데이터 관리 플랫폼
다른 하둡 기반 유전체학 소프트웨어
결론

출처 : A3701027 / Dreamstime.com

테이크 아웃 :

게놈 시퀀싱에는 모든 데이터를 처리 할 수있는 강력한 기술 도구가 필요하며 Hadoop은 업무에 달려 있습니다.

임상 유전체학은 사람들이 빠르고 정확한 결과를 처리하기 위해 최첨단 기술을 연구하고있는 매혹적인 주제입니다. 시중에는 많은 게놈 시퀀서가 있으며 페타 바이트의 서열 데이터를 생산하고 있으며 시퀀싱의 성장은 가까운 시일 내에 엑사 바이트의 데이터를 생산할 것입니다. Hadoop은 복잡한 유전체학 워크 플로우를 처리하기위한 완벽한 플랫폼입니다. 하둡은 방대한 양의 정보를 저장하고 정렬 할 수 있으며 의미있는 분석을 제공 할 수 있습니다. (실제로 필요한 데이터 양에 대한 정보를 얻으려면 비트, 바이트 및 그 배수 이해를 읽으십시오.)

유전체학의 현재와 미래

오늘날 게놈 매핑은 개발의 절정에 도달했습니다. 유전체 산업과 관련된 많은 사람들이 호기심으로 가득 차고 있으며, 새로운 기회가 생겨날수록 더 나은 기술은 시간이 필요합니다. 게놈 시퀀싱은 매우 반복적이고 자원 집약적 인 작업입니다. 2013 년 한 해에만 약 15 페타 바이트의 데이터가 생성되었으며 2,000 개의 시퀀서 만 생성되었습니다. 이 죠 드롭 핑량에는 300KB의 서열화 된 인간 게놈 데이터가 포함되었다. 이 데이터 생성 속도에서 2018 년까지 약 1 엑사 바이트의 데이터가 생성 될 것으로 예상 할 수 있습니다. 이는 시퀀서의 증가로 인해 실행 당 더 많은 데이터를 생성합니다. 또 다른 이유는 매우 강력하고 저렴한 게놈 시퀀싱 머신의 출현 때문입니다. 2008 년부터이 기계의 가격은 꾸준히 감소하고 있습니다. 이것은 시장에 진출한 강력한 차세대 기계 때문입니다.

게놈 매핑 산업의 요구

복잡한 알고리즘은 인간 게놈에서 수집 된 데이터를 처리하는 데 사용됩니다. 그런 다음이 정보를 저장해야합니다. 원본 데이터와 비교하기 위해 향후 검토 될 수 있습니다. 100GB의 데이터를 처리하고 저장하는 작업은 그다지 어렵지 않습니다. 특히 시퀀싱 센터에서 사용되는 강력한 머신으로 데이터를 처리 할 때는 더욱 그렇습니다. 연구에 따르면이 양의 데이터는 단 1,000 시간 안에 처리 할 수 있으므로 매우 쉽습니다. 이 기술 발전 속도에서 게놈 산업은 단 몇 초 만에 수천 기가 바이트를 곧 처리 할 것입니다.

그러나 데이터 관리 및 스토리지 기술은 빠르게 발전하지 않아 귀중한 데이터가 크게 손실 될 수 있습니다. 이것은 인간 유전체학의 진보를 심각하게 방해 할 것이기 때문에 바람직하지 않습니다. 따라서 쉽게 업데이트 할 수있는 효율적인 데이터 관리 기술에 대한 요구가 매우 높습니다. 이는 강력한 컴퓨터가있는 대규모 실험실에서 소규모 병원 및 실험실로 게놈 매핑이 이동하는 가까운 장래에 특히 효과적 일 수 있습니다.

솔루션에서 무엇을 기대합니까?

새로운 게놈 시퀀싱 기술이 발견되고 개발되는 속도는 매우 빠릅니다. 이 속도는 주요 질병을 근절하기위한 강력한 단계의 형태로 의학에 매우 유익 할 수 있습니다. 그러나이 속도도 매우 어려울 수 있습니다.

시퀀싱 프로젝트에서 생성 된 대량의 데이터를 관리하는 형태로 문제가 발생합니다. 따라서 빅 데이터의 저장 및 처리에 도움이되는 효과적인 솔루션이 필요합니다. 이 솔루션은 저렴하고 빠르며 적응력도 뛰어나야합니다. 이 솔루션에서 제공하는 분석도 정확하고 일정해야합니다. 문제의 해결책은 무엇입니까? 의심 할 여지없이 하둡입니다. Hadoop 사용에 대한 자세한 내용은 서비스로서 5 개의 빅 데이터에 대한 통찰력 (Hadoop)을 참조하십시오.

하둡이 게놈 시퀀싱을위한 최고의 솔루션 인 이유

유전체 산업에 필요한 것은 데이터를 효과적으로 관리하고 처리하고 향후 사용을 위해 저장하는 데 도움이되는 우수한 솔루션입니다. 이 솔루션은 Hadoop 소프트웨어와 완벽하게 일치하는 것 같습니다. 따라서 Hadoop은 유전체 산업의 현재 데이터 저장 기술을 크게 향상시킬 수있는 완벽한 빅 데이터 관리 소프트웨어로 간주 될 수 있습니다.

Hadoop의 실시간 기능을 사용하면 게놈 시퀀서가 대량의 데이터를 실시간으로 한 번에 분석하고 저장할 수 있습니다. 또한 데이터의 향후 사용을 가능하게합니다. 하둡은 기존 시스템보다 훨씬 빠르고 안정적이기 때문에 많은 레거시 시스템을 능가 할 수 있습니다.

버그 없음, 스트레스 없음-인생을 파괴하지 않고 인생을 바꾸는 소프트웨어를 만드는 단계별 가이드

아무도 소프트웨어 품질에 신경 쓰지 않으면 프로그래밍 기술을 향상시킬 수 없습니다.

하둡은 무엇을 할 수 있습니까?

하둡으로 인해 유전체학 및 유전자 시퀀싱 분야에서 많은 가능성과 기회가 열렸습니다. Hadoop은 더 빠른 시퀀싱이 가능하기 때문에 병렬 컴퓨팅 옵션을 제공합니다. 또한 Hadoop의 MapReduce 기능을 사용하면 많은 수의 유전자를 매우 쉽게 매핑 할 수 있습니다. 이 때문에 Hadoop을 사용한 시퀀싱은 실제로 "차세대"가되고 훨씬 덜 복잡해집니다.

하둡을위한 기회

하둡은 게놈 산업에서 몇 가지 기회를 가지지 만 가장 좋은 것은 Lynda Chin의 논문 "Gene genomic data of cancer genomic data"의 Genes & Development 저널에서 비롯된 것입니다. 이 기사에서 그녀는 현대 유전체학이 어떻게 새로운 문을 열 었는지에 대해 논의하며, 이는 암에 대한 유전체 정보의 발견과 같은 많은 긍정적 인 결과를 가져 왔습니다. 이로 인해 우리는 암 자체에 대한 치료법을 발견하는 데 더 가깝습니다. 그러나이 분야에서 더 나은 연구 기능을 위해서는 약간의주의와 강력한 데이터 관리 응용 프로그램이 필요합니다. 이는 하둡이 속도, 성능 및 정확성을 입증 할 수있는 최고의 기회입니다.

석궁 : 차세대 데이터 관리 플랫폼

게놈 재 시퀀싱 분석을위한 소프트웨어 파이프 라인 인 Crossbow는 최고의 솔루션 중 하나입니다. 이는 Bowtie라고하는 시퀀싱 된 데이터를 정렬하는 빠른 알고리즘과 시퀀싱 된 데이터, 즉 SoapSNP라는 유전자형을 비교하고 검사하는 강력한 알고리즘 사이에 Hadoop 내에서 통합 된 결과입니다. Apache Hadoop을 기반으로하며 MapReduce 프레임 워크 구현을 기반으로합니다. 석궁은 휴대용이며 확장 가능하며 클라우드 컴퓨팅 도구로도 적합합니다.

이 강력한 통합을 통해 10 개의 노드가있는 로컬 클러스터에서 단 하루 만에 완전한 게놈을 검사 할 수 있습니다. 40 노드 클러스터를 사용하면 프로세스가 훨씬 빨라지고 총 비용이 $ 100 미만인 단 3 시간 만에 완료됩니다! 석궁의 정확성을 테스트하기 위해 수행 된 연구에 따르면 각 게놈을 99 % 정확도와 비교할 수 있습니다. Crossbow의 또 다른 유용한 기능은 클라우드에서 실행된다는 것입니다. 따라서 Crossbow는 병원과 같은 수천 개의 미래 시퀀싱 센터가 강력하고 비용이 많이 드는 컴퓨터와 기술 없이도 대량의 게놈 데이터를 시퀀싱 할 수있게합니다.

다른 하둡 기반 유전체학 소프트웨어

많은 기업들이 유전체 세계를 변화시키는 데 Hadoop의 힘을 인식했습니다. 그들은 고급 게놈 시퀀싱의 잠재력을 활용하기 위해 Hadoop을 적절히 수정했습니다. 유명한 Hadoop 기반 게놈 시퀀싱 솔루션의 일부 예는 다음과 같습니다.

Hadoop-BAM : 유전자형 분석과 같은 유전체학과 관련된 다양한 활동에 Hadoop의 MapReduce 기능을 활용하는 강력한 데이터 관리 도구입니다. 이진 정렬 / 맵 형식으로 작동합니다.
Cloudburst :이 Hadoop 기반 솔루션은 2009 년에 개발되었습니다. 게놈 서열을 비교하고 개별 유전자를 매핑하는 데 매우 효율적입니다. 이 목적을 위해 설계된 최초의 하둡 기반 응용 프로그램 중 하나이기도합니다.

결론

빅 데이터와 유전체 산업의 통합은 현대에 유리한 것으로 판명되었습니다. 이 플랫폼은 암과 같은 여러 질병의 치료를 발견하는 데 효과적입니다. 게놈 맵핑에 의해 발견되는 데이터는 이러한 질병의 예방 정보의 공식화에 사용될 수있다. 빅 데이터의 출현은 유전체학 세계의 전환점으로 간주 될 수 있으며, 정보가 현명하게 사용된다면 더 넓은 의료 분야에서도 가능합니다. 이 분야를 발전시키는 유일한 방법은 Hadoop과 같은 적절한 데이터 관리 도구를 사용하는 것입니다.