首页
正文
2018/04/25

有一本书,只有它能读

郭佳明



点击“戴尔企业级解决方案”快速订阅

“

毫不夸张的说,

人类每一次进步都由计算驱动

在精准医疗的范畴里,

每个人都是一本由遗传密码写成的书,

字数有3乘10的9次方之多,

装订成书,有四十层楼那么高——

尽管这本书目前只有3%被读懂,

然而由计算所驱动的“一小步”,

已经令某些特定癌症的患者“绝处逢生”;

飞速发展的高性能计算,

将辅助医学专家们加速破译人体遗传密码,

直到有一天,医疗将不再等同于治疗,

而真正成为维护健康的天使之翼!

”


就眼前的医疗体系而言,仍然是以病人为对象,以诊断治疗为目的,由医院、医生和医药组成“三医联动”的概念化医疗体系,为患者提供诊治服务。


而随着精准医学的发展,可以通过对大数据的分析,在尚未患病的时候就全面了解和掌握的评测对象的健康状况,预测未来发展趋势,并通过更加主动的干预手段来维护健康状况。


精准医疗的一小步


所谓精准医疗(Precision Medicine),是以个体化医疗为基础、随着基因组测序技术快速进步,以及生物信息与大数据科学的交叉应用而发展起来的新型医学概念与医疗模式。

 

其本质是通过基因组、蛋白质组等组学技术和医学前沿技术,对于大样本人群与特定疾病类型进行生物标记物的分析与鉴定、验证与应用,从而精确寻找到疾病的原因和治疗的靶点,并对一种疾病不同状态和过程进行精确分类,最终实现对于疾病和特定患者进行个性化精准治疗的目的,提高疾病诊治与预防的效益。

 

信息技术将成为推动精准医疗发展的强大动力,并为基因测序技术和生物医学分析技术带来革新与进步。高性能计算在商业领域的普及应用,以及大数据分析技术,为精准医疗的发展提供了广阔的想象空间。


这本“书”要这样来读


每个人约有1万亿个细胞,每个细胞里面都有23对染色体,这些染色体中包含的DNA由ATCG不同碱基序列构成,这些基因序列就是破解人类遗传信息奥秘的钥匙,基因测序工作就是要通过大规模的计算分析从海量的数据信息中辨识载有的基因及其序列,最终获取遗传信息。

 

目前基因测序在临床上的应用主要有两类:一类是针对普通人的疾病筛查,通过测定已知的与某种疾病相关的基因序列位点,来推断其未来罹患该种疾病的概率;另一类是针对癌症等致命性疾病的伴随诊断,通过测定某些特定的基因序列位点,在一系列的药物或治疗方案中找到对特定患者最为有效的药物或方案。

 

基因测序技术应用需要对海量、复杂、多变的数据进行分析计算,因此需要高性能计算机来进行基因数据的统计和分析。基因测序分析对高性能计算机的计算性能、内存容量、数据带宽等要求很高,同时还必须支持完善的基因测序分析工作流。


基因测序流程如下图:



测序数据分析流程(以全基因组分析为例)如下图:



实验仪器测量数据处理和分析,首先通过实验仪器对生物分子进行测量,使用一些后处理软件对原始的大量数据进行处理和分析。比如对DNA分子进行研究的Illumina 公司的测序仪Genome Analys,HiSeq 2000以及相应的后处理软件GAPipeline等;ABI公司的测序仪Solid3、Solid4以及后处理软件Bioscope。然后对序列数据进行同源及相似性搜寻、比对、序列分析、遗传发育分析等,应用软件数量巨大,各种软件在同源性分析算法上各有特点,通过基因测序获得只是ATCG四种不同碱基的组合,还不是直观的结果;要将测序结果进行解读,还需要在高性能计算机上进行大量的演算和分析。

 

在高性能计算机中计算时需要多个软件协同工作,一步一步完成数据的分析,最终才能呈现出可读的结果。通常要得到最终的结果,要经过样本的采集、提取组织DNA、进入测序仪测序,随后进入计算机对测序数据进行标准化的计算,最终进行数据的分析、核验。

 

在短短十几年间,已经形成了多个研究方向,其中与高性能计算相关的主要研究重点如下:


序列比对:序列比对(Sequence Alignment)的基本问题是比较两个或两个以上符号序列的相似性或不相似性。


从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列。在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮、遍历和比较数据库中的DNA序列、比较两个或多个序列的相似性、在数据库中搜索相关序列和子序列、寻找核苷酸(nucleotides)的连续产生模式、找出蛋白质和DNA序列中的信息成分。

 

在序列对比的过程中将会产生巨量的数据,这对存储系统带来了大规模的挑战。如下图:


 可以看出,现在用于存储的硬盘容量每14个月会有一倍的增长,而基因序列的数据量则每5月左右会翻一番,例如:CeleraGenomics 和Sanger Centre等主要基因研究机构都在管理数以万亿字节计的数据,其数据库信息量已经超过美国国会图书馆全部藏书,也超过了人类开展生物学研究以来积累的数据量。


序列拼接:序列拼接是将测序生成的reads短片段拼接起来,恢复出原始的序列。


该问题是序列分析的最基本任务,也是基因组研究成功与失败的关键,拼接结果直接影响到序列标注,基因预测、基因组比较等后续任务。基因组序列的拼接也是基因组研究必须解决的首要难题。其困难不仅来自它的海量数据(以人类基因组序列为例,从数量为10兆级的片断恢复出长度为亿级的原始序列),而且源于它含有高度重复的序列。

 

从计算机方面来讲,在拼接初期,会有大量的初始数据导入内存,然后对这些数据进行处理,因此,序列拼接对于计算机的内存量和计算能力都有非常大的需求。


基于结构的药物设计:人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。


基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物。然后在数据库中进行对比并且得到优势结构,最后使用分子模拟的方法实现药物分子的设计。

 

在通常的处理过程中,常用到如下软件:


戴尔助力精准医疗展开“天使之翼”


根据以上基因测序软件的普遍特点,戴尔高性能计算集群有如下配置建议:

基因比对、拼接等计算非浮点密集型计算应用,CPU利用率、idle%呈现规律性交替变化,并且程序起始阶段CPU利用率低,主要进行IO处理、高主频可加快进度,双路节点配置建议Intel E5-2660V4以上;

内存带宽随CPU利用率交替变化并且峰值并不高,内存容量需求较大,基本上是输入序列大小的5-6倍,单节点搭配8条16GB或32GB内存即可满足中小规模算例需求;对于大规模的基因拼接、比对计算,内存容量建议配置在1-2TB以上,DELL R930服务器最大可支持6TB内存(单根64GB*96根),可充分保障计算需求;

网络压力较低,仅在读写IO时涉及到较多网络传输,普通以太万兆即可满足网络带宽需求,选择IB网络或Intel OPA网络也会在一定程度上降低延迟、提升效率;

存储读写压力适中,磁盘读写均呈现阶段性,中小规模算例存储读写峰值带宽均在500MB/s以下,选用存储服务器DELL R730XD即可满足需求;大规模算例如人体全基因组比对、拼接等,在程序初始阶段输入文件磁盘读取、计算结果磁盘写阶段对存储的带宽压力会比较大,此时建议选择并行文件存储系统,比如IEEL,可提供GB/s以上的带宽,更好的应对存储压力。



解决方案配置及拓扑示例



未来,在高性能计算支持下的精准医疗将飞速发展,并重塑医疗健康行业。戴尔高性能计算解决方案,将助力精准医疗展开“天使之翼”,不仅护卫患者生命安全,更守护每个人的健康,从此一马平川。


在线咨询
项目咨询
采购咨询专线400-884-6610
订阅偏好享优先通知
热门评论
暂无相关评论
删除回复
回复
删除回复
更多回复
查看全部条评论
{{dataFromApi ? '您是否在找' : '其他企业都在看'}}
{{item.slogan}}
{{item.slogan}}
{{item.title}}
咨询客服获取特惠价{{item.sale}}{{item.price}}{{item.sale}} {{item.price}}
项目咨询
发表评论...
  • 在线客服
    联系客服
    (工作日 08:30-17:30)
  • 项目咨询
  • 采购咨询专线
    400-884-6610
    (工作日 08:30-17:30)
  • 售后咨询专线
    7*24小时客户支持
    400-886-8616
    400-886-8618
取消发送
取消发送
热门评论
删除回复
回复
删除回复
更多回复
暂无相关评论
发表评论...
发送
郭佳明
删除该评论,是否确认操作?
取消
确认

参与问卷提交即有机会成为幸运用户,

赢取精彩礼品一份,寻找幸运的你,快来参与吧!

立即参与>>
5秒后自动关闭
取消
最近搜索
    热门搜索
    • AI PC
    • 2025新品
    • Dell Pro 笔记本
    • Dell Pro 台式机
    • Dell Pro Max 工作站
    • Dell Pro 显示器
    • 17G 服务器
    • 数据存储
    • 数据保护

    如果您对当前页面内容感兴趣,

    可填写“项目咨询单”,

    进行专业咨询及帮助。

    戴尔企采中心
    戴尔专线客服
    您好,我们的在线客服人工咨询时间为工作日的 8:30-17:30,感谢您的咨询! 请留下您的联系方式,我们会在下个工作日第一时间与您取得联系,祝您生活愉快,工作顺利~
    管理您的Cookie
    戴尔使用不同类型的 Cookie 来优化您的体验并启用某些网站功能,改善您的整体网页浏览体验。请注意,如果阻止 Cookie,则可能会影响您的网站体验,并可能对我们可提供的服务或功能造成影响。
    基本

    允许用户在我们的网站上移动以及提供访问诸如您的个人资料和购买、登录凭据以及网站其他区域等功能的访问权限。

    营销

    用于了解我们网站上的用户行为,并展示与您的兴趣更相关的广告。

    统计

    通过收集和报告信息,帮助我们了解访问者如何与我们的网站互动。

    * 点击确认按钮或关闭Cookie弹窗代表您已同意以上内容。

    拒绝
    确认
    取消
    确认
    请确认您的邮箱地址,
    我们会发送下载链接至您的邮箱。
    请填写正确邮箱
    您的企业近期是否有采购 IT 产品的计划?
    请选择
    提交并获取下载链接
    提交成功,下载链接已发送到您的邮箱,
    请查收!

    戴尔发布针对AI领域服务器产品

    还剩2页未读

    图片标题

    戴尔发布针对AI领域服务器产品

    批量议价
    填写您的感兴趣的产品及个人信息,提交成功后会有专人与您沟通,为您提供专属底价。
    OptiPlex 3050微塔式机和小型机Tower249020OptiPlex 3050微塔式机和小型机Tower249020OptiPlex 3050微塔式机和小型机Tower249020OptiPlex 3050微塔式机和小型机Tower249020
    为通用型商务应用程序设计的可靠为通用型商务应用程序设计的可靠为通用型商务应用程序设计的可靠
    型号

    8G 1TB SAS H330 DVDRW 495W

    参考价格
    6499.006499.00咨询客服获取特惠价
    意向购买数量
    1
    * 公司名称
    请输入公司名称
    * 姓名
    请输入姓名
    * 手机
    请输入手机
    * 邮箱
    请输入邮箱
    * 需求描述
    请选择
    采购专线
    联系客服
    提交
    *验证码无效
    确认
    全新PowerEdge DSS8840
    DSS8440是一款2路4U服务器,旨在为机器学习应用提供极高的性能,配备多达10个加速器
    PowerEdge DSS840 型号1
    PowerEdge DSS840 型号2

    恭喜您,秒杀成功!

    后续工作人员会与您进行联系

    抱歉,您没有抢到!

    您还可以参与其他产品的秒杀活动哦

    请输入兑换码

    PowerVault ME4012
    限时免费升级 / 提速不加价 / 性能秒提7倍
    限时促销
    5秒后自动关闭

    感谢您的报名

    返回首页
    请输入验证口令
    复制以下链接观看视频
    复制
    Toast 内容
    补全信息
    请补全您的身份信息
    * 姓名
    请输入姓名
    * 企业邮箱
    请输入企业邮箱
    * 公司全称
    请输入公司全称
    提交
    请准确填写您的邮箱
    完整报告即时发送到您的邮箱
    * 姓名
    请输入姓名
    * 企业邮箱
    请输入企业邮箱
    * 公司全称
    请输入公司全称
    提交
    请选择标签,将有助于提供精准服务
    您对哪类产品感兴趣?
    • 云
    您将应用于哪个领域?
    • 大数据
    • 软件定义
    请输入您的企业邮箱与手机号,方便后续发送资料
    企业邮箱

    请输入企业邮箱

    手机号

    请输入手机号

    订阅成功

    我们将每月通过邮箱发送资料报告发给您

    成功图片
    关闭
    文章标题
    文章标题
    文章标题
    文章标题
    订阅您感兴趣的内容,我们将每月通过邮箱发送资料报告发给您
    开启订阅
    长按扫码关注戴尔企采网
    了解更多企采会员福利
    长按识别跳转小程序
    手机号绑定
    手机icon图标

    请输入手机号

    验证码icon图标
    获取验证码

    请输入验证码

    绑定手机号
    绑定手机号的三大理由
    1.网信办规定,互联网注册用户要提供基于移动电话号码等的真实身份。
    2.微信授权登录出现故障时,仍用手机号顺利登录,会员各项权益及活动不受影响。
    3.绑定手机号即可享受免费抽奖、0元试用、积分兑换好礼等会员权益。
    loading请稍后...
    订阅弹层
    订阅表单弹层
    邮箱:
    姓名:
    订阅成功弹层
    {{form.textBtnText}}
    {{form.textBtnText}}
    {{form.subBtnText}}
    去注册
    {{form.textBtnText}}
    获取“戴尔资产报告”
    请提供设备使用方的相关信息,以免影响后续保修
    立即获取
    获取“戴尔资产报告”
    您已提交成功,请您注意查收邮件,“戴尔资产报告”将在2个工作日以邮件的形式发送给您
    查看设备保修情况
    注册有礼
    去认证