生物信息学与计算生物学的区别-简介



几天前,莫斯科国立大学力学与数学学院毕业生,巴塞罗那Ponepu Fabra大学系统生物学(酵母中的功能基因组学)博士学位的Alsu Missarova在我们的YouTube上讲话。现在Alsou是JOhn Marioni实验室(EBI,英国剑桥)的博士后,从事单细胞RNA测序以及与空间转录组学的整合。



Alsou简要介绍了什么是生物信息学及其与计算生物学的区别。我们与您分享广播的录音和笔录:我们希望这是对从事生物信息学的所有演讲者的介绍。






我叫Alsu Missarova。我被要求告诉您有关生物信息学的信息-特别是我要解决的问题,我要处理的数据种类,技术生物学家,计算机科学,数据分析有偏见的人等在计算生物学中存在的问题。



我本人不是生物信息学家,而是计算生物学家。这两个概念是高度相关的,并且它们之间的界线是模糊的,但是了解它们之间的差异很重要。对于这两者,目标都是回答一些生物学问题,或者增进我们对生物学过程如何工作的理解。他们的方法类似:处理和分析大量无法用肉眼和双手进行处理的数据。区别在于优先级。计算生物学家宁愿有一个相对特定的生物学问题,也需要了解要收集什么样的数据。您需要有权访问此数据,您需要能够正确处理,分析,解释甚至回答问题。当目标是信息学时,实际上是创建用于处理生物数据的算法,主体,方法。最有可能将任务放在首位,并且数据将采用更工业化的格式。也就是说,它们将具有将要处理的特定数据格式,这将需要为大量个人或生物产生,等等。



您可以这样看:计算生物学家更可能是可以打开一些库并使用某些工具的生物学家,而生物信息学则更可能是一位不关心生物学,不真正理解生物学的计算机科学家,他只是与数字,字符串和数据一起使用。实际上,当然不是。这对于任何领域都是如此,但是在任何领域使用数据时,您绝对需要了解您拥有的数据类型以及数据中的杂点。而且您将收到的生物学数据中会有很多噪音。粗略地讲,它可以分解为技术和生物噪声。技术噪音源于创建数据的机器不完善且有缺陷的事实。由于任何系统都有很多变化,因此会产生生物噪声。即使在同一生物的两个细胞之间,即使它们是相邻的皮肤细胞,也会存在生物学差异。必须将技术噪声与生物噪声区分开,消除技术噪声并留下生物噪声,这需要对生物学有所了解。



让我们继续研究生物学中拥有什么样的数据。首先,当人们聆听生物信息学时,他们会考虑DNA测序(从原则上讲是合理的)。我想每个人都知道这是什么:相对而言,它是确定生物体具有哪种DNA序列的能力。就是说,DNA是一个很长的分子。对人类来说,大约是31亿个“字母”。 4个字母-ACDH-这些是核苷酸。因此,人们学会了阅读生物的基因。很酷现在,例如,您可以确定两个人的顺序,将它们进行比较和对比,这些顺序之间的区别是什么,这些人之间的区别是什么,并尝试找到因果关系。这就是DNA如何影响您的表型,两个人之间有什么区别。同样,让我们​​在计算生物学中说:您可以从相邻物种中获得两种生物,并以相同的方式对其进行测序-确定DNA序列,并据此尝试了解两种生物之间的差异以及什么DNA对其产生实际影响。



现在,您可以转到另一个维度,并提出以下问题:如果您从一个生物体中提取两个细胞,那么一个人又有两个细胞,那么它们之间有什么区别?也就是说,相对而言,皮肤上皮细胞将不同于神经元。在这里,DNA不再非常适合。这种公理大体上是错误的:一个生物的细胞的DNA序列总是相同的。这是错误的,因为生物是动态结构。它成长,共享,死亡。在此过程中,突变会累积。 DNA复制过程并不完美,有时会破裂。 DNA会自我重复,但不能完美地自我重复。突变可以是中性的,不会导致任何后果,也可以是有害的,从而导致细胞功能障碍。当然,如果我们提取,则两个细胞之间的DNA序列或多或少是相同的,但它们的功能有所不同。因此,大量的生物学问题旨在理解不同细胞之间的差异是什么以及影响该差异的因素。社区对此类数据有要求。您需要能够突出显示,计算和读取此差异。



这就是我们要做的事情。人们在这里使用的主要(或主要方式之一)数据格式是RNA测序。现在,我将简要讨论什么是RNA,以及一般地说RNA测序的发展。



这是一个非常简短的版本,实际上,一切都更加复杂。支持细胞生物合成的两个支柱是转录和翻译。 DNA是一个很长的单词,可以编码某些信息。单元可以将此信息处理,读取,处理为功能元素。



蛋白质就是一个很好的例子。这些是单元中的小型机器,它们执行某些功能并提供该单元的寿命和功能,以便它按预期方式工作。蛋白质由基因编码。基因是DNA序列中的子字。转录是指大型分子机器位于DNA分子的长双螺旋上-聚合酶穿过基因,形成拷贝并将其扔入细胞质。这些DNA副本(不是真正的副本)以一定数量创建。因此,两个不同的细胞具有来自不同基因的不同量的RNA。对于上皮细胞,需要更多的基因A,对于神经元-需要更多的基因B,并且产生不同数量的基因。然后处理RNA,然后以更最终的格式处理时,另一台计算机“坐在”线程上。分别,人们谈论RNA测序时,相对而言,是指计算细胞中哪些基因产生多少RNA。这是RNA组成或RNA测序。



实际上,人们学会了这样做非常酷。长期以来,该技术的主要局限性在于需要大量细胞才能获得RNA物质。也就是说,有必要将成千上万个细胞放在一起(自然地,已经不可行),除去RNA并测序。



问题在于细胞经常会彼此不同。生物学上会有很多变异,因为对于许多过程(例如,发育,免疫学或肿瘤学),功能不同的细胞之间会有很大的相互作用。例如,当完成活检并取出大量细胞时,就得到了混合。如果仅对所有细胞都期望这些RNA,那么您将失去变异性。而且您不了解也无法学习它们。



因此,社区提出了在单个单元级别执行此操作的请求。他们十年前学会了做这件事。这非常酷,对于许多领域来说非常重要。您可以非常深入地研究系统,从微观角度查看什么样的细胞。但是也有局限性。其中之一是您正在丢失空间信息。相对而言,要进行RNA测序,您需要切一块组织,切成细胞,然后进行单细胞RNA测序。



但是,以一种友好的方式,许多功能在于细胞在空间中如何相互作用。为此,他们提出了特殊的转录组学技术-在不丢失空间信息的情况下测量RNA的能力。



使用显微镜的主要技巧之一是:取下组织,将其固定-即,取一组细胞,然后将其固定在显微镜中。然后,您向该组织发送小型探针,该探针包含两个元素:其中一个对您的RNA非常特异,并且仅与那些重要的基因结合。第二个将是发光的荧光标记。您可以以一定频率将显微镜照到组织上,然后确定细胞中有多少萤火虫发光。因此,将有尽可能多的RNA分子。实际上,我正在做的任务是在特殊的转录组学和单细胞RNA测序之间。相对而言,我在这里进行开发,看着小老鼠;我有单细胞和特殊转录组学方面的数据,我试图将在特殊情况下看到的细胞与在单细胞RNA序列中看到的细胞进行比较。



我将继续探讨技术人员和ML工程师原则上可能感兴趣的问题。我确定了当前需要的三种任务,它们都属于医学领域。现在,医学获得了大量资源,大量资金和大量数据。



第一种任务是药物发现。有一种疾病,需要治愈,为此您需要寻找药物。如何更详细地总结这项任务;您需要找到一种可以放置在药丸或胶囊中的化学成分,然后将其发送到人体,然后分子将与这些蛋白质特异性结合,如果这些蛋白质的状态被修改,它们将改变疾病的状态-相对而言,可以治愈。



这里有几个阶段。目标识别/验证是其中之一。我们必须以某种方式能够预测哪些分子需要结合才能改变疾病状态。为此,收集了大量数据:您带病的人,带健康的人,并从中测量许多不同的参数。您正在测序DNA,RNA,转录组学,蛋白质组学-蛋白质状态。



接下来,您试图确定哪些患者细胞参数专门针对患者,哪些参数针对健康人。也就是说,您正在尝试确定哪些分子可能与疾病相关。这是一方面。另一方面,您仍然需要找到可药物化的分子,即具有与您送入人体进行治疗的活性化学物质结合的潜力。在这里,您需要测量许多参数:结合,蛋白质折叠等。



为此,现在使用了主动机器学习。也就是说,您查看了不同的蛋白质化合物,并尝试根据已知目标预测特定目标是否良好。另外,还必须合成正确的药物。也就是说,您需要找到一种分子的化学组成,该分子可以与您需要接触的蛋白质特异性结合,并且原则上可以进入人体,可以溶于水等。有许多功能需要优化。用手很难做到这一点,但是可以基于您已经拥有已知药物的事实来进行预测,然后将新的潜在药物与已知药物进行比较,并预测其潜在成功的可能性。所有这些都是在预测的水平上。那么就需要对其进行验证,真正展示,它的工作原理。但是药物预测是减少花费在研究上的金钱和时间的关键。这是非常相关的。



相对而言,与第一种相关的第二种问题是找到该疾病的生物标记。癌症就是一个很好的例子。他如此难以治疗的部分原因是因为他是如此与众不同,而且两个人之间的差异如此之大。通常,癌症是什么时候积累了一定数量的突变,导致细胞破裂。然后,该细胞开始执行快速分裂并替换健康细胞的功能,而不是发挥其功能。这逐渐杀死了身体。但是有许多机制导致细胞发生故障。一个人的癌症不是另一个人的癌症,对一个人有效的药物可能对另一个人无效。因此,非常重要的是能够快速确定需要查看哪些基因和其他参数,以了解一个人患有特定疾病。也就是说,我们需要找到生物标记。为此,使用数据库。现在,正在从大量健康和患病人群中积极收集各种格式的数据。您需要使输出具体化;一个人可能治愈也可能无法治愈,您需要了解什么样的人因什么而生病。如果您很快找到了造成问题的确切原因,则可以将其治愈。



当前正在开发的第三个区域很有趣,但这是文本挖掘。现在生物学上有很多文献,大量的实验室从事大量的工作。实际上,人们经常发现一些东西-例如蛋白质-蛋白质相互作用或药物-蛋白质相互作用。它独立发生在世界的不同地方,他们不知道它如何相互作用。文本挖掘查看发布的不同文章并建立数据库。就是说,如果在一个位置确定一种蛋白质与第二种蛋白质相互作用,而在另一位置确定第二种蛋白质可以被某种药物作用,那么事实证明该药物也可以影响原始蛋白质。将创建一个交互图,您可以预测以前未找到的新交互。



我想提到的另一种问题是图像分析,我认为这很有趣。通常,图像是一种功能强大的数据格式,在生物学中非常常用,因为您可以从细胞的外观中了解很多有关图像的信息。



如果大量显微图像积累,则需要快速分析它们并能够做出预测。再有一个常见的例子是癌症。您进行活检,看看健康和患病细胞之间的联系。您绘制它们-核以一种颜色绘制,细胞质以另一种颜色绘制。然后您尝试预测:该组织是否患有肿瘤?



对于更基础的研究-从显微镜处理图片已经更加困难。人们希望观察某些细胞器,分子或蛋白质,并据此追踪细胞之间的相互作用方式,发育方式等。人们已经学会为细胞的各种元素着色,而这是使用荧光蛋白完成的。您拿走需要的东西,然后将标记的蛋白质附着在上面。如果您在上面照亮一盏灯,它就会亮起来,您将了解这些细胞器,蛋白质或RNA在特定位置。然后您跟踪细胞如何相互作用。这也需要图像分析,因为有很多图片,并且它们通常不是很好的分辨率。而且您需要从泥泞的图片中获得良好的分辨率。实际上,社区并没有停滞不前。人们编写神经网络,更改不同的参数等等。但是数据在发展,方法也必须随之发展。也就是说,这些事情必须齐头并进。



许多实验室目前所考虑的方向是“如何征服时间”。就是说,在排序和图像分析等方面都经常出现这样的问题:存在系统快照,但它是静态的。您在特定时间进行测量。而且您不了解细胞将如何进一步发展。解决这一问题的方法之一是生命成像。当您不杀死细胞,而是将它们放置在它们发育,相互作用等的环境中时,每隔10秒钟用显微镜检查一次,每分钟拍摄一张快照,然后您就可以恢复运动,相互作用等的轨迹。但是有一个局限性:例如,荧光印章不能很好地用于生命成像,因为当您将光照在印章上时,它会发出辐射,这对细胞有毒。细胞开始死亡。必须找到一个折衷方案:一方面,您要保持笼子尽可能健康,但另一方面,您要制作更多快照-但是拍摄的次数越多,它的死亡速度就越快。



这里就是这样一种方法:人们现在正试图在最少数量的荧光标记的帮助下确定细胞的命运,但实际上-仅在细胞核和细胞的微轮廓的帮助下。这就像人脸识别:以前您可以使用可见的眼睛,嘴巴,鼻子和其他特征来进行识别,但是现在您只需要用鼻子进行识别,因为您可以在眼睛上戴墨镜,在嘴上戴口罩。也就是说,问题变得更加复杂,这里也是一样。有必要使用少量信息来计算生物学参数,并且有大量任务。



有很多任务,有很多数据类型。测量细胞,生物和其他事物的所有参数。这是一个非常有趣的领域。我希望如果您以前曾想过她,那么我不会不相信您。




之前发生了什么



  1. , Senior Software Engineer Facebook — ,
  2. , ML- — , Data Scientist
  3. , EO LastBackend — , 15 .
  4. , Vue.js core team member, GoogleDevExpret — GitLab, Vue Staff-engineer.
  5. , DeviceLock — .
  6. , RUVDS — . 1. 2.
  7. , - . — .
  8. , Senior Digital Analyst McKinsey Digital Labs — Google, .
  9. «» , Duke Nukem 3D, SiN, Blood — , .
  10. , - 12- — ,
  11. , GameAcademy — .
  12. , PHP- Badoo — Highload PHP Badoo.
  13. , CTO Delivery Club — 50 43 ,
  14. , Doom, Quake Wolfenstein 3D — , DOOM
  15. , Flipper Zero —
  16. , - Google — Google-
  17. .
  18. Data Science ? Unity
  19. c Revolut
  20. : ,
  21. — IT-
  22. — «Docker » , Devops,









All Articles