UFO中文网»UFO社区 › 地理生物 › 生物学 › 目前机器学习在生物学领域有应用吗？

收听	听众	主题

目前机器学习在生物学领域有应用吗？

发表于 2023-2-21 21:21:30 | 查看: 452| 回复: 5

我在题目中说的生物学主要是生物化学、细胞生物学、分子生物学、神经生物学、生物物理学、生物信息学、计算生物学等。
回答最好能给出相关的参考文献，谢谢！

收藏0 回复显示全部楼层道具举报

小乖欢颜僮

发表于 2023-2-21 21:22:14

当然有应用，而且是很广泛的应用，周志华老师的《机器学习》[1]中的第1章的绪论的1.6节应用现状中这样写到：

机器学习还为许多交叉学科提供了重要的技术支撑。例如，“生物信息学”试图利用信息技术来研究生命现象和规律，而基因组计划的实施和基因药物的美好前景让人们为之心潮澎湃。生物信息学研究涉及从“生命现象”到“规律发现”的整个过程，其间必然包括数据获取、数据管理、数据分析、仿真实验等环节，而“数据分析”恰是机器学习技术的舞台，各种机器学习技术已经在这个舞台上大放异彩。

在本回答中，我们将结合具体的案例，分三部分论述机器学习（包含深度学习）在生物研究的应用。第一部分，我们先对机器学习在生命科学领域的研究做一个全景的介绍。第二部分，我们再结合具体案例如何应用机器学习推动相关生物研究，以及相关生物研究中出现的问题如何催生新的机器学习算法。第三部分我们将进行回顾和反思，探讨未来的机器学习将如何更好的推动生物研究。
在正式讨论之前，我们借用周志华老师的《机器学习》一书来对机器学习下一个描述性的定义：

机器学习正是这样一门学科，它致力于研究如何通过计算的手段，利用经验来玫善系统自身的性能在计算机系统中，&#34;经验&#34;通常以&#34;数据&#34;形式存在，因此机器学习所研究的主要内容，是关于在计算机上从数据中产生&#34;模型&#34; (model) 的算法，即&#34;学习算法&#34; (learning algorithm). 有了学习算法，我们把经验数据提供给它，它就能基于这些数据产生模型;在面对新的情况时(例如看到一个没剖开的西瓜)，模型会给我们提供相应的判断(例如好瓜) .如果说计算机科学是研究关于&#34;算法&#34;的学问，那么类似的，可以说机器学习是研究关于&#34;学习算法&#34;的学问.

在下面的论述中，我们将从概况以及具体的生物场景看到这个定义还是很合理的。
本回答假定读者已经了解过一些机器学习和生物的概念。
一. 机器学习在生物研究中的应用概览

1. 基本流程

一般来说，在生物研究中，一项应用机器学习中的算法的研究可以分为如下五步流程：

设计实验，收集数据
数据清洗
特征选择
模型构建
模型评估

如下面的流程图，来自Deep learning for computational biology[2]所示

目前机器学习在生物学领域有应用吗？12 / 作者:小乖欢颜僮 / 帖子ID:112595

2. 有监督学习与无监督学习

模型构建的方法，按照研究的问题可以分为，有监督和无监督的。有监督学习是指一类针对有标签的数据来预测无标签数据的标签的算法，如果我们把连续数值变量也视为标签的话，那么回归也是有监督学习。而无监督学习是指一类针对无标签的数据进行规律发现的算法。除此之外，也有半监督学习，即在
一个典型的有监督的问题是分类问题，一个典型的无监督问题是聚类问题。在这个回答我们将介绍这两类问题的具体的场景。下图来自综述Deep learning for computational biology

目前机器学习在生物学领域有应用吗？28 / 作者:小乖欢颜僮 / 帖子ID:112595

目前机器学习在生物学领域有应用吗？28 / 作者:小乖欢颜僮 / 帖子ID:112595

3. 三类基本数据

大多数生物研究主要对序列数据，矩阵或者张量数据，成像数据这三类基本的数据上进行机器学习算法的应用。
3.1 序列数据

最基本的生物数据之一，通常为DNA序列，RNA序列，蛋白质序列。在人类基因组计划早期的问题是，如何快速进行基因组注释，该问题可以表示如下,图片来自Machine learning applications in genetics and genomics[3]：

目前机器学习在生物学领域有应用吗？40 / 作者:小乖欢颜僮 / 帖子ID:112595

目前机器学习在生物学领域有应用吗？40 / 作者:小乖欢颜僮 / 帖子ID:112595

基因组注释是一个有监督或者半监督的问题，因为一段序列是不是基因可以通过EST(表达序列标签)来判定，其他特征可以通过一些生化或者分子实验来标定，所以我们可以得到数据标签。
此外，序列数据更为常见的是要分析一些分子演化的问题，例如最近大家关注的新冠病毒的分子演化。这方面的案例和相关讨论可见：剑桥大学研究称新冠病毒分三个变种，A 类病毒为「爆发根源」，更多发现于美国和澳洲，这一结论靠谱吗？[4]
这是一个无监督的问题，例如，我们其实并不知道新冠病毒可以分为几个变种，我们需要在数据中看出它能分成几类，然后再通过其他证据证明这种分类是合理的。
3.2 矩阵数据

芯片技术和后续的高通量测序技术带来了很多种矩阵数据,这类矩阵通常是对某类型生物特征（基因，蛋白，表观修饰，染色质互作）的丰度汇总而成的。最典型矩阵数据是基因表达谱，基因表达谱矩阵可以通过RNA-seq数据进行比对后的转录本定量产生，基本流程和常见分析策略如下（图片来自Enter the Matrix: Factorization Uncovers Knowledge from Omics[5])：

目前机器学习在生物学领域有应用吗？833 / 作者:小乖欢颜僮 / 帖子ID:112595

目前机器学习在生物学领域有应用吗？833 / 作者:小乖欢颜僮 / 帖子ID:112595

这类数据的分析通常是无监督或者半监督的，我们通常想通过矩阵数据去发现一些可用于诊断的分子marker。
3.3 成像数据

从数据存储的本质上讲，成像数据还是矩阵数据（不过考虑到多通道图像的存在，称为张量数据更为贴切），但是内涵上是不同的，成像数据表达更多的是生物体内部空间位置（还有形状或者结构）的信息。例如，一张蛋白亚细胞定位的图像，可以反映某标记的感兴趣的蛋白质位于细胞中的什么位置，如果我们有很多这样的图片，明智的方法是先标记一部分数据，训练一个卷积神经网络，然后再对剩下的图片进行预测，如下图所示，：

目前机器学习在生物学领域有应用吗？192 / 作者:小乖欢颜僮 / 帖子ID:112595

目前机器学习在生物学领域有应用吗？192 / 作者:小乖欢颜僮 / 帖子ID:112595

4. 关于深度学习及其在生物研究中的应用

深度学习到底是什么呢，按照Yann LeCun, Yoshua Bengio，Geoffrey Hinton三位专家合写的综述[6]的定义：

Deep-learning methods are representation-learning methods with multiple levels of representation, obtained by composing simple but non-linear modules that each transform the representation at one level (starting with the raw input) into a representation at a higher, slightly more abstract level. With the composition of enough such transformations, very complex functions can be learned For.

拙译为：深度学习方法是一种基于多种层级进行表示的表示学习方法。其表示能力是通过组合简单的非线性的模块实现的。每一个小模块都可以把第一层的原始数据转换为更稍微抽像的特征。通过足够多的这样的转换进行组合，可以学习到非常复杂的函数(功能)。
目前，在基因组学的不同层级，均有深度学习的应用案例：

目前机器学习在生物学领域有应用吗？303 / 作者:小乖欢颜僮 / 帖子ID:112595

目前机器学习在生物学领域有应用吗？303 / 作者:小乖欢颜僮 / 帖子ID:112595

图片来自A primer on deep learning in genomics[7],想了解更多，请阅读这篇文章。
5. 常见不同机器算法的实现软件

针对不同的学习算法，在R中的可用的机器学习包如下，图片来自Machine learning for Big Data analytics in plants[8]:

目前机器学习在生物学领域有应用吗？666 / 作者:小乖欢颜僮 / 帖子ID:112595

目前机器学习在生物学领域有应用吗？666 / 作者:小乖欢颜僮 / 帖子ID:112595

python上的常用相关软件包如下.图片来自Best Python Libraries for Machine Learning and Deep Learning[9]：

目前机器学习在生物学领域有应用吗？106 / 作者:小乖欢颜僮 / 帖子ID:112595

二. 机器学习在生物研究中的应用案例

1. 基于机器学习的差异表达网络分析

生物学家很感兴趣的一个问题是，不同条件下哪些基因表达会发生变化，这样他们可以深入研究其中的分子机制，进而找到一些可以找到一些增强或者减弱他们想要研究表型的靶点。
常见的思路是做假定基因表达服从一个分布，然后根据这个假设构建统计量，计算统计显著性，设置cutoff来筛选发生差异表达的基因。
但是这样做可能存在问题，例如cutoff为 $目前机器学习在生物学领域有应用吗？186 / 作者:小乖欢颜僮 / 帖子ID:112595$ ,那些被判定为统计不显著的基因就真的和表型相关的差异表达基因吗？有无更好的替代方法？
文献Machine Learning–Based Differential Network Analysis: A Study of Stress-Responsive Transcriptomes in Arabidopsis[10]提供了一种思路。假定我们对于模式植物拟南芥响应各种胁迫条件感兴趣，我们可以用基于机器学习的策略对于之前的差异表达方法做出改进，分为如下步骤：
1）数据收集，清洗以及正负样本构建：收集不同胁迫条件下的基因表达谱(基因芯片数据），进行预处理和标准化，收集之前报导过的和相关的基因作为正样本，将表达谱中不发生变化的基因作为负样本，剩下的基因的表达谱作为无标签样本；
2）特征提取：通过共表达网络的策略从表达谱中提取特征。在构建共表达网络的之后，采用随机森林的方法把未标签的样本中的“noninformative” genes（不表达，持续表达，与胁迫无关的基因)过滤掉了，减少了共表达网络构建的无用信息。计算每个基因在共表达网络中的PageRank等统计量，作为特征；
3）模型构建：根据2）中计算的特征，从分好的正负样本中，再次随机森林构建模型；
4）模型评估和limma等方法比较；
5）模型预测，并进行验证将训练好的模型应用于无标记的基因上，预测出和新的胁迫相关的基因，并通过TDNA插入实验验证。
上述步骤可以概括如下，

目前机器学习在生物学领域有应用吗？239 / 作者:小乖欢颜僮 / 帖子ID:112595

目前机器学习在生物学领域有应用吗？239 / 作者:小乖欢颜僮 / 帖子ID:112595

图片来自Machine learning for Big Data analytics in plants
2. 干细胞分化路径重构与流形学习

案例1是有监督学习的例子，我们接下来看无监督学习的案例。
生物学有一个很著名的模型叫做waddington landscape，该模型描述了干细胞在分化过程可以类比于一个有质量的小球自发沿着山坡从山顶滚下山谷的过程，不同的山底表示了细胞的终末分化状态，而不同的分支点的存在则是细胞命运决定的节点。这个运动的过程中，细胞的基因表达会发生变化，如果我们假定基因表达“相近”的细胞在路径上也挨得很近，那么在基因表达的高维数据中应该嵌入了低维的分化路径，则我们能通过流形学习的技术从基因表达数据中重构出分化的路径，如下图所示，

目前机器学习在生物学领域有应用吗？4 / 作者:小乖欢颜僮 / 帖子ID:112595

目前机器学习在生物学领域有应用吗？4 / 作者:小乖欢颜僮 / 帖子ID:112595

图片来自Manifold learning-based methods for analyzing single-cell RNA-sequencing data[11]
具体来说，流形学习是如何进行的呢？可以结合如下的案例进行理解。现在有两个变量组成的一个数据集，我们将其画在直角坐标系中，可以看出样本点中存在一个螺旋的趋势，也就是说这个二维数据集中似乎嵌入了一个一维流形。如何通过计算的方式将其找出来呢。直觉告诉我们，必须先计算每两个样本点之间距离。我们在样本点之间的距离之后呢，会发现这个距离里样本点的局部邻近关系和整体邻近关系混淆在了一起，这个时候，我们可以使用叫做核函数的技巧，将距离转换为邻近关系。得到局部的距离之后呢，我们把相邻的点连起来，这样便可以最终得到那个样本点中包含的螺旋的一维流形了。

目前机器学习在生物学领域有应用吗？908 / 作者:小乖欢颜僮 / 帖子ID:112595

目前机器学习在生物学领域有应用吗？908 / 作者:小乖欢颜僮 / 帖子ID:112595

图片来自Manifold learning-based methods for analyzing single-cell RNA-sequencing data
附注：粗浅的来说，所谓流形就是一个局部看起来像是欧几里得空间的拓扑空间。每个属于这个n维流形的点的邻域都可以与一个n维欧氏空间建立一一映射的关系。（更为严谨的定义请看拓扑学教材）。流形学习一般是用来学习高维数据内部的低维结构。最基础流形学习算法是PCA。
以最近发表的一种同时实现生物高维数据可视化和路径推断的算法PHATE[12]为例，该算法的流程如下，（图片来自原文献）：

目前机器学习在生物学领域有应用吗？86 / 作者:小乖欢颜僮 / 帖子ID:112595

目前机器学习在生物学领域有应用吗？86 / 作者:小乖欢颜僮 / 帖子ID:112595

该算法的基本流程和其他的流形学习方法大致类似，但是他们的创新之处是引入了随机游走，计算扩散概率，以及最终讲欧式距离转化为信息距离来进行embeding。
篇幅所限，我们不会在这里谈很多该算法的计算细节，感兴趣的读者可看知乎上中文的介绍：Nat. Biotechnol | PHATE：高维生物数据的可视化方法 [13]，或者直接阅读原始文献。
3.冷冻电镜中的图像处理

这部分，笔者不是专家，只是为了拓展视野在里记录。
基础知识推荐大家看下coursera上面的加州理工的冷冻电镜的课程，尤其是Tomography那一节。关于冷冻电镜的背景大家请看 为什么冷冻电镜 (Cryo-EM) 去年突然火了？是有什么技术突破吗？[14] 以及什么是2015年最受科学界关注的新技术？[15] 当然还有nature的新闻稿[16]
根据nature这篇新闻稿，冷冻电镜取得突破性进展主要要归功于两个人：Richard Henderson和Sjors Scheres还有他们所在的实验室：UK Medical Research Council Laboratory of Molecular Biology (LMB)。Richard Henderson和他的同事 Nigel Unwin 在1975年的一片文章（Molecular structure determination by electron microscopy of unstained crystalline specimens）中为冷冻电镜技术做出了奠基性的贡献。而新发展的直接电子探测器使得对大分子的高速动态成像成为可能。新技术带来的大数据使得Sjors Scheres有了在方法学[17]和软件[18]上的突破。
那么，冷冻电镜带来的结构生物学的革命是如何实现的？答案是借用到机器学习的思想与方法的，如下面这张图所示：

目前机器学习在生物学领域有应用吗？93 / 作者:小乖欢颜僮 / 帖子ID:112595

目前机器学习在生物学领域有应用吗？93 / 作者:小乖欢颜僮 / 帖子ID:112595

（来自How cryo-EM is revolutionizing structural biology[19])
第一步，将要解析的蛋白分离纯化制样之后，用高速动态成像的记录蛋白的各种构象; 第二步，处理图像数据，把取向相同的小颗粒re-align，借用贝叶斯的思想；从而将粗颗粒的模型精细化; 第三步，如果是混样的情况，也可以利用分类或者聚类的方法，将混样中存在的不同结构的蛋白构像解析出来。
第二步的基于贝叶斯的re-align和精细化可以概括如下：

目前机器学习在生物学领域有应用吗？836 / 作者:小乖欢颜僮 / 帖子ID:112595

目前机器学习在生物学领域有应用吗？836 / 作者:小乖欢颜僮 / 帖子ID:112595

（图片来自A Bayesian View on Cryo-EM Structure Determination[20]）
策略为通过傅里叶变换的方法用计算机重构出粗略的结构模型然后把这个粗略的结构模型与成千上万的成像数据比对，得到每个图像之间的相对位置。通过作者改进的机器学习中常用的贝叶斯方法，将粗略的结构模型调整为新的一个更精确的结构，如此迭代以精炼我们的模型，文章提到对于核糖体的结构的解析他们迭代了25次。这整个的过程就是所谓的取“平均”了，不过是基于机器学习的方法，结合先验的知识来取得“平均”和进行光滑，取得精细结构。
这部分不是很懂，写的不好，欢迎成像和图像处理方面的专家指正。
三. 回顾反思

在上述论述中，我们介绍的机器学习在生物研究应用案例都只在问这样一类型问题：”某一生物现象是什么？“，不过对于人类社会发展而言更有直接意义的问题是，”认识这一生物现象可能的模式之后我们该怎么办“，问这类问题的人一般都是医生或者药企的科学家。当然，目前也有这方面的成熟流程可以参考:

目前机器学习在生物学领域有应用吗？487 / 作者:小乖欢颜僮 / 帖子ID:112595

目前机器学习在生物学领域有应用吗？487 / 作者:小乖欢颜僮 / 帖子ID:112595

（图片来自Applications of machine learning in drug discovery and development[21]
最近也有科学家用深度学习的方法，发现了新的抗生素：

目前机器学习在生物学领域有应用吗？343 / 作者:小乖欢颜僮 / 帖子ID:112595

目前机器学习在生物学领域有应用吗？343 / 作者:小乖欢颜僮 / 帖子ID:112595

感兴趣的读者可以看这篇文献。
此外，个人理解，机器学习就是一种智能的数据挖掘技术，它依据先验的知识建立预测模型来识别大数据中的有用信息。所以只要有大数据和前期积累的先验知识，就有机器学习方法用武之地。
说几句与题目无关的话，个人感觉其实这个题目也可以回答学生物的人多学点基础的数学和物理知识有用吗？我觉得是有用的，比如你想搞清楚冷冻电镜成像的原理，你必须懂点物理知识（干涉衍射之类的）还得懂点数学物理方法（如傅里叶变换与它的逆）。当然想要进行机器学习，当然得有统计学和数据的可视化方法的数学基础和计算机编程基础（Python或者R）了。学科之间其实是可以互通有无的，然而这点常常被目光短浅的一些人忽略了，希望关注这个问题的人可以能多从这个角度来学习，思考问题，解决问题。
附：日志

2016.3 创建回答
2016.4.14 用周志华老师《机器学习》补充前言
2020.4.12 原回答因「违反知乎社区管理规定」被删除。
2020.4.13-15 按照知乎社区管理规定做出修订。重新提交。
2020.4.16 修改排版错误

参考资料

[1]
周志华: 《机器学习》
[2]
Deep learning for computational biology: https://www.embopress.org/doi/10.15252/msb.20156651
[3]
Machine learning applications in genetics and genomics: https://www.nature.com/articles/nrg3920
[4]
剑桥大学研究称新冠病毒分三个变种，A 类病毒为「爆发根源」，更多发现于美国和澳洲，这一结论靠谱吗？: https://www.zhihu.com/question/386740743
[5]
Enter the Matrix: Factorization Uncovers Knowledge from Omics: https://linkinghub.elsevier.com/retrieve/pii/S0168-9525(18)30124-0
[6]
Deep Learning: https://www.nature.com/articles/nature14539
[7]
A primer on deep learning in genomics: https://www.nature.com/articles/s41588-018-0295-5
[8]
Machine learning for Big Data analytics in plants: https://www.sciencedirect.com/science/article/abs/pii/S1360138514002192
[9]
Best Python Libraries for Machine Learning and Deep Learning: https://towardsdatascience.com/best-python-libraries-for-machine-learning-and-deep-learning-b0bd40c7e8c
[10]
Machine Learning–Based Differential Network Analysis: A Study of Stress-Responsive Transcriptomes in Arabidopsis: http://www.plantcell.org/content/26/2/520/tab-figures-data
[11]
Manifold learning-based methods for analyzing single-cell RNA-sequencing data: https://www.sciencedirect.com/science/article/pii/S2452310017301877
[12]
Visualizing structure and transitions in high-dimensional biological data: https://www.nature.com/articles/s41587-019-0336-3
[13]
Nat. Biotechnol | PHATE：高维生物数据的可视化方法: https://zhuanlan.zhihu.com/p/102456357
[14]
为什么冷冻电镜 (Cryo-EM) 去年突然火了？是有什么技术突破吗？: https://daily.zhihu.com/story/4303110
[15]
什么是2015年最受科学界关注的新技术？: https://zhuanlan.zhihu.com/p/20555975
[16]
The revolution will not be crystallized: a new method sweeps through structural biology: https://www.nature.com/news/the-revolution-will-not-be-crystallized-a-new-method-sweeps-through-structural-biology-1.18335
[17]
Maximum-likelihood Multi-reference Refinement for Electron Microscopy Images: https://www.sciencedirect.com/science/article/abs/pii/S0022283605001932?via%3Dihub
[18]
RELION: Implementation of a Bayesian approach to cryo-EM structure determination: https://www.sciencedirect.com/science/article/pii/S1047847712002481
[19]
How cryo-EM is revolutionizing structural biology: http://www.sciencedirect.com/science/article/pii/S096800041400187X
[20]
A Bayesian View on Cryo-EM Structure Determination: https://www.sciencedirect.com/science/article/pii/S0022283611012290?via%3Dihub
[21]
Applications of machine learning in drug discovery and development: https://www.nature.com/articles/s41573-019-0024-5

回复显示全部楼层道具举报

爱最爱我爱的爱y

发表于 2023-2-21 21:22:54

大家基本上讲的都是机器学习在计算生物学上的应用，我来说个特别点的。。。
一天，养苍蝇的生物PhD觉得自己很苦逼。一天到晚要守在实验室。记录实验组的果蝇在社交行为上的变化。于是他找来了隔壁机器学习组的人设计了一套视觉跟踪和运动识别的算法，只要拿摄像头把果蝇的生活拍下来，电脑就可以代替生物PhD做实验记录了。。。
真是太机智了。

回复显示全部楼层道具举报

123457899

发表于 2023-2-21 21:23:23

谢邀。我自己做的东西主要局限在癌症分子数据，所以尽我所能把机器学习在癌症方面的研究总结一下。
1、对癌症做subtyping
背景：cancer is a set of heteorogeneous diseases. 临床上把癌症分成各个亚型（subtyping）是为了达到更好的治疗效果，提高病人的生存几率（一般看五年存活率）。在人们没有完整的观察过cancer genomics之前，没人知道原来各个patient tumor之间的差别如此大。考虑到分子是表型的基础，人们便考虑把在差别如此大的各个肿瘤划分出一些类型，使得类型内的tumor相似性高而类型之间的相似性低。这样做的好处很多，最直接的就是对那些临床分型没啥用的肿瘤给予治疗支持。
机器学习的主要应用：
我主要看过的文章是TCGA对各个肿瘤的分子数据分析，共性便是利用分子数据做subtyping。机器学习的非监督学习在这里起到巨大作用。一般来说，会按照某一种数据类型比如基因表达数据来做subtyping，也有一些是会将不同数据类型比如表达、甲基化、拷贝数变异等整合起来再做subtyping。因此这里还涉及到how to combine heteorogeneous data的机器学习问题。因此也可以说cancer genomics的发展推动了机器学习的发展。
2、预测病人phenotype
背景：近五六年癌症分子数据研究的中心应该是TCGA（The Cancer Genome Atlas），现在这个项目已经完成了所有病人的测序和数据分析，其生物信息学研究机构GDAC正在抓紧准备发表剩下的文章。TCGA推动了人们对cancer genomics认识的大幅度提高，并且继续引领这方面的研究：他们在考虑如何大规模的将分子数据真正应用到临床上！这将是一次颠覆传统临床医疗的行动，主要在于规模之大、预期目标实现的日子很近。从此，癌症的临床医疗将不会是一门玄学（医生以猜测为主），将在分子数据的指导下完成治疗。期待癌症病人将会大大收益。
机器学习的主要应用：
机器学习的监督学习在这里仍然会有广阔的应用前景。根据已知病人的phenotype和genomic data，构建预测模型，在新的病人上做好预测。癌症治疗的一大领域靶向治疗和这个的思路很像。比方说，乳腺癌中HER2高表达时ERBB2靶位药的标志物，从而我们构建出（ERBB2靶向药有效果，HER2高表达+ERBB2突变）这样一个模型，之后新的病人如果也观察到HER2高表达且ERBB2突变，我们就能预测这一靶向药有效果。说实话我突然忘了这个超级有名的药的名字了，曲妥珠单抗？
3、发现表型相关的癌症分子机制
背景：cancer genomics中的各种alteration一般不太可能是孤立的，因为生物系统中的各个元件都与其他元件共同作用行使功能。生物分子网络的概念就是以此为基础。早期有人用分子网络来预测蛋白质的功能，寻找网络上出现变异的模块（一组互相连接且同时在case-ctrl出现巨大变化的分子节点）等。现在，人们打算用个体癌症分子网络来描述癌症恶化的程度。
机器学习的主要应用：
发挥你的想象吧，网络本就非常适合做机器学习，比如social network方面的各种研究。现在人们对癌症的分子数据领悟到的东西非常多，用网络来做癌症模型，推断癌症的各种过程的机制，就像早期人们利用网络来研究细胞状态等，这可能会给我们带来系统性的认知，人们对癌症的理解将会提升一个层次。
4、基本数据处理和分析
人类观察微观世界一般都采取间接的方式。我们在观察细胞分子这个层次时，只能通过对间接观察到的现象进行建模，从而推断分子所处的状态等。当各种测序技术突飞猛进的发展时，总会带来各种新的挑战，尤其是机器学习的建模或者算法设计。当人们有技术去探测基因表达、突变、拷贝数变异、蛋白质水平等，人们也同样需要合适的方法来measure各种层次的活跃程度。未来人们能测量的东西会更多，所以好好期待吧！
临时想到这么多，能想起来的话继续更新。

回复显示全部楼层道具举报

Jean893

发表于 2023-2-21 21:23:55

非常多，几个印象非常深刻的，
1，hmm来学习基因组，
2，回归、分类器来学习mirna、crispr的靶点和效率，
3，贝叶斯方法和生物物理模型（rna 杂交）学习mirna的chipseq数据，预测mirna靶点
4，利用概率图模型来学习具体的基因调控过程，给出非常好的针对实验的预测结果
5，rna-seq中基因表达水平预测是一个generative statisitical model
6，各种clustering
还有好多。。。。
晚上给文献
%%%%%%%%%%%%%%%%%
1，隐马太有名了，自己google一下吧！
2，miRNA的靶点和效率的学习是targetscan，这个应该是svm，TargetScanHuman 7.0
cripsr的学习，Xu H, Xiao T, Chen CH, Meyer CA, Wu Q, Wu D, Cong L, Zhang F, Liu JS, Brown M, Liu XS. Sequence determinants of improved CRISPR sgRNA design. Genome Res. 2015;25:(8)1147-57
3，贝叶斯方法和生物物理模型（rna 杂交）学习mirna的chipseq数据，预测mirna靶点
http://www.nature.com/nmeth/journal/v10/n3/full/nmeth.2341.html
4，利用概率图模型来学习具体的基因调控过程，给出非常好的针对实验的预测结果，（应该还有好多MRF，贝叶斯网络的文献，大家自力更生吧）
Iterative experiment design guides the characterization of a light-inducible gene expression circuit
5，rna-seq中基因表达水平预测是一个generative statisitical model
cufflinks http://www.nature.com/nbt/journal/v28/n5/pdf/nbt.1621.pdf
6，各种clustering
这个太多了，举个偏统计的例子，sparse SVD， sparse SVD regression， T-SVD ，PCA
还有这个经典的SVD分解
http://www.pnas.org/content/97/18/10101.full.pdf
补充一点，这些文章，关键都在附件里面。。
%%%%%%%%%%%%%%%
最近又看了一篇，关于deep learning的，
Predicting the sequence specificities of DnA- and RnA-binding proteins by deep learning
但不得不说，这个CNN真的好浅。。。。

最近一个deep learning预测基因关系的工作：
Deep learning for inferring gene relationships from single-cell expression data
https://www.pnas.org/content/early/2019/12/09/1911536116

回复显示全部楼层道具举报

12 / 2 页下一页

返回列表

		自动登录	找回密码
密码			注册会员