氨基酸提取方法
motif基序怎么看结果
生信技术
这里面涉及到的一些名词的含义,因为没有一个确切的中文含义,所以在后面我会用其中一种中文含义来表示:Consensus Sequences : 共有性序列;一致性序列;一致序列Sequence Motifs : 序列基序Consensus Sequences : 一致性序列The Motif Finding Problem : 基序搜寻问题
序列基序及其生物学意义
序列基序(Sequence Motifs) 是分布在基因组中或基因组内的核酸序列,具有或推测具有某些调节或结构生物学功能。
在基因组的不同部分(如外显子、内含子和DNA中不编码蛋白质序列的片段)中发现的基序具有不同的功能。
外显子(基因组的编码部分) 中存在的基序决定了蛋白质或标记蛋白的结构,这些蛋白质或标记蛋白将被发送到细胞的某些部分以进行磷酸化等过程。
内含子(构成基因组的非编码部分) 中的基序通常是决定基因表达量和蛋白质结合位点的调控序列。
satellite DNA 是着丝粒和异染色质的主要成分,是基因组 junk 部分中发现的基序的一个例子。
序列基序与一致性序列
序列基序的不同出现可能彼此不同,即使它们执行相同的功能。因此,我们定义了一组序列的一致性序列。
给定一组序列,一致序列(也称为标准序列)是通过在每个位置提取最常见的核酸/氨基酸残基而获得的序列。
例如,AGAT、TGAC和ACAC的一致序列是AGAC。
将序列一个接一个地写在另一个下面可以更容易地看到这一点(A是位置1中最常见的残基,G是位置2中最常见的残基,依此类推)。
AGAT := Sequence 1TGAC := Sequence 2ACAC := Sequence 3 AGAC := Consensus sequence
基序和一致性序列的表示
鉴于motifs是在多个位置发现的子串模式,每个位置可能有也可能没有突变,因此存在表示这些序列的特定方式。
文本表示
我们将使用以下核酸序列示例来介绍表示的各个方面。例子,
T [GA] N Y {T} [CT] R
在此表示中,A、T、G 和 C 表示四种可能的核苷酸碱基:腺嘌呤、胸腺嘧啶、胞嘧啶和鸟嘌呤。N 表示任何含氮碱基,Y 和 R 分别表示嘧啶(T或C)和嘌呤(A或G)。[GA] 意味着,在那个位置,要么是 G,要么是 A。
也经常用“RRACH”来表示它。这个“RRACH”就是一种一致性序列的表示方式
简并碱基正常碱基RA/GYC/TMA/CKG/TSG/CWA/THA/T/CBG/T/CVG/A/CDG/A/TNA/T/C/G
图形表示
还有一种显示一致序列的图形方法(consensus logo method)。共识标志(consensus logo)传达了有关序列基序每个位置的保守性的信息。
共有标识使用该位置共有碱基的高度来描述每个位置的保守程度(注意保守程度与每个位置每个核苷酸的频率不同)。
在我们的日常应用中,我们经常会看到 motif 这个词的出现,往往会伴随着这样一张logo展示图。
这样的logo经常用于描述序列特征,如DNA中的蛋白质结合位点等。
motif logo由每个位置的一堆字母组成。字母的相对大小表示它们在序列中的频率。
每个字母的高度与该位置的相应碱基的出现频率成正比,常以bits为单位。
每个位置的字母按照保守性从大到小排列,可以方便的从顶端的字母识别保守序列。

基序搜寻问题
所谓 基序搜寻问题(Motif finding) 是指在生物体DNA序列当中寻找有重要功能的基因片段,这些片段在生物的演化过程中被保留了下来,生物体中的碱基对高达数亿个,如何在众多序列中找出一段重要且有意义的基因序列,便成为了一个重要的问题。
在计算上,Motif finding可以定义为:
给定T 条长度为 N 的序列,找到出现在每T个序列中的长度为L的最佳模式。
不同类型的得分可以帮助我们对给定的模式进行评分,并选择最佳的模式。
对于下面的例子,我们将考虑 T = 5、N = 100 和 L = 8。也就是说,我们有 5 个长度为 100 的序列,我们希望从每个序列中找到一个长度为 8 的序列基序,使得这些基序彼此相似。
Motif 候选结果评分
首先,我们将看到如何为给定的一组 motifs 评分。
也就是说,我们假设我们从每个 T 序列中得到一些长度为 L 的序列,这些序列是我们的 motif candidates 。
鉴于此,我们将看到如何对这些候选主题进行评分。在下一节中,我们将看到如何在原始序列中找到基序。
假设我们有以下从一组序列中获得的候选基序(5 个 motif candidates ,每个长度为 8)。
Alignment |
A G G T A C T T |
C C A T A C G T |
|
A C G T T A G T |
|
A C G T C C A T |
|
C C G T A C G G |
5 motifs ,每个长度为8。红色字母表示偏离共识(deviation from consensus)
从给定的基序中,我们首先构建一个 profile matrix ,它只是每个位置每个核苷酸碱基的频率。
因此,对于我们上面的示例,以下是我们的配置 profile matrix 的样子,
Profile |
A |
3 0 1 0 3 1 1 0 |
G |
2 4 0 0 1 4 0 0 |
|
C |
0 1 4 0 0 0 3 1 |
|
T |
0 0 0 5 1 0 1 4 |
每一列中最常见的字母组合在一起,为我们提供了共识字符串。因此,在本例中,我们的一致性序列在第一个位置有A,因为它在第1列中出现的次数最多,类似地,我们将在第二个位置有C,依此类推,以获得以下一致性序列:ACGTACGT。
这组 motif candidates 的一个可能得分是突变总数(在上面的例子中,即2+1+1+0+2+1+2+1=10)。我们的目标是尽量减少这个分数。
更合适的分数是 profile matrix 的熵(entropy)。
熵(entropy)是衡量每个位置守恒程度的指标。高熵意味着低守恒,低熵意味着高守恒。设 prob(R,l) 为剩余R出现在位置l的概率,即 prob(R, l) = count(R, l) / T 。
例如,对于给定的上述 profile matrix , prob(C,1)=2/5 。
我们将分别测量每个位置的熵。其定义如下:
prob (R,l) log prob (R,l)
也就是说,我们对所有位置的所有残留物的 prob(R,l)log(prob(R,l)) 求和。
寻找基序(随机算法)
我们将使用一种随机迭代算法来寻找 motifs 。我们使用随机迭代算法,因为尝试 profile matrix的所有可能值是不可行的。
当评分函数仅使用一致性序列而不是 profile matrix 时,有更快的算法,但熵函数是一个比纯粹基于一致性序列的评分函数更好的评分函数,它不考虑一致性序列的每个位置的保守性。
- 在每个给定序列中随机选择初始 motifs 。这给了我们一组候选 motifs M。
- 计算 motifs 候选M的 profile matrix P(如前一节所述)。
- 对于每个序列 S,给定配置 profile matrix P,找到最佳的 motifs (下面有更详细的描述)。这为我们提供了一组新的 motifs 候选 M。
- 如果新的候选 motifs 集与前一组不同,则返回到 2。否则停止。
对于第 3 步,我们可以对给定的配置 profile matrix P 的每个 L-mer 进行评分。评分如下:
log prob (R,l)
其中 sum 在 motifs 的残基上,而 prob 由轮廓矩阵定义。例如,对于序列 ACAGACAT,分数将为 -[log(prob(A, 1)) + log(prob(C, 2)) + log(prob(A, 3)) + … + log( 概率(T,8))]。
其中 sum 超过 motifs 的残基, prob 由 profile matrix 定义。
例如,对于序列ACAGACAT,分数将为
[log(prob(A,1)) + log(prob(C,2)) + log(prob(A,3)) + … + log(prob(T,8))]
随机算法收敛速度非常快。由于我们的最终结果取决于开始时进行的随机初始化,因此我们通常多次运行整个过程,并从所有运行中选择熵最低的motif集
吉布斯采样算法
对上述随机算法稍作修改,使该算法的性能更加出色。这个版本被称为 Gibb's Sampler 算法。
执行 Gibb 采样的程序(与以前算法的主要变化以粗体显示):
对上述随机算法稍作修改,使该算法的性能更加出色。这个版本被称为 吉布斯采样算法(Gibb’s Sampling Algorithm)
执行吉布斯采样的程序(与以前算法的主要变化以粗体显示):
- 随机选择每个给定的 T 序列的起始位置和基序L-mers。
- T 序列中随机选择一个。
- 为剩余的 T-1 序列创建 profile matrix 。
- 对于移除序列中的每个位置,根据 profile matrix 计算每个 L-mer 的分数。
- 从该序列中取样要使用的新 L-mer 。每个 L-mer 的采样权重为 escore 。(我们使用 escore ,因为分数是对数概率(log probability))。
- 从第2步开始重复,直到配置 profile matrix 的得分停止提高。
Gibb采样算法比前一种算法更好,因为它更稳定。收敛需要更长的时间,但我们不必多次运行它,它几乎总是给出相同的结果。
基序(Motif)、一致性序列与寻找基序的算法,motif基序怎么看结果
主题测试文章,只做测试使用。发布者:氨基酸肥料,转转请注明出处:https://www.028aohe.com/18838.html