Presentation on theme: «Филогенетические деревья Что это такое Общий план действий Программы, которые строят деревья The time will come, I believe, though I shall not live to.»— Presentation transcript:
1 Филогенетические деревья Что это такое Общий план действий Программы, которые строят деревья The time will come, I believe, though I shall not live to see it, when we shall have fairly true genealogical trees of each great kingdom of Nature. Charles Darwin
2 Что такое филогенетическое дерево? Филогения — раздел биологии, изучающий родственные взаимоотношения разных групп живых организмов. Филогению отображается обычно в виде «эволюционных древ» или систематических названий. Филогенетика (=молекулярная филогенетика) – те же взаимоотношения, но на уровне отдельных белковых (генных) семейств
3 Зачем нужны филогенетические деревья? Биологические задачи: сравнение 3-х и более объектов (кто на кого более похож. ) реконструкция эволюции ( кто от кого, как и когда произошел…)
Phylogenetic Analysis by using MEGA 11 Part 1
4 Реальные события : Данные: Построенное дерево эволюция в природе или в например, древовидный граф, лаборатории, а.к. последо- вычисленный на основе компьютерная симуляция вательности или данных, может количество отражать или не щетинок отражать реальные события >Seq4 GCGCTGFKI. >Seq1 ASGCTAFKL. >Seq3 GCGCTLFKI ACGCTAFKI GCGCTAFKI ACGCTAFKL A -> G I -> L
5 Основные термины Узел (node) — точка разделения предковой последовательности (вида, популяции) на две независимо эволюционирующие. Соответствует внутренней вершине графа, изображающего эволюцию. Лист (leaf, OTU – оперативная таксономическая единица) — реальный (современный) объект; внешняя вершина графа. Ветвь (branch) — связь между узлами или между узлом и листом; ребро графа.
Корень (root) — гипотетический общий предок. Клада (clade) — группа двух или более таксонов или последователь- ностей ДНК, которая включает как своего общего предка, так и всех его потомков.
6 Какие бывают деревья? Бинарное (разрешённое) (в один момент времени может произойти только одно событие ) Небинарное (неразрешённое) (может ли в один момент времени произойти два события? ) Время
7 Какие бывают деревья? Укорененное дерево (rooted tree) отражает направление эволюции Неукорененное (бескорневое) дерево (unrooted tree) показывает только связи между узлами Время Если число листьев равно n, существует (2n-3)!! разных бинарных укоренных деревьев. По определению, (2n-3)!! = 1·3 ·. ·(2n-3) Существует (2n-5)!! разных бескорневых деревьев с n листьями
8 Рутинная процедура, или как строят деревья? Составление выборки последовательностей Множественное выравнивание Построение дерева фрагмент записи в виде скобочной формулы: Визуализация и редактура дерева (((((con101:38.51018,(f53969:28.26973,((f67220:8.39851, max4:27.50591):4.92893,con92:30.19677):13.62315):9.53075):25.83145,
9 (((C:3.2,D:8.0):5.5,E:7.7):5.2,(A:6.1,B:6.3):7.5); длины ветвей (((C,D),E)),(A,B)); только топология Скобочная формула (Newick format) A B C D E 5.2 7.5 6.3 6.1 7.7 8.0 3.2 5.5
Филогенетический анализ в программе MEGA 7
11 Самое главное – хорошее выравнивание! Максимальный вклад в финальное дерево: нельзя построить хорошее дерево по плохому выравниванию Блоки, содержащие много гэпов, плохо выровненные N- и C- концы можно просто вырезать.
12 Основные алгоритмы построения филогенетических деревьев Методы, основанные на оценке расстояний (матричные методы): Вычисляются эволюционные расстояния между всеми листьями (OTUs) и строится дерево, в котором расстояния между вершинами наилучшим образом соответствуют матрице попарных расстояний. UPGMA Neighbor-joining Минимальная эволюция Квартеты («топологический»). Наибольшего правдоподобия, Maximal likelihood, ML Используется модель эволюции и строится дерево, которое наиболее правдоподобно при данной модели Максимальной экономии (бережливости), maximal parsimony, MP Выбирается дерево с минимальным количеством мутаций, необходимых для объяснения данных
13 Пример матрицы расстояний 1 2 3 4 5 6 7 8 0.00 10.53 9.77 12.78 12.03 16.54 13.53 25.00HUMAN 1 0.00 9.02 12.03 9.77 15.79 9.02 27.27HORSE 2 0.00 9.77 9.02 16.54 12.03 24.24RABIT 3 0.00 2.26 17.29 10.53 25.76MOUSE 4 0.00 15.79 8.27 25.76RAT 5 0.00 10.53 29.55BOVIN 6 0.00 25.00PIG 7 0.00CHICK 8 Расстояние (уровень дивергенции) между соответствующими последовательностями из геномов мыши и свиньи
14 Как понимать расстояние между объектами? Как время, в течение которого они эволюционировали Как число «эволюционных событий» (мутаций) В первом случае объекты образуют ультраметрическое пространство (если все объекты наблюдаются в одно время, что, как правило, верно) Но время непосредственно измерить невозможно
15 Гипотеза «молекулярных часов» (E.Zuckerkandl, L.Pauling, 1962) За равное время во всех ветвях эволюции накапливается равное число мутаций Если гипотеза молекулярных часов принимается, число различий между выровненными последовательностями можно считать примерно пропорциональным времени. Отклонения от ультраметричности можно считать случайными. Эволюция реконструируется в виде ультраметрического дерева. Укоренённое дерево называется ультраметрическим, если расстояние от корня до любого из листьев одинаково.
16 UPGMA Unweighted Pair Group Method with Arithmetic Mean разновидность кластерного метода Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров
17 Гипотеза молекулярных часов не всегда справедлива ABC D E (длина ветвей пропорциональна числу мутаций)
18 Недостатки UPGMA Алгоритм строит ультраметрическое дерево, а это означает, что скорость эволюции предполагается одинаковой для всех ветвей дерева. Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости «молекулярных часов»). Реальное дерево UPGMA
19 Метод ближайших соседей (Neighbor-joining, NJ) Строит неукоренённое дерево Может работать с большим количеством данных Достаточно быстрый Хорошо зарекомендовал себя на практике: если есть недвусмысленное с точки зрения эксперта дерево, то оно будет построено. Могут появиться ветви с длиной
20 Метод Neighbor-joining Рисуем «звездное» дерево и будем «отщипывать» от него по паре листьев Пусть u i = Σ k M ik /(n-2) — среднее расстояние от листа i до других листьев 1. Рассмотрим все возможные пары листьев. Выберем 2 листа i и j с минимальным значением величины M ij – u i –u j т.е. выбираем 2 узла, которые близки друг к другу, но далеки ото всех остальных.
21 Метод ближайших соседей (Neighbor-joining, NJ) 2. Кластер (i, j) – новый узел дерева Расстояние от i или от j до узла (i,j): D(i, (i,j)) = 0,5·(Mij + ui – uj) D(j, (i,j)) = 0,5· (Mij + uj – ui) т.е. длина ветви зависит от среднего расстояния до других вершин 3. Вычисляем расстояние от нового кластера до всех других M(ij)k = Mik+Mjk – Mij 2 5. В матрице М убираем i и j и добавляем (i, j). Повторяем, пока не останутся 3 узла.
22 Стандартная ситуация Понимаем расстояние как число мутаций Реальное (неизвестное нам) дерево — укоренённое, но не ультраметрическое Мы реконструируем неукоренённое дерево (топологию и длины ветвей). Его надо понимать как множество всех возможных укоренений. Если данные таковы, что гипотеза молекулярных часов не проходит, то реконструкция укорененного дерева намного менее надёжна, чем реконструкция неукоренённого
23 Как изобразить дерево? Топология дерева Топология дерева — только листья, узлы, (корень) и связывающие их ветви (топология не зависит от способа изображения дерева) A B C D E ABCDE Два изображения одной и той же топологии
24 Филограмма: Длина ребер пропорциональна эволюционному расстоянию между узлами. Кладограмма: представлена только топология, длина ребер игнорируется. Arabidopsis Caenorhabditis Drosophila Anopheles Tenebrio Trout Mus 0.1 substitutions per site Arabidopsis Caenorhabditis Drosophila Anopheles Tenebrio Trout Mus Как можно нарисовать построенное дерево?
25 Достоверность топологии. Bootstraps Создадим псевдоданные: N множественных выравниваний той же длины, что и исходное, каждое из псевдовыравниваний — случайный набор столбцов из исходного (выборка с возвращением!) Построим N деревьев: на каждой внутренней ветви отметим долю случаев из N, в которых появлялся этот узел.
Обычно верят в топологию, если метки ветвей на бутстрепном дереве больше 70-80%. Если меньше 50%, то не верим. В иных случаях – думаем… Есть множественное выравнивание и построенное по нему дерево. Верим ли мы в топологию дерева?
26 Какие on-line программы строят деревья? ClustalW. “Tree type” – nj, phylip: строит только методом NJ, но результат – в разных форматах, no bootstraps Phylip (Felsenstein, 1993) – пакет программ для построения филогенетических деревьев (stand-alone) On-line (partly): например, http://bioweb.pasteur.fr/seqanal/phylogeny/phylip-uk.html PAUP ( Phylogenetic Analysis Using Parsimony)
28 Пакет Phylip protdist — оценка эволюционных расстояний между белковыми последовательностями (вход — множественное выравнивание, выход — матрица попарных расстояний) dnadist — то же для нуклеотидных посл-тей protpars – оценка числа нуклеотидных мутаций для наблюдаемой частоты белковых замен (близкие последовательности) neighbor — реконструкция филогении по матрице расстояний методами NJ и UPGMA drawtree — рисование неукоренённого дерева drawgram — рисование кладограмм и филограмм
29 Bootstrapping with Phylip Надо выбрать Bootstrap options еще в protdist, выставить не менее 100 итераций, нечетное число в “Random number of seed” Затем, при запуске “Neighbor” снова выбрать “Bootstrap options” и выставить указанное в пред. пункте количество наборов данных и отметить “Compute a consensus tree”
30 Общий план действий с пакетом Phylip Множественное выравнивание -> protdist Bootstrap options — ? Результат – или сразу, или URL по e-mail (предлагают продолжить с программой построения дерева) Выбрать Neighbor, Neighbor-Joining, Boostrap…?, outgroup – позиция outgroup в выравнивании Выход: outfile.consense – текстовый рисунок + outtree.consense – в Newick формате Представление дерева в графическом режиме одной из программ – Drawtree или Drawgram (без bootstraps) — или другими программами
32 Как красиво представить получившееся дерево? http://www.es.embnet.org/Doc/phylodendron/treeprint-form.html
33 MEGA: филогенетический анализ последовательностей http://www.megasoftware.net/
34 To start Расширение – “.fas” (нуклеотиды или аминокислоты). Надо конвертировать в “mega”формат (из текстового редактора)
35 MEGA: Web Browser Выбрать в FASTA или GenBank формат; Send to Text; И затем “Add to alignment”
36 Sequence data explorer Можно анализировать подвыборку как по последовательностям, так и по позициям; считает статистику кодонов, вариабельные, консервативные сайты, синглетоны и сайты, информативные для парсимонии, 0-, 2- и 4- вырожденные сайты; можно также анализировать статистику белка; можно (не) анализировать отдельные домены
37 Построение выравниваний Множественное выравнивание ClustalW; выравнивание на уровне белка А также – анализировать прямо хроматограммы с секвенаторов; Выбирать последовательности из результатов бласта; Искать мотивы в последовательностях и т.п. МОЖНО РЕДАКТИРОВАТЬ ВЫРАВНИВАНИЯ.
38 Построение деревьев Distance Matrix Explorer – можно посмотреть попарные расстояния, ошибку их вычисления, вычислить всевозможные средние Деревья – bootstrap, тесты на относительную скорость эволюции, на внутренние ветви. Пока нет Maximum Likelihood – будет в следующей версии (если надо прямо сейчас; on-line – PhyML, http://atgc.lirmm.fr/phyml/)http://atgc.lirmm.fr/phyml/
39 Tree Explorer Можно нарисовать дерево в разных формах, редактировать дерево разнообразно; построить “консенсусное дерево”; оценить время расхождения при гипотезе молекулярных часов; оценить, какой нуклеотид или аминокислота в какой вершине и т.п.
40 Подписи к рисункам Перечисление необходимых параметров, которые использовались, а также правильные ссылки
Источник: slideplayer.com
Биоинформатика. Дендрограммы. Молекулярная филогения. (Тема 6)
Граф — это простая диаграмма (абстрактная структура), применяемая
для представления отношений между элементами например чисел,
объектов или мест. Сами элементы изображают в виде узлов, а
отношения между ними показывают в виде связей, или ребер
(соединительных линий).
В теории графов деревом называют граф особого вида. Граф
представляет собой структуру, состоящую из узлов (абстрактных
точек) и соединяющих их ребер (линий между точками). Путь от
одного узла к другому складывается из множества последовательных
ребер, первое из которых выходит из начальной точки (узла), а
последнее входит в конечную точку (узел). Граф называют связным,
если в нем между любыми двумя узлами можно провести по крайней
мере один путь.
Деревом называют связный ациклический граф, между каждыми
двумя точками которого имеется строго один путь.
4. Терминология
Узел (node) — точка разделения предковой последовательности
(вида, популяции) на две независимо эволюционирующие.
Соответствует внутренней вершине графа, изображающего
эволюцию.
Лист (leaf, OTU – оперативная таксономическая единица) —
реальный (современный) объект; внешняя вершина графа.
Ветвь (branch) — связь между узлами или между узлом и
листом; ребро графа.
Корень (root) — общий предок.
Клада (clade) — группа двух или
более таксонов или последовательностей ДНК, которая включает как
своего общего предка, так и всех его
потомков.
5. Зачем нужны деревья?
Биологические задачи:
сравнение 3-х и более объектов
(кто на кого более похож . )
реконструкция эволюции
(кто от кого, как и когда произошел…)
6. Филогенетическое дерево (древо)
Филогения — раздел биологии, изучающий
родственные взаимоотношения разных
групп живых организмов.
Молекулярная филогения Древо сходства и филогенетическое древо –
не одно и то же.
7.
OTU
HTU (hypothetical taxonomic unit)
8. Какие бывают деревья?
Бинарное (разрешённое)
Небинарное (неразрешённое)
(в один момент времени может
произойти только одно событие )
(может ли в один момент времени
произойти два события? )
Время
9. Какие бывают деревья?
Укорененное дерево (rooted tree)
отражает направление эволюции
Неукорененное (бескорневое) дерево
(unrooted tree) показывает
только связи между узлами
Время
Если число листьев равно n, существует (2n-3)!!
разных бинарных укоренных деревьев.
По определению, (2n-3)!! = 1·3 ·. ·(2n-3)
Существует (2n-5)!! разных бескорневых
деревьев с n листьями
10.
11.
3 OTUs 1 неукорененное дерево
3 укорененных деревьев
B
A
C
A
C
B
A
B
C
B
C
A
12. 4 OTUs 3 неукорененных филогенетических деревьев
4 OTUs 3 неукорененных филогенетических деревьев
C
A
B
D
A
C
B
D
A
D
B
C
13.
14.
15.
4 OTUs
15 укорененных
деревьев
16.
Количество возможных деревьев
Количество Количество
OTU
укорененных
2
3
4
5
6
7
8
9
10
11
12
1
3
15
105
954
10,395
135,135
2,027,025
34,459,425
654,729,075
13,749,310,575
Количество
неукорененных
1
1
3
15
105
954
10,395
135,135
2,027,025
34,459,425
654,729,075
17. Рутинная процедура, или как строят деревья?
Составление выборки последовательностей
Множественное выравнивание
Построение дерева
фрагмент записи в виде скобочной формулы:
(((((con101:38.51018,(f53969:28.26973,((f67220:8.39851,
max4:27.50591):4.92893,con92:30.19677):13.62315):9.53075):25.83145,
Визуализация и редактура дерева
18. Рутинная процедура, или как строят деревья?
Составление выборки последовательностей
Множественное выравнивание (или всё-таки попарное)
Построение дерева
фрагмент записи в виде скобочной формулы:
(((((con101:38.51018,(f53969:28.26973,((f67220:8.39851,
max4:27.50591):4.92893,con92:30.19677):13.62315):9.53075):25.83145,
Визуализация и редактура дерева
19.
Множественное выравнивание
GCGGCTCA
GCGGCCCA
GCGTTCCA
GCGTCCCA
GCGGCGCA
***
**
Matches
TCAGGTAGTT
TCAGGTAGTT
TC—CTGGTT
TCAGCTAGTT
TTAGCTAGTT
*
* ***
GGTG-G
GGTG-G
GGTGTG
GTTG-G
GGTG-A
* **
Spinach
Rice
Mosquito
Monkey
Human
20.
Multiple Alignment
GCGGCTCA
GCGGCCCA
GCGTTCCA
GCGTCCCA
GCGGCGCA
***
**
TCAGGTAGTT
TCAGGTAGTT
TC—CTGGTT
TCAGCTAGTT
TTAGCTAGTT
*
* ***
Matches
Mismatches
GGTG-G
GGTG-G
GGTGTG
GTTG-G
GGTG-A
* **
Spinach
Rice
Mosquito
Monkey
Human
21.
Multiple Alignment
GCGGCTCA
GCGGCCCA
GCGTTCCA
GCGTCCCA
GCGGCGCA
***
**
TCAGGTAGTT
TCAGGTAGTT
TC—CTGGTT
TCAGCTAGTT
TTAGCTAGTT
*
* ***
Matches
Mismatches
Gaps
GGTG-G
GGTG-G
GGTGTG
GTTG-G
GGTG-A
* **
Spinach
Rice
Mosquito
Monkey
Human
22.
Шаг 3. Перевод
индексы замен
количества
Seq 1
Seq 2
расхождений
A G C G A G
G C G G A C
в
23.
Distance Matrix*
Spinach
Rice
Mosquito
Spinach
0.0
Rice
9
0.0
Mosquito Monkey Human
106
91
86
118
122
122
0.0
55
51
0.0
3
Monkey
Human
* Units: количество замен нуклеотидов на 1000
0.0
24.
Шаг 4: построение филогенетического дерева
25. Как выбирать последовательности для дерева?
Кроме случаев очень близких последовательностей,
проще работать с белками (а не с ДНК)
Придерживайтесь небольшой выборки ( < 50
последовательностей)
Избегайте:
◦ фрагментов;
◦ Ксенологов (горизонтальный перенос генов);
◦ рекомбинантных последовательностей;
◦ многодоменных белков и повторов
Используйте outgroup (последовательность,
ответвившаяся от общего предка заведомо (но
минимально!) раньше разделения интересующих группклад)
26. Самое главное – хорошее выравнивание!
Максимальный
вклад в финальное дерево:
нельзя построить хорошее дерево по
плохому выравниванию
Блоки, содержащие много гэпов, плохо
выровненные N- и C- концы можно просто
вырезать.
27. Основные алгоритмы построения филогенетических деревьев
Методы, основанные на
оценке
расстояний (матричные
методы):
UPGMA (кластеризация)
Neighbor-joining
Наибольшего
правдоподобия,
Maximal likelihood, ML
Используется модель эволюции
и строится дерево, которое наиболее
правдоподобно при данной модели
Максимальной экономии (бережливости),
maximal parsimony, MP
Выбирается дерево с минимальным количеством
мутаций, необходимых для объяснения данных
28. Пример матрицы расстояний
1
0.00
2
10.53
0.00
3
9.77
9.02
0.00
4
5
12.78 12.03
12.03
9.77
9.77
9.02
0.00
2.26
0.00
6
16.54
15.79
16.54
17.29
15.79
0.00
7
13.53
9.02
12.03
10.53
8.27
10.53
0.00
Расстояние (уровень дивергенции) между
соответствующими последовательностями из
геномов мыши и свиньи
8
25.00
27.27
24.24
25.76
25.76
29.55
25.00
0.00
HUMAN
HORSE
RABIT
MOUSE
RAT 5
BOVIN
PIG 7
CHICK
1
2
3
4
6
8
29.
Как понимать расстояние между объектами?
• Как время, в течение которого они эволюционировали
• Как число «эволюционных событий» (мутаций)
В первом случае объекты образуют
ультраметрическое пространство
(если все объекты наблюдаются в одно время, что, как правило, верно)
Но время непосредственно измерить невозможно
30.
31. Гипотеза «молекулярных часов» (E.Zuckerkandl, L.Pauling, 1962)
Если гипотеза молекулярных часов
принимается, число различий между
выровненными
последовательностями
можно
считать
примерно
пропорциональным
времени.
Отклонения
от
ультраметричности можно считать
случайными.
Эволюция
реконструируется
в
виде
ультраметрического дерева.
Укоренённое
дерево называется
ультраметрическим,
если
расстояние от корня до любого из
листьев одинаково.
За равное время во всех ветвях эволюции
данного генабелка накапливается равное
число мутаций
32. UPGMA Unweighted Pair Group Method with Arithmetic Mean
разновидность кластерного метода
Расстояние между кластерами вычисляется как среднее
арифметическое всевозможных расстояний между
последовательностями из кластеров
33.
Spinach
Rice
Mosquito
Monkey
Human
Spinach
0.0
Rice
9
0.0
Mosquito Monkey Human
106
91
86
118
122
122
0.0
55
51
0.0
3
0.0
34.
Дистанция между человеком и обезьяной минимальна. Эти
группы объединяются в Monkey-Human, а все остальные
дистанции пересчитываются
Dist[Spinach, MonHum] = (Dist[Spinach, Monkey] +
Dist[Spinach, Human])/2 = (91 + 86)/2 = 88.5
Mon-Hum
Mosquito Spinach
Rice
Human
Monkey
35.
Редуцированная матрица дистанций
Spinach
Rice
Mosquito
Mon-Hum
Spinach
0.0
Rice
9
Mosquito
106
Mon-Hum
88.5
0.0
118
122
0.0
53
0.0
36.
Spi-Ric
Mosquito
Spinach
Rice
Mon-Hum
Human
Monkey
37.
Mos-Mon-Hum-Spi-Ric
Mos-Mon-Hum
Spi-Ric
Rice
Spinach
Mon-Hum
Mosquito
Human
Monkey
38.
39. Недостатки UPGMA
Алгоритм строит ультраметрическое дерево – скорость эволюции
предполагается одинаковой для всех ветвей дерева. Использовать
этот алгоритм имеет смысл только в случае ультраметрических
данных (справедливости «молекулярных часов»).
Реальное дерево
UPGMA
40. Метод ближайших соседей (Neighbor-joining, NJ)
Строит неукоренённое дерево
Может работать с большим количеством данных
Достаточно быстрый
Если есть недвусмысленное с точки зрения
эксперта дерево, то оно будет построено.
. Только древо сходства – не филогенетическое
41. Метод Neighbor-joining
Рисуем «звездное» дерево и будем «отщипывать» от него по паре
листьев
Пусть ui = Σk Mik/(n-2) — среднее расстояние от листа i до других
листьев
1. Рассмотрим все возможные пары листьев. Выберем 2 листа i и j с
минимальным значением величины
Mij – ui –uj
т.е. выбираем 2 узла, которые близки друг к другу, но далеки ото всех
остальных.
42. Метод ближайших соседей (Neighbor-joining, NJ)
2. Кластер (i, j) – новый узел дерева
Расстояние от i или от j до узла (i,j):
D(i, (i,j)) = 0,5·(Mij + ui – uj)
D(j, (i,j)) = 0,5· (Mij + uj – ui)
т.е. длина ветви зависит от среднего расстояния
до других вершин
3. Вычисляем расстояние от нового кластера до всех других
M(ij)k = Mik+Mjk – Mij
2
5. В матрице М убираем i и j и добавляем (i, j).
Повторяем, пока не останутся 3 узла .
43.
Maximum Parsimony (MP)
44.
Методы, основанные на последовательностях:
Maximum Likelihood (ML), Maximum Parsimony (MP)
Input:
MSA для n последовательностей,
одна последовательность для каждого
вида.
AAAAATC
CCCCCCG
AAAAAAG
Длинная ветвь Похоже на правду
CCCCCCG
AAAAAAG
AAAAATC
Длинная ветвь –
непохоже на правду
45. Как изобразить дерево? Топология дерева
Топология дерева — только листья, узлы, (корень)
и связывающие их ветви
(топология не зависит от способа изображения дерева)
A
B
C
D
E
C
D E
A
Два изображения одной и той же топологии
B
46.
Как можно нарисовать построенное дерево?
Кладограммы и филограммы
Bacterium 1
Bacterium 2
Bacterium 3
Eukaryote 1
Eukaryote 2
Кладограммы – только
топологя. Длины ветвей не
учитываются
Eukaryote 3
Eukaryote 4
3
Bacterium 1
1
Bacterium 2
2
Bacterium 3
4
Eukaryote 1
3
6
6
5
2
4
Филограммы – длины ветвей
пропорциональны
эволюционному расстоянию.
Eukaryote 2
Eukaryote 3
Eukaryote 4
47. Какие on-line программы строят деревья?
ClustalW. “Tree
type” – nj, phylip: строит только
методом NJ, но результат – в разных форматах,
no bootstraps
Phylip (Felsenstein, 1993) – пакет программ для
построения филогенетических деревьев (standalone)
PAUP (Phylogenetic Analysis Using Parsimony)
48. MEGA: филогенетический анализ последовательностей
http://www.megasoftware.net/
49.
Эволюция – исторический процесс.
Из 8,200,794,532,637,891,559,375 деревьев для 20 OTUs, 1
является верным и 8,200,794,532,637,891,559,374
неверны.
Truth is one, falsehoods are many.
Источник: ppt-online.org
5.2.3 Построение филогенетического древа
Филогения с древне-греческого дословно переводится phylon — «племя, раса» и genetikos — «имеющий отношение к рождению», в более широком смысле означает историческое развитие организмов. В биологии филогенез рассматривает развитие биологического вида во времени.
Макромолекулярные данные, под которыми имеется в виду последовательности генетического материала ДНК и белков, накапливаются всё быстрыми темпами благодаря успехам молекулярной биологии. Для эволюционной биологии быстрое накопление данных последовательностей целых геномов имеет значительную ценность, потому что сама природа ДНК позволяет использовать его как «документ» эволюционной истории.
Сравнения нуклеотидных или аминокислотных последовательностей у разных организмов могут сказать ученому много нового об эволюционных взаимоотношениях этих организмов, которые не могут быть обнаружены иначе, например, на основе морфологии, или внешней форме организмов, или их внутренней структуре. Поскольку геномы эволюционируют через постепенное накопление мутаций, количество отличий последовательности нуклеотидов между парой геномов разных организмов должно указать, как давно эти два генома отделились от общего предка. Два генома, которые разделились в недавнем прошлом, должны иметь меньшие отличий, чем два генома, чей общий предок более древний. Потому, сравнивая разные биологические последовательности друг с другом, возможно получить сведения об эволюционном взаимоотношения между ними. Это является главной задачей молекулярной филогенетики .
Молекулярная филогенетика пытается определить скорость и отличия изменений в ДНК и белках, чтобы восстановить эволюционную историю генов и организмов. Задачей филогенетического анализа является установление, реконструкция эволюционной истории — родственных связей, отношений между формами жизни — и датирование эволюционных событий.
В филогенетических исследованиях эволюционные отношения между формами жизни представляют в виде филогенетических , или эволюционных , деревьев (phylogenetic, evolutionary trees). Филогенетическое дерево состоит из внутренних и внешних ветвей (branches), узлов (nodes), и, если исследователем выбрана соответствующая опция, — корня (root), без корня (unroot).
Порядок всех ветвей дерева называют его топологией (topology). Внутренние ветви соединяют внутренние узлы, внешние ветви ведут непосредственно к объектам исследования (также они называются внешние узлы, или листья дерева, leaves). Деревья с корнем отражают направление эволюции, порядок почкования, ответвления (branching) различных эволюционных линий. Объектами филогенетического исследования могут быть гены или их участки, нуклеотидные или аминокислотные последовательности, организмы, популяции, индивидуумы, штаммы вирусов и т.д. Эти объекты исследования называют оперативными таксономическими единицами, OTU (Operational Taxonomic Units).
Деревья без корня показывают родственные отношения между анализируемыми последовательностями, но не направление эволюции. После того как мы имеем представление о большой «семье» флавивирусов (род Flavivirus), не лишним будет построить филогенетическое древо, по топологии которого наглядно видны эволюционные расстояния между видами. Порядок построения филогенетического древа: 1. Вернемся к выполненному запросу со скрининга по гомологии (GenBank), для этого удобно перейти по ссылке из письма о готовом задании, хранящемся у вас в электронной почте. 2. На странице с результатами выберите любые понравившиеся вам строки списка с неповторяющимися названиями вируса. Для того чтобы выбрать строку из списка, поставьте галочку, соответствующую этой строке.
3. Когда вы выберите все интересующие вас последовательности чтобы построить филогенетическое древо щелкните внизу на кнопку «Множественное выравнивание». Так вы сможете воспользоваться сервисом который выравнивает заданный набор последовательностей, то есть расставляет гэпы так чтобы похожие участки в разных последовательностях находились одни под другим. Для выполнения выравнивания нажмите на кнопку «рассчитать» с теми последовательностями во входной форме, которые туда были внесены когда вы перешли со страницы с результатами скрининга.; 4. После того как последовательности будут выровнены, щелкните внизу страницы с результатом выравнивания на ссылку «Перейти к филогенетическому анализу» 5. Через встроенную на сайте систему автоматических переходов (которые по английски называются pipelines) сформированный вами запрос перенаправляется на сервис Филогенетический анализ, здесь вы можете выбрать метод анализа и скомандовать « Рассчитать ». 6. Результат построения филогенетического древа появляется практически мгновенно и вы сможете оценить эволюционные расстояния внутри выбранной вами группы вирусов и топологию построенного дерева.
5.2.4 Конструирование трехмерной структуры вирусного белка NS3
Все задания выполненные до этого момента, были некоторым экскурсом для знакомства с исследуемым нами объектом, а теперь нам предстоит захватывающий этап работы, называемый Insight into, то есть взгляд внутрь. Давайте немного поразмышляем, над нашим объектом и устройством всего живого в целом. Из специализированных баз данных мы можем извлечь генетические последовательности практически для всех живых организмов живущих на Земле. Но что из себя представляет сама последовательность с точки зрения живой природы? Это — определенная матрица с которой синтезируется множество белков, выполняющих свои особенные исключительные функции в живом
организме. А благодаря белкам и существует живая материя. Как по настоящему выглядят белки, белки из которых состоит наше тело, или белки вирусной частицы, или любые другие белки?
Для того чтобы узнать как выглядят белки в живой природе, существует несколько достаточно сложных экспериментальных методов — получение кристаллов белка и расшифровка их структуры с помощью рентгеноструктурного анализа и метод ядерно-магнитного резонанса, а так же компьютерное молекулярное моделирование. Метод компьютерного молекулярного моделирования, в отличии от экспериментальных методов, позволяет получать лишь предсказания структуры белков, и эти предсказанные структуры могут отличаться от экспериментально наблюдаемых.
По сути они представляют собой результаты эксперимента, который выполняется in silico, то есть на компьютере. Именно поэтому на сегодняшний день с помощью моделирования можно получить пространственную структуру белка достаточно быстро и дешево, хотя без дополнительной верификации такая структура будет отличаться от реального белка в растворе.
В зависимости от требований к точности пространственной структуры выбираются разные методы либо долгие и дорогостоящие исследования с кристаллизацией белка, либо быстрые и малозатратные компьютерные эксперименты. У нас есть последовательность вирусного белка NS3 по которой мы хотим воссоздать его третичную структуру, то есть увидеть как этот белок выглядит в природе.
Для этого воспользуемся известным методом моделирования по гомологии, этот метод также называется гомологичное моделирование, либо сравнительное моделирование. Вкратце, суть метода можно описать так: существует база данных экспериментально определенных структур белков. Мы собираемся найти в этой базе структуру белка, который имеет гомологию по первичной последовательности с нашим заданным белком, и на основании найденной гомологии построить трехмерную модель нашего белка. Несмотря на то что в базе данных PDB хранится огромное множество трехмерных моделей для самых разных белков, не всегда можно найти расшифрованную пространственную структуру непосредственно интересующего вас белка. Например, для исследуемого белка NS3 вируса клещевого энцефалита в PDB в настоящее время нет ни одной структуры. Однако если продолжить поиск в базе PDB можно найти
структуры этого же белка для близкородственных видов вируса того же рода и семейства. Если в базе белковых структур мы нашли хотя бы одну модель близкородственного белка, то можно приступать к моделированию по гомологии. Для выполнения задания по конструированию пространственной структуры вирусного белка NS3 воспользуемся сервисом «скрининг по гомологии (PDB)» на www.brishur.com 1. Откройте страницу сервиса Скрининг по гомологии (PDB) 2. По аналогии с предыдущими запросами заполните поля email и наименование задания Возьмите исследуемую последовательность белка NS3 и вставьте в поле «Последовательность» 3. Для уменьшения времени расчетов воспользуемся параметрами, заданными по умолчанию: 4. Метод скрининга для построения профиля Genebee 5. Количество последовательностей в полученном результате 100. 6. Cкомандуем « Рассчитать» . Рисунок 17: Bri-shur — скрининг по гомологии (PDB)
7. После выполнения задания в полученном вами письме перейдите по ссылке на страницу с результатом вашего запроса. 8. На странице со списком найденных гомологов выберите элемент списка с наибольшим значением Z-score 9. Щелкните внизу страницы на кнопку «Уточнить парное выравнивание» 10. Через систему пайплайнов вы окажетесь на сервисе множественное выравнивание. 11.
Cкомандуем «Рассчитать». 12. Посмотрите на результат выравнивания и зрительно оцените процент сходства и совпадения исследуемой и найденной последовательностей, ориентируясь на количество условных символов * или + 13. Внизу страницы перейдите по ссылке «Перейти к моделированию по гомологии» Рисунок 18: Bri-shur — задание параметров моделирования по гомологии в Nest 14. На странице «Nest (Гомологичное моделирование)» можно еще раз посмотреть выравнивание, щелкнув по кнопке «Предварительный просмотр выравнивания»
Рисунок 19: Bri-shur — пример выровненных последовательностей 15. Скомандуем «Рассчитать». 16. Через минуту обновите страницу и если задание выполнено щелкните на ссылку download и загрузите готовую трехмерную модель структуры белка в формате файла pdb на свой компьютер. 17.
Далее визуализируйте модель с помощью программы Chimera, описанной выше.
Источник: studfile.net