Рисунок 5 Результат анализа праймера с помощью программы Oligoanalyzer.
После амплификации и секвенирования гена ND6 из образца ДНК больного Х, мы получили его последовательность в виде файла хроматограммы, в котором пики уже обработаны, и по ним определена нуклеотидная последовательность. Необходимо определить, имеет ли этот ген какие-либо замены по сравнению с кэмбриджской референсной последовательностью (rCRS) митохондриальной ДНК, принятой исследователями в этой области в качестве стандартной. Для этого мы загружаем rCRS с сайта mitomap.org в виде текстового файла, а потом открываем ее и файл с хроматограммой в программе ChromasPro. Кроме того, что эта программа может воспринимать данные о нуклеотидных последовательностях в разных форматах, она предоставляет ряд возможностей работы с этими последовательностями, в первую очередь выравнивание, в том числе и множественное, и поиск несоответствий в полученном выравнивании, а также поиск открытых рамок считывания, рестрикционных сайтов, трансляция нуклеотидной последовательности в аминокислотную и редактирование нуклеотидных последовательностей в режиме хроматограммы. С помощью ChromasPro мы нашли, что последовательность гена ND6 у больного Х отличается от rCRS по двум позициям: 14456 и 14582 (в обоих случаях выявлена замена А на Г) (рисунок 6).
Рисунок 6 – Результат сравнения последовательности гена ND6 больного Х и rCRS. На консенсусной последовательности, приведенной вверху, темным выделен нуклеотид, по которому сравниваемые последовательности различаются.
Основным достоинством программы ChromasPro, наряду с многофункциональностью, является ее удобный, интуитивно понятный интерфейс. Для пользования ей практически не требуется обучение или опыт работы с аналогичными программами.
На следующем этапе мы определяли, могут ли обнаруженные замены приводить к нарушению функционирования белка ND6 и, соответственно, вызывать наблюдаемые у больного симптомы. Сначала был проведен поиск этих замен в базе данных Mitomap, в которой собраны все описанные мутации (замены, приводящие к нарушению функции) и полиморфизмы (замены, не сказывающиеся на активности того или иного белка). Среди описанных мутаций ни одна из двух замен не была найдена, а в списке полиморфизмов была обнаружена замена А-14582-Г. Следовательно, она не может являться причиной наблюдаемой клинической картины.
Для того, чтобы получить представление о возможной роли замены А-14456-Г в возникновении заболевания, мы сначала определили, приводит ли эта нуклеотидная замена к изменению аминокислоты в белке. Для этого использовалась он-лайн программа Virtual Ribosome (виртуальная рибосома). Важным преимуществом этой программы является то, что она может транслировать ДНК не только в соответствии с классическим генетическим кодом, но и в соответствии с 22 отличных от него вариантов генетического кода. Так как мы работали с митохондриальным геномом, то эта функция нам была необходима, ведь в этом случае мы имеем дело с неканоническим генетическим кодом. В результате мы получаем аминокислотную последовательность белка в однобуквенном формате. Далее, чтобы определить, имеются ли отличия в последовательности аминокислот между «нормальным» белком ND6 и тем белком, который образуется в организме больного Х, мы провели выравнивание этих двух аминокислотных последовательностей с помощью программы SIM, в которую просто вводятся две аминокислотные последовательности, требующие выравнивания. В результате программа выдает две выровненные последовательности, при этом позиции, одинаковые в обоих из них, помечаются знаком «*» (рисунок 8). В нашем случае белки отличаются по 2 позициям (рисунок): V31A и M73T. Первое отличие вызвано полиморфизмом А-14582-Г, о котором уже шла речь. Вторая замена – как раз та, функцию которой мы определяли с использованием программы SNAP [2]. Говоря о программе SIM, стоит отметить одно ее существенное неудобство – координаты позиций, по которым сравниваемые последовательности приходится отсчитывать вручную, так как никакого способа получить ее автоматически программа не предоставляет.
Рисунок 7 – Результат выравнивания двум аминокислотных последовательностей в программе SIM.
В качестве входных данных программой SNAP используются аминокислотная последовательность «нормального» белка (в нашем случае – белка, соответствующего rCRS) и аминокислотные замены в формате XposY, где X – аминокислота в «нормальном» варианте белка, pos – ее порядковый номер в последовательности и – аминокислота, на которую она заменилась в результате мутации (в нашем случае мы ввели в программу обе замены V31A и M73T, чтобы заодно проверить программу, предложив ей заведомо нейтральную замену). При предсказании последствий аминокислотной замены для функционирования белка программа основывается на смоделированной на основе его аминокислотной последовательности вторичной структуре, доступности данного участка белковой молекулы для растворителя и степени сходства между двумя аминокислотами. Особенностью программы SNAP является то, что результат она выдает не в окне браузера, а отправляет на введенный пользователем адрес электронной почты. Это связано со значительным временем, необходимым для проведения анализа, и, таким образом, позволяет, позволяет продолжить работу с браузером, не дожидаясь окончания анализа. К тому же, благодаря этому снижается вероятность случайной потери результатов.
Рисунок 8 – Результат оценки функциональной значимости двух аминокислотных замен в белке ND6 с помощью программы SNAP
Через некоторое время после подачи запроса нам на электронную почту пришел результат анализа, изображенный на рисунке 9. Он содержит следующую информацию: характеристику каждой из замен (нейтральная или нет), а также индекс надежности результата (отражает уровень «уверенности» программы в данном результате») и ожидаемая точность. Сразу стоит отметить, что пояснения касательно того, что представляют собой эти численные параметры, приведены только в статье с описанием программы, но не на сайте [2]. Тем не менее, по результатам SNAP анализа было показано, что замена V31A является нейтральной (что соответствует экспериментальным данным), а замена M73T вызывает нарушение функционирования белка ND6, причем этот результат имеет высокий индекс надежности. Следовательно, можно считать, что именно эта аминокислотная замена является причиной клинических проявлений, наблюдаемых у больного Х.
Биоинформатика является молодой, но перспективной областью биологической науки, основной задачей которой является работа с большими массивами молекулярно-генетических данных, а также моделирование и предсказание свойств отдельных биологических молекул и целых биологических систем. Подходы, разработанные для применения в биоинформатических исследованиях, такие как методы работы с геномными базами данных, алгоритмы выравнивания последовательностей и предсказания вторичной структуры молекул нуклеиновых кислот и белков и их термодинамических параметров, могут применяться не только в биоинформатических ислледованиях, но и быть полезными в лабораторной молекулярно-генетической работе. В частности, подобные подходы были использованы нами в работе по поиску и функциональной характеристике мутаций в гене ND6 митохондриального генома человека. Применение биоинформатических инструментов позволило сравнительно быстро и эффективно найти в базе данных нужную нуклеотидную последовательность, подобрать к ней праймеры, проанализировать полученную в результате секвенирования последовательность и оценить влияние обнаруженных замен на функционирование соответствующего белка. В будущем можно ожидать интенсивного развития БИ, особенно в таких направлениях, как моделирование биологических систем, предсказание функций генов, систематика биологических объектов и выявление механизмов эволюции органического мира.
1. Achuthsankar SN, Computational Biology & Bioinformatics: A Gentle Overview. // Communications of the Computer Society of India, January 2007.
2. Bromberg Y and Rost B, SNAP: predict effect of non-synonymous polymorphisms on function. // Nucleic Acids Research – 2007, Vol. 35, No. 11, 3823–3835.
3. Doolittle RF, The Roots of Bioinformatics in Protein Evolution // 2010 PLoS Comput Biol 6(7)
4. Drubin DA et al., Designing biological systems. // Genes Dev. 2007 21: 242-254
5. Xuhua X, Bioinformatics and the cell. // Springer, 2007, 363
6. http://bio.fizteh.ru/student/files/biology/biolections/lection25.html
7. http://elementy.ru/lib/430895
B
BLAST · 8, 22
M
Mitomap · 2, 19, 20, 21, 23, 24
Б
базы данных · 2, 5, 6, 7, 19, 20, 21, 24, 26
биоинформатика · 3, 4, 5, 6, 7, 11, 13, 15, 17, 19, 27
В
выравнивание · 2, 5, 7, 8, 14, 19, 22, 23, 24, 26
Г
геном · 6, 8, 9, 14, 18, 19, 20, 21, 26
М
моделирование · 2, 4, 5, 6, 11, 12, 17, 18, 26
модель · 10, 17
С
системная биология · 2, 3, 6, 17
структура · 2, 10, 11, 12, 13, 15, 18, 21, 26
Pubmed является самой популярной интернет базой ссылок на биологическую и медицинскую литературу. Она содержит примерно 20 млн ссылок на статьи из биологических журналов, литературу из национальной медицинской библиотеки США и он-лайн книги. Как правило, для каждой статьи (книги) приводится название, фамилии авторов, год публикации, название журнала и издательства, аннотация и ссылка на сайт издательства, по которой можно найти электронную версию статьи или книги. Кроме того, для каждой статьи эта база предлагает список статей сходной тематики или содержащие ссылку на рассматриваемую статью.