Смекни!
smekni.com

«информационные технологии как средство накопления, упорядочивания и обмена биологической информацией» (стр. 1 из 4)

БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Выпускная работа по
«Основам информационных технологий»

Магистранта

биологического факультета

кафедры микробиологии

Кудина Кирилла Валерьевича

Руководители:

профессор Прокулевич Владимир Антонович

ассистент Шешко Сергей Михайлович

Минск 2010 г.

Оглавление

Оглавление. 2

Перечень условных обозначений. 3

Реферат на тему «информационные технологии как средство накопления, упорядочивания и обмена биологической информацией». 4

Введение. 4

Глава 1. Обзор литературы.. 6

1.1 Как все начиналось. 6

1.2 Основные принципы организации и работы базы данных GeneBank. 7

1.3 Для чего людям нужен BLAST. 9

Глава 2. Методика исследования. 11

Глава 3. Основные результаты.. 12

Глава 4. Обсуждение результатов. 13

Заключение. 14

Список литературы к реферату. 14

Предметный указатель к реферату. 15

Интернет ресурсы в предметной области исследования. 16

Действующий личный сайт в WWW... 18

Граф научных интересов. 19

тестовые вопросы по основам информационных технологий. 20

Вопрос по ИТ. 20

Вопрос по ИТ в предметной области. 20

Презентация магистерской диссертации. 21

СПИСОК ЛИТЕРАТУРЫ К ВЫПУСКНОЙ РАБОТЕ. 22

Приложения. 23

Перечень условных обозначений

ДНК – дезоксирибонуклеиновая кислота

ПЦР – полимеразная цепная реакция

тпн – тысяч пар нуклеотидов

BLAST – Basic Local Alignment Search Tool


Реферат на тему «информационные технологии как средство накопления, упорядочивания и обмена биологической информацией»

Введение

Современная эпоха развития молекулярно-биологических исследований и внедрения биотехнологий в обыденную практику началась с окончательного выяснения Дж. Уотсоном и Ф. Криком в 1953 году факта, что «веществом наследственности» является ДНК. Это открытие дало толчок к определению истинной природы гена и раскрытию ряда молекулярных механизмов, лежащих в основе функционирования живой клетки, а огромные возможности и манящие перспективы, которые виделись в знании генной структуры геномов организмов, подстегнули человечество к разработке методов расшифровки этих самых геномов.

Наиболее известный, массовый и дорогостоящий проект, связанный с расшифровкой генома, официально был запущен в 1990 году в США под руководством Дж. Уотсона и назывался «Геном человека». В его осуществлении приняли участие множество университетов и лабораторий по всему миру, а общие затраты превысили 3 млрд. долларов США. Проект завершился в 2003 году, когда была опубликована вся полученная в процессе работы информация о геноме, однако собранные данные до сих пор уточняются и редактируются [1]. Впоследствии, разработка новых методов сиквенирования ДНК (определения ее первичной нуклеотидной последовательности) и совершенствование старых привели к тому, что в настоящее время, для сравнения, полную информацию по любому геному можно получить в частном порядке в течение трех месяцев, при этом стоимость услуги составляет менее 100 тыс. долларов США и эта цена неуклонно снижается (к примеру, фирма Knome собирается в ближайшем будущем предложить услуги по сиквенированию индивидуальных геномов по расценкам 1 доллар за ген) [2, 3].

Одновременно с выяснением нуклеотидных последовательностей генома человека проводилась (и до сих пор проводится) работа по расшифровке структуры геномов и множества других организмов. Это, в конце концов, привело к появлению огромного массива информации, который с каждым днем расширялся и дополнялся. По мере накопления данных о геномах возникла необходимость их упорядочивания, постоянного обновления и создания системы удобного доступа к ним, с этой целью на основе нескольких университетов были созданы базы данных нуклеотидных последовательностей, обеспечивающие легкий поиск нужного сегмента информации, ориентировку в последовательностях, их сравнение, и многие другие весьма полезные функции. Однако накопленные данные не более чем простой электронный «каталог», ценность которого определяется лишь теми практически значимыми результатами, которые невозможно было бы получить без использования этого «каталога». Для примера можно привести следующую жизненную ситуацию, характерную в том числе и для Беларуси: имеется два типа вирусов свиней – первый тип вируса - PCV1, - является безобидным проявлением многообразия форм жизни, он непатогенный и не приносит никакого ущерба, второй тип вируса - PCV2, – возбудитель опасного системного заболевания, называемого синдром мультисистемного истощения отъемышей (СМИО) и являющегося причиной огромных убытков в свиноводстве большинства государств, знакомых с этой отраслью сельского хозяйства. При этом оба типа вирусов часто обнаруживаются в одном организме одновременно, а их геномы идентичны на 86% - это означает, что такая простая, дешевая и широко используемая в диагностике вирусов биологическая процедура как ПЦР становится делом весьма сложным, и своевременно определить опасный вирус PCV2 в организме животного для предотвращения развития эпидемии почти невозможно. Теперь встает законный вопрос, который может оправдать (или не оправдать) огромные средства, затрачиваемые не поддержание такого международного научного ресурса как нуклеотидные базы данных – а возможно ли используя информацию такой базы данных подобрать условия, позволяющие дифференцировать оба типа вирусов? Достаточно ли исчерпывающа информация ресурса и надежны алгоритмы ее обработки для того, чтобы оказалось возможным, не прибегая к собственным затратным внутренним исследованиям по расшифровке и уточнению последовательностей геномов вирусов, быстро создать систему идентификации патогенного PCV2, позволяющую диагностировать вирус на достаточно ранних стадиях инфицирования, чтобы оказалось возможным предотвратить распространение заболевания? В связи с поставленными вопросами цель исследования можно сформулировать следующим образом: определение возможности использования информационных технологий в области диагностической биологии. Задачи:

- выяснить структуру нуклеотидных баз данных и механизм их работы;

- изучить электронные инструменты, применяемые в области аннотации геномов;

- создать систему биологической проверки, позволяющую оценить эффективность использования ИТ в диагностических экспериментах.

Глава 1. Обзор литературы

1.1 Как все начиналось

Первая электронная база данных Los Alamos DNA Database, содержащая информацию о сиквенированных последовательностях ДНК, была организована У. Гоадом в Лос-Аламосской национальной лаборатории в США в 1979 году. К 1981 в ней уже содержалась информация о 280 опубликованных нуклеотидных последовательностях общей протяженностью 370 тпн. В 1982 году на ее основе под опекой Национального института здоровья (National Institutes of Health, NIH) был организован новый банк данных генетических последовательностей и кодируемых ими белков – GeneBank, существующий и поныне [4]. На первых этапах основная задача рабочего состава GeneBank заключалась в изучении литературы и поиске опубликованных нуклеотидных последовательностей, которые затем вручную переводились в электронную форму банка данных. Сейчас подобная работа стала редким исключением, поскольку большинство научных журналов отказалось от практики опубликования расшифрованных последовательностей в оригинальных статьях и требуют, чтобы исследователи самостоятельно пересылали данные в любые открытые базы данных, а в статьях приводили присвоенный данной последовательности инвентарный номер, по которому ее легко возможно отыскать в случае необходимости. В настоящее время, объем информации, находящейся в распоряжении GeneBank, быстро растет, удваиваясь каждые 10 месяцев [4, 5, 6].

GeneBank является американской базой данных и финансируется правительством США, хотя и содержит теперь информацию, собранную со всего мира. Созданная в 1980 году в Европе аналогичная база данных EMBL Data Library (European Molecular Biology Laboratory) задумывалась как интернациональный проект и стала первым международным хранилищем такого рода информации, предназначенным для обеспечения бесплатного доступа к коллекциям опубликованных нуклеотидных последовательностей, выработки определенных стандартов и развития информационного и компьютерного обеспечения проводимых молекулярно-биологических исследований. Свой первый релиз, охватывающий информацию о 568 последовательностях общей протяженностью 585`433 тпн, EMBL выпустила в апреле 1982 года. Первое время очередные релизы распространялись на магнитных лентах и предоставлялись по запросу любому желающему, позже увеличение числа пользователей и рост базы привели к тому, что дальнейшие выпуски стали распространяться по подписке. В 1994 г. EMBL Data Library трансформировалась в EMBL Nucleotide Sequence Database и стала курироваться Европейским институтом биоинформатики (European Bioinformatics Institute, или EBI)[4, 7].

С 1986 года в Японии начал функционировать еще один банк данных DDJB (DNA Data Bank of Japan). В 1995 году, когда в Японии был создан Центр информационной биологии (CIB), ресурс DDJB перешел к нему в подчинение [4, 8].

В середине 90-х годов все три базы данных – GeneBank, EMBL и DDJB – были объединены в рамках международного проекта в единое информационное пространство – Международную Базу Данных Нуклеотидных Последовательностей (International Nucleotide Sequence Database, или сокращенно INSD). В настоящее время эти базы данных, обладая своим набором источников и собственными инструментами поиска и обработки информации, в конечном счете, содержат идентичные наборы последовательностей, поскольку ежедневно обмениваются информацией. А благодаря разработанным единым правилам аннотации геномов и синтаксиса, при различном формате данных и способе их предоставления в разных базах, лежащая в их основе биологическая информация имеет одинаковый и понятный каждому смысл.