БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
Выпускная работа по
«Основам информационных технологий»
Магистрант
кафедры генетики Мишкова Ольга
Руководители:
к.б.н., доцент Гринев Василий Викторович,
ст. преподаватель Шешко Сергей Михайлович
Минск – 2010 г.
СПИСОК ОБОЗНАЧЕНИЙ КО ВСЕЙ ВЫПУСКНОЙ РАБОТЕ. 3
РЕФЕРАТ НА ТЕМУ «Применение информационных технологий в молекулярно-генетических исследованиях». 4
Глава 1 Информационные ресурсы в сфере генетики и молекулярной биологии. 5
1.2.2. Программное обеспечение. 11
Глава 2 Образец применения информационных технологий в генетике и молекулярной биологии. 12
Список литературы к реферату. 16
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ К РЕФЕРАТУ.. 17
ИНТЕРНЕТ РЕСУРСЫ В ПРЕДМЕТНОЙ ОБЛАСТИ ИССЛЕДОВАНИЯ.. 18
http://www.ncbi.nlm.nih.gov/pubmed. 18
http://blast.ncbi.nlm.nih.gov/Blast.cgi 18
http://www.scirus.com/srsapp/ 20
http://highwire.stanford.edu/ 22
http://mfold.rna.albany.edu/?q=DINAMelt. 22
ДЕЙСТВУЮЩИЙ ЛИЧНЫЙ САЙТ В WWW... 23
ТЕСТОВЫЕ ВОПРОСЫ ПО ОСНОВАМ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ 26
ПРЕЗЕНТАЦИЯ МАГИСТЕРСКОЙ ДИССЕРТАЦИИ.. 28
СПИСОК ЛИТЕРАТУРЫ К ВЫПУСКНОЙ РАБОТЕ. 31
СПИСОК ОБОЗНАЧЕНИЙ КО ВСЕЙ ВЫПУСКНОЙ РАБОТЕ
ДНК | Дизоксирибонуклеиновая кислота |
SSCP | Single strand conformational polymorfism |
ПЦР | Полимеразная цепная реакция |
РНК | Рибонуклеиновая кислота |
РЕФЕРАТ НА ТЕМУ «Применение информационных технологий в молекулярно-генетических исследованиях»
В настоящее время информационные технологии глубоко внедрились во все сферы науки, в том числе и биологию. С каждым годом объем информации, получаемый путем применения новейшего оборудования и сложных исследовательских методик, увеличивается в геометрической прогрессии. Непрерывный поток данных требует обработки и систематизации, которую уже невозможно осуществлять только посредством умственной деятельности научных сотрудников. В этом случае огромные надежды возлагаются на постоянно совершенствующиеся компьютерные технологии. Обширные возможности по систематизации, хранению и обработке информации позволяют сократить время, затрачиваемое на получение результатов и ускорить процессы, связанные с накоплением и применением новых данных. Таким образом, прогресс информационных технологий подталкивает и стимулирует к развитию исследования в других областях.
Неоценимо значение компьютерных и информационных технологий в сфере генетики и молекулярной биологии. Повсеместное применение и совершенствование таких методик, как секвенирование, SSCP, картирование и многих других привело к лавинообразному накоплению данных о структуре генов, о последовательностях ДНК, РНК и белков. Возможность свободного доступа к информации подобного рода имела огромные последствия для развития этих сфер биологической науки:сокращение времени на подготовительные этапы исследовательских работ; обмен информацией между лабораториям разных стран; проверка информации и ее уточнение в процессе использования.
На современном этапе развития науки создано огромное количество баз данных, располагающих информацией о ДНК, РНК, белках, Интернет-ресурсов, содержащих публикации по самым разным темам, а также пакетов программ, доступных как в онлайн, так и оффлайн режиме, и призванных обеспечить работу со специфической информацией. В последнее время наблюдается тенденция к глобализации научных исследований и объединению научных лабораторий всего мира в единые консорциумы, что в еще большей степени увеличивает производительность работы и позволяет оперировать фантастически большим количеством информации. Нельзя не признать, что такая ситуация была бы невозможна без внедрения в сферу науки информационных технологий.
Глава 1
Информационные ресурсы в сфере генетики и молекулярной биологии.
1.1 Исторический обзор развития информационных технологий в сфере биологии.
Примерно в середине 50-летия, отделяющего нас от открытия структуры двойной спирали ДНК, в молекулярной биологии произошел мощный технологический прорыв: Ф. Сэнгер, Ф. Максам и В. Гильберт предложили методики быстрого секвенирования ДНК, то есть установления последовательности нуклеотидов в геноме. Уже в 1978 г. было опубликовано 200 статей, описывавших секвенированные нуклеотидные последовательности, затем объем этих данных стал расти в геометрической пропорции. Были сделаны наблюдения, изменившие устоявшиеся представления о линейной последовательности генов в ДНК: перекрывающиеся гены, сплайсинг и альтернативный сплайсинг (механизм порождения множественных РНК, соответствующих одному и тому же гену), рекомбинация генов иммуноглобулинов.
Существенную роль в развитии геномных подходов сыграли банки нуклеотидных последовательностей. Довольно быстро стало понятно, что невозможно сопоставлять последовательности, сравнивая вручную длинные ряды букв, приводимых на рисунках к статьям. Уже в 1979 г. было начато обсуждение того, как хранить последовательности ДНК и РНК и как обеспечивать доступ к ним. Первые выпуски банков данных GenBank (США) и EMBL (Европа) появились в 1982 г., и уже в следующем году они сыграли существенную роль в биологической работе: сходство последовательностей онкогена v-sis из вируса саркомы обезьян и фактора роста тромбоцитов, обнаруженное при сравнении новосеквенированного гена со всеми опубликованными, послужило основой для гипотезы о сходстве воздействия онкогенов и нормальных клеточных белков, экспрессирующихся на определенных стадиях жизни клетки [1]. С тех пор сравнение новой последовательности с последовательностями из банка данных стало рутинным элементом работы с любым геном, а помещение каждой новой последовательности в банк - необходимым условием журнальной публикации.
Дальнейший прогресс технологии, в частности, разработка К. Муллисом в 1986 г. полимеразной цепной реакции и создание тогда же первых удовлетворительно работающих приборов автоматического секвенирования Л. Худом и Т. Хункапиллером, привел к тому, что сразу в нескольких странах началось обсуждение возможности полного секвенирования генома человека. В 1988 г. соответствующий проект стартовал в США и практически тогда же - в СССР. Уже при разработке проекта были приняты критически важные решения, оказавшие существенное влияние на дальнейшее развитие геномики. Первое из них состояло в том, чтобы секвенировать не только геном человека, но и геномы модельных организмов: нематоды Caenorhabditis elegans, плодовой мухи Drosophila melanogaster, дрожжей Saccharomyces cerevisiae, растения Arabidopsis thaliana, бактерий Escherichia coli. Bacillus subtilis и других. При выборе объектов секвенирования в основном учитывался баланс между изученностью организма и размером его генома. В результате стал возможен сравнительный анализ сразу многих геномных данных.
Второе столь же важное решение состояло в том, что данные секвенирования геномов немедленно становились доступными мировому научному сообществу. В 1996 г. были сформулированы "Бермудские принципы" (названы по месту проведения конференции), согласно которым даже небольшие фрагменты геномов, полученные в рамках проекта "Геном человека" и аналогичных программ, сразу же помещались в банки данных и могли быть использованы всеми желающими. Одновременно в журналах публиковались результаты анализа больших секвенированных фрагментов геномов и целых хромосом. Такая ситуация иногда приводила к недоразумениям: группы, занимающиеся секвенированием, опасались, что кто-то другой опубликует существенные результаты на основе анализа полученных ими данных. Но когда геномные проекты начали реализовываться частными компаниями, ряд ведущих журналов отказался от требования помещать последовательности в стандартные банки данных.
В середине 80-х годов прошлого века начало складываться новое научное направление, названное биоинформатикой, или вычислительной молекулярной биологией. В рамках этого направления развиваются алгоритмы для анализа последовательностей биополимеров (ДНК и белков) и их пространственной структуры, строятся модели метаболизма и регуляторных взаимодействий. Затем они применяются для решения биологических задач.
Важность развития биоинформатики диктуется несколькими обстоятельствами. Самое простое из них - это объем геномной информации, делающий невозможным ее ручную обработку без использования алгоритмических методов. Современные технологии геномики и протеомики немыслимы без интенсивного применения компьютерной обработки результатов. Но дело не только в этом. Во многих случаях сопоставление геномных данных позволяет делать новые и совершенно нетривиальные выводы, которые затем могут быть проверены экспериментально. За последние несколько лет биоинформатика стала самостоятельной областью на стыке биологии и математики со своими специфическими задачами и методами их решения [2]. Она использует методы математической логики и теории алгоритмов, информационных и стохастических процессов, теории динамических игр и статистики и т.д.
Самым простым компьютерным методом считается сравнение вновь полученной последовательности с уже имеющимися в банках данных. Часто оказывается, что можно найти похожий уже изученный белок, благодаря чему удается предсказать функцию нового белка. Если близкие гомологи отсутствуют, применяют более тонкие методы анализа. В частности, существуют алгоритмы поиска в белковых последовательностях трансмембранных сегментов и сигнальных пептидов, основанные на анализе статистических особенностей этих структурных элементов. Используя такие алгоритмы, можно предсказать, локализуется ли белок в цитоплазме, в мембране или секретируется из клетки. Анализ больших групп белков, имеющих одну и ту же функцию (например, АТФазную активность), позволил создать библиотеки функциональных подписей, то есть коротких аминокислотных последовательностей, разделенных вариабельными промежутками и соответствующих функциональному сайту в пространственной структуре белка. Такие подписи могут быть общими даже для белков, не демонстрирующих видимого сходства на уровне всей последовательности, и их обнаружение в исследуемом белке может указать .на биохимическую функцию последнего, даже если для него не найдется экспериментально изученных гомологов.