Наибольшую силу компьютерные методы показали при анализе полных геномов: сначала бактерий (гемоглобинофильная палочка Haemophilus influenzae в 1995 г.), а вскоре - архебактерий и эукариот (дрожжи Saccharomyces cerevisiae в 1996 г.). В настоящее время доступно более ста полных геномов самых разнообразных организмов, в основном бактерий, и ясно, что подавляющее большинство из них не может быть подробно исследовано в экспериментальной лаборатории. Однако оказалось, что в общих чертах удается описать физиологию организма путем чисто компьютерного анализа его генома [3].
Такой анализ начинается с картирования генов. При этом используются статистические методы, опирающиеся на различия в свойствах белок-кодирующих и некодирующих областей, анализ сигналов на границах генов, а также сравнение с уже изученными генами. Можно считать, что задача картирования генов в геномах прокариот практически решена, в то время как точность таких предсказаний в геномах эукариот еще недостаточная, хотя есть надежда, что она будет расти по мере увеличения количества доступных для анализа геномов, находящихся в разной степени родства. К тому же появились новые методы сравнения геномных последовательностей, которые базируются на том, что белок-кодирующие гены меняются в ходе эволюции медленнее, чем окружающие их некодирующие области. При сравнении геномных последовательностей эти гены видны как островки сходства на фоне сильно изменившихся некодирующих областей. Существенно, что такой анализ (и его более простой вариант, применяемый при работе с бактериальными геномами) дает возможность обнаруживать совершенно новые гены, белковые продукты которых не имеют известных гомологов.
Вслед за этим проводится функциональная аннотация белков. Оказывается, что таким образом удается детально охарактеризовать от половины до двух третей бактериального генома, функции еще 10-15% генов устанавливаются в общих чертах. Для эукариот подобные оценки труднее дать как в силу уже упомянутых проблем с картированием их генов, так и из-за наличия большого количества дуплицированных генов с одинаковой биохимической функцией, но с различной ролью в жизни клетки (например, факторов транскрипции или протеин-киназ, участвующих в различных регуляторных каскадах). Все же сделанные предсказания оказываются достаточными для предварительной метаболической реконструкции. С этой целью устанавливается соответствие между предсказанными белками и универсальной картой метаболических путей, суммирующей данные о всех химических реакциях, когда-либо наблюденных в живой клетке любого организма. Такая проекция генома на карту метаболических путей позволяет описать основные физиологические характеристики организма.
Другой важный метод вычислительной геномики основан на анализе сигналов, регулирующих экспрессию генов. Опять-таки, наборы совместно регулируемых генов, как правило, образуют функционально связанные группы. Такой группой может быть метаболический путь, включающийся при недостатке какого-то вещества, система ответа на внешний раздражитель (скажем, тепловой шок) или система контроля физиологического состояния клетки (например, переход к споруляции при голодании у бацилл). Если удается выделить сигнал в последовательности ДНК, отвечающий за регуляцию подобной группы генов, то можно построить распознающее правило и искать другие гены, имеющие тот же сигнал и, стало быть, регулируемые совместно с рассматриваемой группой. Анализ регуляции важен и сам по себе, поскольку он позволяет ответить не только на вопрос: "Что клетка может делать?", но и на вопрос: "В каких условиях она это делает?″
И все же в большинстве случаев не удается построить удовлетворительно работающее правило для распознавания регуляторных сигналов. Тогда полезным оказывается одновременный анализ многих геномов. Дело в том, что наборы совместно регулируемых генов, соответствующие функциональным подсистемам, консервативны. В результате истинные регуляторные сигналы обнаруживаются перед гомологичными генами сразу во многих геномах, в то время как ложные сигналы располагаются случайным образом. Это позволяет фильтровать предсказанные сигналы на основе требования согласованности предсказаний, тем самым повышая надежность каждого отдельного сигнала.
Сравнительный анализ большого числа геномов позволил выделить и описать регуляторные сигналы, консервативные даже при очень далеких сравнениях (вплоть до архебактерий) [4]. Хотя сами сигналы в разных системах (рибофлавин, тиамин, кобаламин) различны, они обладают рядом общих свойств. Например, в отличие от известных аттенюаторов, сигналы такого типа действуют на разные процессы: терминацию транскрипции (преимущественно у грамположительных бактерий) и инициацию трансляции (у грам-отрицательных бактерий). Эта модель, получившая название РНК-переключателя, затем подтвердилась в эксперименте [5]. Более того, оказалось, что образование альтернативных структур регулируется непосредственно связыванием витамина - концевого продукта метаболического пути. Аптамеры (структуры РНК, связывающие малые молекулы) были известны и ранее, но они наблюдались in vitro, исследованные же системы стали первыми примерами природных аптамеров. Сигналы такого типа найдены и у эукариот, так что, возможно, РНК-переключатель - древнейшая известная система регуляции экспрессии генов. Массовый поиск аттенюаторных регуляторных сигналов был продолжен [6]. Еще раз подчеркнем: сравнительный подход позволяет не просто описывать новые примеры уже известных объектов - функций белков, регуляторных сигналов, метаболических путей, - но и обнаруживать совершенно новые явления.
Итак, сравнительный компьютерный анализ становится мощным средством в руках биолога. Существенно, что в арсенале биоинформатики много разнообразных методов, которые позволяют многократно проверять полученные результаты на их согласованность и непротиворечивость. Таким образом, факты, выявленные в ходе компьютерного анализа, могут считаться столь же надежными, как и факты, установленные в эксперименте, - разумеется, при наличии достаточных проверок и хорошем контроле. Резкая грань, проходившая ранее между предварительным теоретическим анализом и последующей экспериментальной проверкой, стирается, уступая место обычному разграничению между достоверной и недостоверной работой. А биоинформатика перестает быть прикладной областью, лишь обслуживающей экспериментальные исследования, и превращается в самостоятельное научное направление, тесно связанное с биологией. В рамках этого направления решаются такие задачи, как функциональная аннотация отдельных генов и полных геномов, метаболическая реконструкция, анализ регуляторных систем, теория молекулярной эволюции в ее многообразных проявлениях - от эволюции отдельных генов и белков до эволюции метаболических путей, регуляторных систем и целых геномов, изучение статистических свойств геномных последовательностей, предсказание пространственной структуры биополимеров по последовательностям, реконструкция начальных этапов возникновения генетической информации. Помимо геномики, в научный обиход вошли такие термины, как протеомика (анализ белков на уровне целого генома), транскриптомика (изучение экспрессии генов), метаболомика (анализ метаболизма путем одновременного измерения клеточных концентраций многих веществ). Начали говорить о наступлении постгеномной эпохи. Вычислительные методы стали не только составной компонентой любого массового исследования (поскольку без них невозможно осуществлять даже предварительную обработку и хранение данных), но и основным средством для получения из этих данных биологически содержательной информации.
1.2 Основные информационные ресурсы, применяемые в генетике и молекулярной биологии.
Их можно классифицировать по содержащейся в них информации на:
• библиографические;
• первичных последовательностей ДНК, РНК, белков;
• пространственной структуры молекул;
• геномные;
• тематические.
В мире существует лишь несколько крупных центров, поддерживающих базы данных первых четырех типов, и большое количество организаций, содержащих базы данных по определенным темам (например, база данных по рибосомальным генам или классификации ферментов, по мутациям гена p53 или белкам Saccharomyces cerevisiae и т.д.).
Основной тенденцией в развитии современных биологических баз данных можно назвать стремление к их интеграции, созданию перекрестных ссылок между ними (например, между библиографической ссылкой на статью, описывающую какой-то ген, и собственно нуклеотидной последовательностью этого гена). Такой подход позволяет быстро находить и получать исчерпывающую информацию по определенной теме.