Визуализация генов: методы и проблемы
Поскольку наши способности генерирования последовательностей данных продолжают расти, анализ данных, генерирование данных является лимитирующей стадией в области геномики.
Здесь мы предлагаем руководство по визуализации данных, геномные средства, которые облегчают анализирование задач и позволяют исследовать, изучать, толковать и управлять своими данными, а в некоторых случаях выполнять вычисления мгновенно. Мы будем обсуждать графические методы, предназначенные для анализа denovo последовательностей и считывания выравнивания, геномного просмотра в будущем. Изучение геномов в значительной степени позволило говорить о геномике, как о цифровой науки, и сделало возможным с появлением технологии секвенирования, выявлять геномные последовательности для нуклеотидного анализа. Появление обширных данных о геномной последовательности ресурсов открыло новый интерфейс компьютерной науки, которая используется в таких областях как биоинформатика и предоставляет возможности решения биологических задач с помощью вычислений. Последние инновации в области технологии секвенирования обеспечивают беспрецедентную способность для генерации данных. Сейчас более чем когда-либо нам необходимы интуитивные и оперативные данные исследований для анализа.
Хотя множество геномных анализов для данных задач могут быть выполнены с помощью автоматических процессов, но некоторые действия еще по-прежнему требуют человеческих суждений и часто с ограниченной скоростью. Визуализация может усилить наши способности рассуждать о сложности данных, тем самым повышая эффективность ручного анализа.
В некоторых случаях, соответствующее изображение дает очевидное решение.
Учитывая важность человеческих интерпретаций в особенности на ранних этапах гипотезы поколений биологических исследований, визуальные средства могут также стать ценным дополнением к автоматизированным вычислительным методам и позволяют получать нам научное понимание о крупных геномных наборах данных. Визуальные и автоматизированные подходы являются особенно мощным средством, когда используются в сочетании, например, пользователь может легко контролировать и проводить расчеты по этим данным, многократно их, уточняя и анализируя.
Одна из проблем при разработки визуальных средств состоит в принятии решения графического представления по существу, т.е. как данные кодируются по цветам, форме или преобразованы на различных уровнях. Выбор представления может либо помогать, либо мешать возможностям для пользователей к интерпретации данных и в идеале должен быть разработан так, чтобы облегчить анализ задачи. Например, перестройку генома можно более легко представить как дуги на кругу, чем на линии. Геномные данные, взятые, с различных источников при использовании различных методов сопровождаются экспериментальными погрешностями. Важно, что визуально представлены и зафиксированы эти технические неопределенности и любые несоответствия.
Существует также значительное биологическое различие между индивидуумами, которые необходимо отличать от технических изменений описанных выше. К дополнению к задачам выбора соответствующего визуального представления, некоторые виды первичных данных не представлены из-за чрезмерных требований хранения в сети и позволяют в режиме реального времени взаимодействовать с большими наборами данных, которые являются нетривиальными.
Этот обзор приводит примеры трех основных пользовательских задач:1)анализ последовательности данных, как в контексте сборки заново и рессеквенирование экспериментов; 2)просмотр аннотаций и сопоставление экспериментальных данных со ссылкой геномов, и наконец, 3)сравнения последовательностей из разных организмов или отдельных индивидуумов.
Методы визуализации в этих областях находятся на разных стадиях развития, и мы будем обсуждать их преимущества и недостатки. Одним из важных моментов является то, что область геномики быстро развивается. Хотя мы пытались обеспечить руководство по методам в этой области, но вполне вероятно, что новые инструменты и форматы данных появятся, в самом ближайшем будущем и мы обсудим некоторые из соответствующих проблем. Мы призываем читателей, принять во внимание ресурсы онлайн, такие как SEQanswer , где описаны наиболее современные средства развития.
Визуализация секвенирования данных
Интерпретация первичных данных из машинного секвенирования начинается с автоматизированной обработки данных. База вызова и качество расчетов следует в случае последовательной сборки геномов или считывания регулировки по ссылке в случае рессеквенирования. Последние инновации в технологии секвенирования сопровождались ростом новой сборки и согласованию программ, чтобы справится с более короткими длинами считывания и большим числом операций считывания (для обзоров см.раб.1,2), но стандартов не было достигнуто. Для некоторых задач анализ визуальной проверки ценен в толковании и проверке автоматизированных мероприятий, им можно управлять с помощью как биологического, так и алгоритмического пути.
Например, выявление автоматизированного однонуклеотидного полиморфизма на основе данных секвенирования остается незавершенным, и визуальный осмотр используется до сих пор для оценки отдельных случаев и для биологических результатов и технических наблюдений, которые могут быть использованы для улучшения прогнозирования алгоритма. В этом разделе говорится о сообщениях, которые освещают графические средства для анализа последовательности.
Визуализация выравнивания
Анализ узлов и считывания выравнивания часто предусматривает анализ последовательности собственно считывания, а все средства, перечисленные в таблице 1, обеспечивают осмотр унифицированных считываний основ. Считывание последовательности, как правило, предоставлено в виде строки, происходит горизонтально слева направо и укладывается вертикально. В случае ассемблирования, пользователь может сканировать считыванием из стека соответствующего столбца.
Основное свойство часто идентифицируется с градацией серого и основывается на противоречии с согласованием, придающим особое значение цветам. Некоторые инструменты минимизировали визуальные помехи, в стеке считывания выделяя только противоречия и скрывая все последовательные пары оснований (например, программа интегративной геномики, Национальный центр биотехнологической информации, просмотр программы архива ассамблеи, выравнивание текста в программе просмотра SAM tools). Большинство средств, построенных до появления следующего поколения последовательности, продолжают оказывать поддержку визуализации основных первичных данных для Сэнгер считывания отдельных следов просмотра. Например, в популярной программе Consed «след» окна может быть запущен из «соответствующего окна» и движение курсора синхронизируется. Этот режим позволяет пользователю проверять позиции конфликтующих баз и выявляет источник неопределенности в рамках первичных следов напрямую.
В значительной степени NGS данные изменились настолько, что пользователь сможет оценить неопределенность основных консенсусов. Например, Consed позволяет пользователю проверять недоработанную Рош 454 последовательности данных, а в случае Illumina и AppliedBiosystems обеспечивает надежность информации, в случае если нет недоработанных следов считывания, а есть только данные в виде изображения (Подробная информация об этих технологиях секвенирования рассматривается в другом месте). Consed и аналогичные программы не отображают первичные изображения данных, в частности потому, что их большие размеры делают их слишком дорогими для того, чтобы хранить их в сети, а также медленно отображаются на экране
Однако высокая скорость считывания, граничащая с генерированием NGS часто, облегчает, возможность пристально изучать какое-либо считывание. Пользователь может обнаруживать или вычислять одно подозрительное основание на протяжении одного считывания , сравнивать с соответствующим основанием в других считываниях выравнивания размещенных в других местах.
Устройство вывода автоматического секвенирования собирает незавершенные программы и повторяет место считывания, считывая на расстоянии.
Следующий шаг «завершения» включает в себя исключение пробелов, исправление неправильно собранных и возможность исправления ошибок согласованных основных компонентов. Специализированная обработка программного обеспечения упрощает этот процесс за счет автоматизации и позволяет пользователю выполнять вышеперечисленные задачи. В некоторых случаях автоматической обработки достаточно, например, в исполнении Autofinish, так как эта программа, рассматривает выход собраний программ и предлагает введение лабораторных данных (например, специфических праймеров для ПЦР).
Тем не менее, в других ситуациях ручной проверки и редактирования необходимо к дополнению по автоматизации пробелов Consed и коммерчески доступных Sequencher (ген кодирующая корпорация) и Lasergene (DNASTAR) широко использовать обрабатывающие программы, которые предоставляют богатые функциональные возможности редактирования и отслеживания истории и позволяют пользователю отдельно, вручную присоединяться к соседнему, что отличает их от статистического выравнивания программ просмотра, которые нельзя редактировать (таблица 1).
В большинстве последовательностей протоколов диапазон размеров фрагментов генома неизвестно. Последовательность считывания, получена из разных концов одного и того же источника геномного фрагмента («математической пары»), поэтому предполагаем интервал («вставить размер») и полагаем ориентацию (1 верхняя нить считывания и одна нижняя нить считывания). Одна из пар, которая нарушают эти пространственные ограничения, может быть использована для выявления несобранных, а одна из последовательных пар может быть использована для их присоединения.