Малюнак 1.1 - Прадстаўленне трохмернай структуры бялка з дапамогай Accelrys
Акрамя гэтага ёсць праглядальнікі інфармацыі з генетычных баз даных. Прыкладам такой праграмы з’яўляецца NCBI’sWeb-baseMapViewer[4]. Гэта анлайнавая праграма з веб-інтэрфейсам, якая праводзіць пошук па некалькіх анлайнавых базах NCBI. Яна дазваляе вучонаму вызначаць месцазнаходжанне канкрэтнага гена ў геноме арганізма, адлегласць паміж генамі ў геноме і прадастаўляе даныя пра ген у нейкім вызначанай храмасомнай вобласці. Праграма працуе ў браўзеры, а ўсе вылічэнні праводзяцца на баку сервераў NCBI. У адрозненне ад аналізу і пабудовы трохмерных структур бялкоў, вылічэнні для візуалізацыі аднамернай паслядоўнасці невялікія.
Малюнак 1.2. Даныя пра 8-ю храмасому HomoSapiens у NCBI’sMapViewer
На малюнку 1.2 прадстаўлены даныя, атрыманыя з дапамогай NCBI’sMapViewer, пра восьмую храмасому HomoSapiens.
Адной з мэтаў развіцця біяінфарматыкі з’яўляецца аўтаматызацыя дыягностыкі хвароб і лячэння. Калі кансультацыю з канкрэтным доктарам заменіць канферэнцыя з камп’ютэрам, і пры адсылцы нейкага ўзору, напрыклад, сліны ці крыві, камп’ютэр мог бы прааналізаваць яго, паставіць дыягназ на аснове інфармацыі са шматлікіх баз даных (генетычны профіль пацыента і сям’і, звычкі і абставіны працы, гісторыя захворванняў і іншыя) і прызначыць лячэнне, якое будзе найлепш падыходзіць.
Аднак такі падыход патрабуе сістэмы сувязяў паміж разнастайнымі базамі біялагічных і медыцынскіх даных. Напрыклад, у генетычным профілі павінны прысутнічаць спасылкі на нейкія вобласці ў базах даных нуклеатыдных паслядоўнасцяў, бялковых паслядоўнасцяў, ферментаў і схільнасцямі да хвароб. Такія сувязі неабавязкова відавочныя ці, нават, вядомыя зараз.
На сённяшні дзень гэтыя сувязі паміж данымі ў лічбавым фармаце недастаткова гатовыя, бо знаходзяцца ў розных базах даных. Амаль усе яны пабудаваны на аснове розных і несумяшчальных тэхналогій і выкарыстоўваюць розныя слоўнікі і мовы для аперацый з данымі. Гэта выклікана тым, што базы ствараюцца як асобныя праграмы для выканання некалькіх функцый, а пра іх звязванне задумваюцца звычайна пасля стварэння. Сувязі паміж базамі могуць стварацца дынамічна з дапамогай пашуковых сістэм.
Пры пошуку рашэння задачы малекулярнай біялогіі часта неабходна пераходзіць ад адной базы да іншай і вяртацца назад. Каб дапамагчы ў гэтым працоўным працэсе былі створаны сістэмы атрымання інфармацыі, з зададзеным загадзя сувязямі паміж элементамі ключавых анлайнавых баз даных. Найбольш вядомай з такім інтэгратыўных сістэм з’яўляецца Entrez Нацыянальга Цэнтра Біятэхналагічнай Інфармацыі (NCBI)[5]. Асноўныя базы, якія ўваходзяць у NCBI прадастаўлены на табліцы 1.2.[2]
Табліца 1.2 Базы даных у сістэме Entrez
База даных | Апісанне |
PubMed | Біямедычная літаратура |
Бялкі | Бялковыя паслядоўнасці з PIR, SWISS-PROT, PDB, EMBL |
Нуклеатыды | Нуклеатыдныя паслядоўнасці з GenBank, EMBL, DDJB (японская база даных ДНК) |
Структуры | Трохмерныя структуры з PDB |
Геномы | Разнастайныя базы з генетычнай інфармацыяй |
OMIM | Чалавечыя гены і генетычныя захворванні |
Таксаномія | Іерархія відаў арганізмаў у генетычнай базе даных NCBI |
Трохмерныя дамены | Дамены бялкоў з базы даных NCBIзакансервіраваных даменаў |
У гэтай сістэме сувязі не толькі паміжбазавыя, але і ўнутраныя. Напрыклад, не толькі сувязі прысутнічаюць не толькі паміж PubMed і базай нуклеатыдаў, але і паміж падобнымі элементамі ў самой базе нуклеатыдаў.
Ёсць дзве версіі сістэмы Entrez: адна, якая выкарыстоўвае праграму, што выконваецца лакальна на працоўнай станцыі карыстальніка, называецца NetworkedEntrez, а другая даступная праз веб-браўзер. NetworkedEntrez узаемадзейнічае напрамую з дыспетчэрам NCBIз дапамогай усталяванага злучэння кліент-сервер. Аднак, з-за таго, што NetworkEntrezможа выкарыстоўваць лакальныя вылічальныя рэсурсы, яна можа працаваць значна хутчэй за браўзерны варыянт. Да таго ж яна прадастаўляе больш багаты і зручны інтэрфейс з некалькімі ўкладзенымі вокнамі і больш зручнымі праглядальнікамі паслядоўнасцяў геномаў і трохмерных структур бялкоў. Аднак перавагамі браўзернай версіі з’яўляецца адстутнасць неабходнасці абнаўляць праграму, усталёўваць і наладжваць яе. Таксама браўзерная версія прадстаўляе больш зручны інтэрфейс для пераходу па гіпертэкставых спасылках на старонках адлюстравання інфармацыі.
Аўтаматычнае супастаўленне з узорам – гэта магчымасць праграмы параўноўваць невядомыя і вядомыя ўзоры і вызначаць іх ступень падабенства. Складанасць такой задачы заключаецца ў тым, што трэба не проста знайсці адпаведнік дадзенаму ўзору, а хутка знайсці адзін ці некалькі адпаведнікаў з вялікай базы даных на рэсурсах, якія ёсць у распараджэнні. У дадатак да гэтага, часта паўстае задача знайсці адпаведнікі, якія амаль адпавядаюць ці з’яўляюцца падобнымі да дадзенага ўзора, але паняцце падабенства не вельмі строга азначана ў праграмным ці біялагічным сэнсах.
Выраўніванне паслядоўнасцяў – працэс супастаўлення іх адна пад адной так, каб колькасць супадзенняў была максімальнай, пры гэтым за пропускі і несупадаючыя сімвалы бяруцца нейкія штрафы. Выраўніванне – гэта фундаментальны сродак для вызначэння гамалагічнасці (наяўнасці агульнага продка) і функцыяльнасці бялкоў. Так, калі частка адной паслядоўнасці супадае з часткай другой паслядоўнасці, то можна казаць аб важнасці гэтага кавалка ў эвалюцыйным адборы і рабіць нейкія высновы пра яго функцыянальнасць.
Адрозніваюць некалькі тыпаў выраўніванняў:
· папарнае
· глабальнае і лакальнае
· множнае
Для папарнага выраўнівання характэрна супастаўленне двух паслядоўнасцяў. Няхай у нас ёсць дзве паслядоўнасці ATTCAGTGCT і ATTGCT. І трэба іх выраўняць. Ацэнка падабенства будзе вылічвацца як:
колькасць супаўшых – каэфіцыент разрыву * колькасць разрываў – каэфіцыент несупадзенн * колькасць несупадзенняў.
Для гэтага прыкладу пры адзінкавых каэфіцыентах найлепшым будзе наступнае выраўніванне з велічынёй падабенства 2:
ATTCAGTGCT
ATT----GCT
Адрозненне глабальнага ад лакальнага выраўніванняў заключаецца ў тым, што ў глабальным мы максімізуем функцыю падабенства па ўсёй даўжыні паслядоўнасці, а ў лакальным – кавалачна. Глабальнае выраўніванне дасць нам прадстаўленне аб падабенстве бялкоў і, напрыклад, пра адносіны іх да аднаго сямейства. Лакальнае ж можа сведчыць пра аднолькавыя функцыі, якія выконваюць падобныя кавалкі. Для вырашэння задачы лакальнага выраўнівання ёсць некалькі алгарытмаў, якія адрозніваюцца сваімі характарыстыкамі. Адным з іх з’яўляецца алгарытм Сміта-Уотэрмана.
Задача множнага выраўнівання заключаецца ў тым, што ў нас адначасова выраўніваецца больш за дзве паслядоўнасці. Гэтая задача нашмат больш складаная за папарнае выраўніванне. Але і для яе таксама ёсць рашэнні. Зразумела, што пры дастаткова вялікай даўжыні паслядоўнасці, задача не можа быць вырашана ручнымі метадамі. Таму стала неабходна выкарыстанне апарату тэорыі алгарытмаў і вылічальных машын.
Найбольш папулярнымі метадамі вырашэння задачы выраўнівання з’яўляюцца: баесаўскія метады, дынамічнае праграміраванне, нейронныя сеткі, генетычныя алгарытмы, тэхнікі, заснаваныя на словах, ацэначныя матрыцы. Сярод іх найбольш часта выкарыстоўваюцца методыкі дынамічнага праграміравання і тэхнікі, заснаваныя на словах.
З-за відавочнай важнасці рашэння такой задачы быў створаны шэраг праграмных сродкаў. Выдзяляюцца сродкі для выраўнівання нуклеатыдных і бялковых паслядоўнасцяў. Да нуклеатыдных адносяцца: BLASTN, BLASTX, BALSA. Да бялковых адносяцца: BLASTP, Smith-Waterman, PHI-BLAST.
Найбольш вядомым і выкарыстоўваемым сярод праграм для выраўнівання нуклеатыдаў з’ўяляецца BLASTN [6] і яго вытворныя. Праграма даступная праз веб-інтэрфейс. На малюнку 2.1 паказана працоўная вобласць запытаў да гэтатай праграмы. Праграма з падобным інтэрфейсам BLASTP існуе і для пошуку і параўнання бялок-бялок.
Малюнак 2.1, Працоўная вобласць BLASTN
За апошняе дзесяцігоддзе было распрацавана шмат алгарытмаў і праграмных сродкаў для апрацоўкі біялагічных бялковых даных. Сярод іх вылучаюць два галоўных накірункі: прадказанне структуры бялка і параўнанне структур бялкоў. Першы звязаны з вызначэннем другаснай ці трэцічнай структуры па паслядоўнасці амінакіслот. А другі звязаны з параўнаннем атрыманых эксперыментальна ці тэарэтычна структур біялагічных аб'ектаў. Гэтае параўнанне можа быць выкарыстана для вызначэння функцый новых бялкоў на аснове падабенства з ужо даследаванымі, групіроўкі іх у сямействы, а таксама для ацэнкі прадказаных структур, пры параўнанні іх са структурамі атрыманымі эксперыментальна.
У аснове гэтага праграмнага забеспячэння ляжыць інфармацыя пра структуры бялкоў, якая захоўваецца ў спецыяльных базах даных. Існуе некалькі сховішчаў такой інфармацыі. Найбуйнейшым з іх з'яўляецца PDB. Зараз у ім сабраная інфармацыя больш чым на 50000 бялкоў. Захоўваецца яна ў тэкставых файлах спецыяльнага фармату і знаходзіцца ў свабодным доступе. На малюнку 2.2 паказана сціслае апісанне бялка-звязкі пеніцыліну 1TVF з сайта PDB. Акрамя PDB існуе база даных SCOP (структурная класіфікацыя бялкоў), усе бялкі ў якой звязаныя паміж сабой адносінамі падабенства ці эвалюцыйнымі. Бялкі аб'ядноўноўваюцца ў сямействы і суперсямействы. Таму гэтая база прадастаўляе хуткі пошук бялкоў, блізкіх да зададзенага.