BIOCENTRUM OCHOTA INFRASTRUKTURA INFORMATYCZNA DLA ROZWOJU STRATEGICZNYCH KIERUNKÓW BIOLOGII I MEDYCYNY

HT-SAS

Stworzono system automatycznego anotowania białek na podstawie sekwencji homologicznych oraz literatury naukowej. System działa w oparciu o bazę abstraktów literatury naukowej MedLine oraz bazę sekwencji białkowych i anotacji UniProt. Obie bazy zostały zintegrowane przy pomocy bazy danych MySQLa w nowy system w celu szybkiego dostępu do informacji oraz łatwego uaktualniania danych.

System umożliwia obecnie automatyczne opisanie dużej liczby sekwencji białkowych przy pomocy słów kluczowych. Używając zaimplementowanego algorytmu BLAST identyfikuje on białka w bazie UniProt podobne pod względem sekwencji do białek analizowanych. Następnie gromadzi on literaturę naukową pochodzącą z bazy Medline i dotycząca znalezionych sekwencji podobnych. Znaleziona literatura jest analizowana statystycznie w celu znalezienia słów mających bio-medyczne znaczenie i mogących specyficznie opisywać cechy danego białka.

Analiza statystyczna

Celem analizy statystycznej było znalezienie słów odnoszących się specyficznie do danej sekwencji i mających znaczenie biomedyczne. W tym celu należało po pierwsze rozróżnić które słowa pojawiają się często w abstraktach opisujących dany zestaw sekwencji i których pojawienie nie można wyjaśnić na zasadzie przypadku. Dlatego zmierzono częstotliwość pojawiania się słów w całym zestawie abstraktów z bazy Medline. Dzięki temu wykluczyliśmy pojawianie się przypadkowych słów w opisach sekwencji. Innym problemem który należało rozwiązać była specyficzność uzyskiwanych słów. Opis (anotacja) sekwencji musi składać się ze słów mających nie tylko znaczenie biomedyczne ale też opisujących w sposób w miarę unikalny daną sekwencję (w naszym przypadku rodzinę białek). Innymi słowy aby anotacje sekwencji danej rodziny białek nie były obecne w zupełnie innej rodzinie. Pozwoliłoby to na odfiltrowanie słów o bardzo ogólnym znaczeniu biologicznym i uzyskiwanie opisów specyficznych.

Testy anotacji na dobrze opisanych sekwencjach (znanych białkach ludzkich) pokazały iż niezwykle często mamy do czynienia z dość niewielką liczba abstraktów (< 30). Dlatego też nie mogliśmy użyć metod opartych na statystyce gausowskiej z użyciem parametrów Z-score, standardowego odchylenia, średniej, etc. Dlatego też opracowano nową metodę opartą na zmodyfikowanym rozkładzie dwumianowym. Zastosowana metoda pozwala prawidłowo opisywać białka, o czym świadczy fakt, iż część znajdywanych słów jest używana jako tzw. słowa kluczowe przez konsorcjum Genome Onthology.

Dostęp do systemu

System jest dostępny dla użytkownika za pośrednictwem strony www http://miron.ibb.waw.pl/htsas. Interface umożliwia swobodną nawigację między danymi sekwencyjnymi, wynikami analizy (anotacjami) i abstraktami z bazy danych MedLine. W celu łatwiejszej analizy danych uzyskanych za pomocą proteomiki lub macierzy DNA, opracowaliśmy tabelaryczną formę przedstawienia wyników.

Linki:

http://miron.ibb.waw.pl/htsas

Referencje:

Kaczanowski S, Siedlecki P, Zielenkiewicz P. The High Throughput Sequence Annotation Service (HT-SAS) – the shortcut from sequence to true Medline words. BMC Bioinformatics. 2009 May 16;10:148.

Bio-Info

Portal współfinansowany jest ze środków Europejskiego Funduszu Rozwoju Regionalnego w ramach Programu Operacyjnego Innowacyjna Gospodarka, projekt: Biocentrum Ochota - infrastruktura informatyczna dla rozwoju strategicznych kierunków biologii i medycyny (nr : POIG.02.03.00-00-003/09)