Vad är Genome Assembly?

Genomsammansättning hänvisar till processen att ta många små bitar av genetisk sekvens och slå samman dem till en sammanhängande helhet som representerar en organisms hela genom. Detta är ett stort fokus inom bioinformatikområdet, och en mängd olika genomprojekt finns för detta ändamål. Genomsammansättning har använts för att börja analysera arvsmassan hos många arter, inklusive människor, växter, djur och bakterier.

Att analysera en organisms gener är en lång process, och genomet är ett av de första stegen. Många andra analysmetoder bygger på framgångsrik sammansättning, och identifiering av gener kan inte utvecklas utan det. Även innan gener hittas kan en framgångsrik genomsamling fortfarande generera mycket användbar information för senare analys, inklusive storleken på genomet, dess struktur och dess allmänna sammansättning.

Processen med genomsammansättning är som att lägga ett pussel utan att ha en bild eller användbara former som vägledning. När de konfronteras med de första genomdelarna, kallade råa läsningar, finns det sällan några indikationer på var en viss bit går, eller ens hur den är orienterad. Varje bit kodas på liknande sätt med de fyra DNA-baserna, förkortade A, C, G och T. Genomet kan komprimeras till en stor kromosom eller delas upp i många. Det finns heller ingen garanti för att vissa av de råa läsningarna inte är dubbletter av samma genomområde, vilket skulle innebära att det finns mindre unik information än vad den verkar vid första anblicken.

Allmän kunskap om genomets struktur är ovärderlig när man startar monteringsprocessen. Även om genom mellan arter är markant olika, finns det vissa regler som specifika genomtyper följer, och dessa kan tillämpas när man sätter ihop ett annat genom av samma typ. Till exempel, om en viss typ av organism alltid har ett speciellt mönster i närheten där gener finns, skulle man rimligen kunna anta, när man sätter ihop en annan organism som liknar den, att hitta ett sådant mönster skulle signalera en gen i närheten. I en större skala har många bakteriegenom en cirkulär kromosom, så det skulle vara rimligt att förutse att alla råavläsningar av en ny bakterie på något sätt skulle passa ihop på en kromosom. Genom att tillämpa allmän genetisk kunskap på detta sätt kan en forskare börja förstå potentiellt hundratusentals databitar.

Det finns många andra metoder som kan användas vid sammansättning av genom, inklusive beräkningsförutsägelser och manuella jämförelser. Oavsett metod är genommontering ett stort arbete som ofta är tidskrävande och svårt. Eftersom det ligger till grund för många framtida genetiska analyser av en organism finns det lite utrymme för fel.