Ett genom är en samling av allt genetiskt material som finns i en organism. Eftersom sekvensen och strukturen av detta genetiska material driver allt biologiskt liv, är forskare mycket intresserade av att ta reda på vad de är till för. En genomdatabas är en korsreferenssamling av information om en eller flera organismer, så en forskare kan titta på all tillgänglig genetisk information för att hjälpa honom eller henne i forskningen.
Genom är mycket komplexa och innehåller miljarder baser i informationssekvensen. Datoriserade databaser är därför det enda praktiska sättet att organisera detaljerna på ett ställe. I allmänhet är dessa tillgängliga som onlinedatabaser för vetenskaplig forskning. Ett relativt nytt vetenskapsområde, kallat bioinformatik, har vuxit fram för att fullända hur biologiska data kan tolkas genom datorsystem.
Databaser med genom innehåller sekvensen av generna för en organism om hela sekvensen är känd. Annars kan den innehålla delsekvenser. Människans, musen och Drosophila fluggenomet har till exempel sekvenserats. När sekvensen för ett genom är känd kan genetiker identifiera särskilda gener i genomet. Varje gen är instruktionsbladet för en viss cellprodukt.
Om en gen har en mutation har den en annan sekvens än den normala, funktionella genen. Mutationer kan vara fördelaktiga och producera en användbar egenskap hos den muterade organismen. De kan inte heller göra någon skillnad för produkten, eller så kan de vara skadliga för organismens normala funktion. Många medicinska tillstånd, till exempel, beror på mutationer i en viss gen.
Mutationer kan också användas för att beräkna hur nära besläktad en viss art är till en annan, eftersom fler mutationer ackumuleras över tiden. Individer kan också variera i genomsekvens, särskilt som stora delar av arvsmassan inte är gener och inte kodar för någon väsentlig cellprodukt. En genomdatabas innehåller en sekvens från en organism som betecknas som en standard, men det kommer att finnas många mindre skillnader mellan den godtyckligt valda standarden och de andra individerna i en art.
Trots förekomsten av många skillnader är gener igenkännbara genom sekvenser. Om genetiker vet vad en viss gen gör i en organism, så har en gen med en liknande sekvens i ett annat djur troligen samma funktion. Genetiker kan använda en genomdatabas antingen för att identifiera en gen som de studerar eller för att ta reda på vad genen gör.
Varje genomdatabas är sökbar. Vanligtvis kan forskare söka i en databas på ett av flera olika sätt. Vanligtvis kan han eller hon mata in sekvensen för en gen som han eller hon har sekvenserat. Sedan hittar databasen en eller flera liknande sekvenser för jämförelse.
Ett enklare sätt att söka i databasen innebär att leta efter ett gens nyckelord, till exempel namnet på genen. Myndigheter som US National Authority for Biotechnology Information (NCBI) kan ge sekvenser distinkta referensnummer, och en genetiker kan också söka i en genomdatabas med hjälp av en av dessa identifierare. Han eller hon kan också begränsa resultaten med hjälp av fler sökparametrar. Korsreferensinformation är en funktion i de flesta genomdatabaser, och ett resultat av en enda sekvens kommer också att förse databasanvändaren med användbara länkar för mer genetisk information. Förutom information om en specifik sekvens tillhandahåller många databaser en visuell representation av sekvensen och de anmärkningsvärda egenskaperna i det området.
Olika organismer kan ha specifika genomdatabaser, men vissa större databaser innehåller mer än en art. Olika myndigheter kontrollerar de olika databaserna som finns tillgängliga, så databaserna kan alla använda olika format och sökmöjligheter. Några exempel på dessa myndigheter är NCBI, European Bioinformatics Institute eller till och med enskilda universitet.