Lexikal täthet hänvisar till förhållandet mellan lexikaliska och funktionella ord i en given text eller textsamlingar. Det är en gren av beräkningslingvistik och lingvistisk analys. Det är kopplat till vokabulär, de kända orden för alla individer och kan användas för att jämföra talade och skrivna lexikon för en person. Lexicon skiljer sig från total vokabulär eftersom det inte innehåller funktionella ord som pronomen och partiklar.
Tätheten av ett tal eller en text beräknas genom att jämföra antalet lexikala ord och antalet funktionella ord. Korta meningar och små texter kan beräknas med huvudräkning eller genom enkel räkning. Större jämförelser, säg av Charles Dickens eller William Shakespeare, görs genom att mata in informationen i ett datorprogram. Programmet kommer att sålla texten till funktionella och lexikala ord.
Balanserad lexikal täthet är cirka 50 procent. Det betyder att hälften av varje mening består av lexikaliska ord och hälften av funktionella ord. En text med låg densitet kommer att ha ett förhållande på mindre än 50:50 och en text med hög densitet kommer att ha mer än 50:50. Akademiska texter och offentliga, jargongfyllda dokument tenderar att ge de högsta tätheterna.
En brist i beräkningen av lexikal täthet är att den inte tar hänsyn till de olika formerna och fallen av ingående ord. Den statistiska analysen syftar endast till att studera förhållandet mellan ordtyper. Det producerar inte en studie av en individs lexikala kunskap. Om den gjorde det, skulle den lexikala densitetsanalysen skilja mellan former som ”ge” och ”gav.” Teoretiskt kan lexikal täthet appliceras på texter för att studera frekvensen av vissa lexikaliska enheter.
En persons skriftliga lexikon kan underlättas genom användning av ordböcker och synonymordböcker. Sådana verktyg ger alternativa ord och förtydligar betydelser. När en person talar måste en person endast lita på sitt mentala ordförråd. Detta innebär att lexikal täthet kan användas som ett verktyg för att jämföra talade och skrivna lexikon. Den lexikala tätheten av talade språk tenderar att vara lägre än den för en skriven text.
Beräkningslingvistik är ett statistiskt modelleringsområde för språklig analys. Det föddes ur det kalla kriget och Amerikas önskan att använda datorer för att översätta texter från ryska till engelska. För att göra det krävdes användning av matematik, statistik, artificiell intelligens och datorprogrammering. Det största problemet för programmerare var att få datorn att förstå komplex grammatik och språkpragmatik. Detta gav upphov till China Room-teorin att datorer kan utföra bokstavliga översättningar av ord, men i slutändan inte kan förstå språk.