Vad är naturlig språkbehandling?

Natural Language Processing (NLP) är ett sätt att översätta mellan datorspråk och mänskliga språk. Målet med detta fält är att tillåta datorer att förstå vad en text säger utan att få exakta värden och ekvationer för de data som texten innehåller. I huvudsak automatiserar naturlig språkbehandling översättningsprocessen mellan mänskliga och datorspråk. Även om mycket av detta område förlitar sig på statistik och modeller för att fastställa sannolika betydelser av en fras, finns och har det funnits många olika tillvägagångssätt för detta problem. Fynden inom detta område har tillämpningar inom områdena taligenkänning, översättning av mänskliga språk, informationssökning och till och med artificiell intelligens.

Naturlig språkbehandling, som utvecklas ur en bakgrund inom datavetenskap och lingvistik, möter många problem eftersom språket inte alltid är konsekvent och inte alla ledtrådar till mening finns i själva språket. Även en fullständig redogörelse för hela grammatiken för ett språk inklusive alla undantag tillåter inte alltid en dator att analysera informationen i en text. Vissa meningar är syntaktiskt tvetydiga, ord har ofta mer än en betydelse, och vissa kombinationer av ljud eller symboler ändrar sin betydelse beroende på ordens gränser — vilket alla kan vara problem för en dator som inte förstår sammanhanget. Ännu viktigare är att mycket av språket beror på en koppling till det fysiska och sociala universum – vissa meningar, som talhandlingar, förmedlar inte lika mycket information som agerar på världen. Även om en dator har en perfekt förståelse för mänskligt språks syntax och semantik, måste texten som ska analyseras vara fri från mänskliga anordningar, såsom sarkasm eller passiv aggression, för att datorn korrekt ska kunna fastställa vad texten betyder.

Ideologiskt sett är naturlig språkbehandling ett system för interaktion mellan människa och dator som styrs av tanken att de flesta datoranvändare är mer bekväma att arbeta med datorer på ett mänskligt språk de redan kan än att anpassa sig till en dators språk. Den drar också nytta av det faktum att mycket av mänsklig kunskap redan är kodad i mänskligt språk, och texterna som innehåller den kunskapen kan översättas till logiska strukturer som kan strömlinjeformas för en dator. Medan många projekt inom detta område arbetar med att extrahera datorläsbar data från mänskliga språktexter, används naturlig språkbehandling också för att generera mänskligt läsbar text från datordata. Både dessa förståelse- och genereringsmöjligheter kan användas av samma teknik, till exempel i fallet med applikationer som översätter från ett mänskligt språk till ett annat genom att först avkoda texten till ett datorspråk och sedan koda den på ett annat mänskligt språk. Innovationerna som erhålls i bearbetningssträvanden för naturligt språk är också slående tillämpliga på artificiell intelligensprojekt på grund av den grad i vilken mänsklig intelligens definieras av en behärskning av det mänskliga språkets komplexitet.