Automatisk transkription är processen att producera en skriftlig utskrift av talat eller inspelat tal genom användning av datorer och utan direkt mänsklig inblandning. Exakt automatisk transkription kräver högkvalitativ transkriptionsprogramvara och en enhet som korrekt kan ta emot hörselinmatning. I allmänhet är det också nödvändigt att talet eller inspelningen som ska transkriberas är någorlunda fri från distorsion och störningar från bakgrundsljud. Försök har också gjorts att transkribera musik med hjälp av datorer som kör specialiserad transkriptionsprogramvara. Musiktranskription innebär att skriva ut noterna för ett visst musikstycke, särskilt när det inte finns någon befintlig notation för den musiken, som är fallet med improviserade solon.
Bra transkriptionsprogram är nödvändigt för framgångsrik automatisk transkription. Programvaran ansvarar för att bearbeta den auditiva inmatningen, separera en kontinuerlig språkström i separata ord, känna igen dessa ord och korrekt representera dem i text. Ett misslyckande i något skede av denna process resulterar i allmänhet i en transkription som skiljer sig något från källmaterialet. Bra programvara för automatisk transkription bör kunna känna igen de subtila skillnaderna mellan liknande ord och kompensera för olika stilar och talhastigheter. Svåra att förstå accenter tenderar att vara problematiska för även den bästa transkriptionsprogramvaran.
Vissa människor använder programvara för automatisk transkription eftersom de föredrar diktering framför att direkt skriva eller skriva sin text. Vissa former av programvara för automatisk transkription är särskilt bra för detta ändamål eftersom de kan ”lära sig” rösterna från de personer vars ord de transkriberar. I sådana fall används inte automatisk transkription för att skapa transkriptioner av tal från en mängd olika källor, så det finns inget behov av att programvaran är öppen för en mängd olika talmönster. Att tillåta denna optimeringsprocess, som kan inträffa under långvarig användning av programvaran av en person eller under en preliminär kalibrering, kan avsevärt öka noggrannheten och den potentiella hastigheten för dikteringen.
Datorer är tyvärr inte lika väl lämpade för att konsekvent och exakt känna igen mänskligt tal som människor är. De kan till exempel inte använda sig av kontextuella ledtrådar om de inte förstår ett visst ord. Som sådan är det ofta nödvändigt för en människa att korrekturläsa transkriptioner skapade genom automatisk transkription. Mindre fel i formateringen och olika fel i transkriptionen är i många fall vanliga om inte det transkriberade talet är mycket tydligt. Ändå kan användning av datoriserad transkription snabbt skapa en solid grund för ett transkript som endast kräver begränsad mänsklig inblandning före inlämning eller användning.