Vad är en bred karaktär?

Ett brett tecken är ett datortecken som har en storlek som överstiger standardmåttet på 8 bitar. Tecken i en datoruppsättning som Universal Character Set (USC) illustrerar ett utmärkt exempel på breda tecken, eftersom USC kan kodas i 16-bitars eller 32-bitars format. Detta skiljer sig från äldre, standardiserade teckenuppsättningar som American Standard Code for Information Interchange (ASCII), som använder tecken på högst 7-bitar. Fördelen med att koda teckenuppsättningar i breda tecken är att det ger mer andrum när det är dags att lägga till ytterligare och komplexa symboler till uppsättningen, vilket ger karaktärsdesigner ett större utbud av frihet. Nackdelarna kommer i form av extra minnesförbrukning, eftersom breda teckenuppsättningar använder mer systemminne när de är aktiva på datorn.

Teckenuppsättningar måste anpassas för att fungera med specifika operativsystem, och breda tecken är inte annorlunda. För Windows®-operativsystem – både 32- och 64-bitarsversioner – måste breda teckenuppsättningar skräddarsys för att passa inom ett 16-bitars ramverk, vilket ger dubbelt så mycket lagringskapacitet för varje tecken jämfört med en ”standard” 8-bitarsuppsättning. Unix®, å andra sidan, kräver breda tecken för att passa ett 32-bitars ramverk, som erbjuder fyra gånger så stor kapacitet som en grundläggande teckenuppsättning.

Den största fördelen med breda teckenuppsättningar är att de tillåter icke-standardiserade symboler och större mångsidighet när det gäller att inkludera olika språk i sina gränssnitt. Till exempel kan breda teckenuppsättningar innehålla det engelska standardalfabetet, tillsammans med språk som kyrilliska och grekiska samtidigt. Detta innebär att en enda uppsättning breda tecken kan gälla individer som spänner över flera länder, i motsats till att kräva en unik icke-omfattande uppsättning tecken för varje enskild språkregion.

Även om det är användbart för att standardisera versioner av programvara över olika språkområden, har uppsättningar av breda tecken ett pris. Det priset är en extra kostnad i minneskostnader. Medan en 16-bitars teckenuppsättning erbjuder dubbelt så stor kapacitet som en standard 8-bitars uppsättning, förbrukar den också dubbelt så mycket minne. Detsamma gäller för 32-bitars teckenuppsättningar, som sväljer betydande fyra gånger så mycket minne som konventionella teckenuppsättningar.

Ur beräknings- och statistiska perspektiv är detta en betydande ”kostnad” för minnet. I praktisk tillämpning är kostnaden dock inte så stor som det kan tyckas. Moderna datorer innehåller ofta fyra eller fler gigabyte systemminne, vilket gör lagring av även en stor 32-bitars teckenuppsättning ganska försumbar i praktiken. Endast de mest överarbetade – eller underkraftiga – datorerna kommer att märka en betydande prestandaträff av att använda uppsättningar av breda karaktärer.