Om tegnsæt, indkodninger, Unicode og lignende mærkelige ting

Hver læsbar tekstfil er repræsenteret ved en sekvens af “byte” eller “oktetter”. Den faktiske betydning af disse byte kan ske på mange forskellige måder, afhængig af systemet hvor den vises eller hvilket sprog teksten er beregnet til.

Idet en “byte” sædvanligvis er den mindste fælles enhed for data på computere er hvert “tegn” du ser på en skærm repræsenteret ved nøjagtig en byte. Hver byte kan stå for en værdi fra 0 til 255 og derfor kan du vise op til 256 forskellige tegn indenfor en fil.

Sædvanligvis har du “ascii”-tegnene, f.eks. a til z, A til Z, 0 til 9 og ekstra sprogafhængige tegn. For eksempel umlaut på tysk ä eller ü eller en masse andre specielle symboler fra russisk, græsk, hebraisk eller endog kinesisk. Alt dette giver langt mere end forskellige symboler. Vi skal jo heller ikke glemme de danske æ, ø og å.

På dette tidspunkt skulle det være klart, at du bliver nødt til at sørge for at vælge det rigtige “tegnsæt”, hvilket er nødvendigt på en masse computersystemer for at vise byte på den måde det var hensigten de skulle ses.

En bedre tilgang er at kombinere to eller flere byte i en repræsentation for et enkelt tegn på skærmen. Det er for eksempel det “Unicode” gør. Unicode er en standard der for øjeblikket bruger et område fra 0 til 65535 (og mere endnu) til at bestemme et givet symbol. Næsten hvert symbol i næsten hvert sprog på jorden (og meget mere endnu f.eks. velkendte ikoner elle lignende) er tilknyttet et entydigt og utvetydigt nummer.

Uheldigvis er håndtering af Unicode en smule mere kompliceret og virker ikke med de fleste af dagens værktøjer. Tekster i unicode er måske også længere. Et kompromis er at bruge UTF-8 som bruger 7 bit (8 bit danner en byte) for de mest almindelige tegn fra ascii-sættet og skifter til 2, 3 eller endog 4 eller flere byte om nødvendigt.

Hver ordforråds file for KVocTrain er basalt set sådan en simpel tekstfil der bruger Unicode.

For at understøtte så mange sprog som muligt, tilbød KVocTrain version 0.7 muligheden for at vælge et et specielt tegnsæt for hvert sprog. Hvis du har gemt dine filer i det tidligere “8Bit-tilstand” vil du måske se de forkerte tegn, når du indlæser med version 0.8 og højere. Kontakt me i dette tilfælde.

Hvis du ønsker at lære mere om dette skal du besøge følgende link: