Compare Revisions

Reading textual data

Change Revisions

Revision 96899:

Revision 96899 by Jungshik on

Revision 96900:

Revision 96900 by Jungshik on

Title:
Reading textual data
Reading textual data
Slug:
Reading_textual_data
Reading_textual_data
Tags:
Extensions, Add-ons, Internationalization, Unicode
Extensions, Add-ons, Internationalization, Unicode
Content:

Revision 96899
Revision 96900
n16      In order to read textual data, you need to know which <b><an16      In order to read textual data, you need to know which <b><a
> href="en/Character_set">character set</a></b> the data is in. Fi> href="en/Character_encoding">character encoding</a></b> the data
>les and network sockets contain bytes, not characters - to give t> is in. Files and network sockets contain bytes, not characters -
>hese bytes a meaning, you need to know the character set.> to give these bytes a meaning, you need to know the character en
 >coding.
n37var charset = /* Need to find out what the charset is. Using UTF-n37var charset = /* Need to find out what the character encoding is.
>8 for this example: */ "UTF-8";> Using UTF-8 for this example: */ "UTF-8";
n79      For the limited use case of reading lines from a local filen79      For the limited use case of reading lines from a local file
>, the following code works. <b>This code will not work for charac>, the following code works. <b>This code will not work for charac
>ter sets that contain embedded nulls</b>>ter encodings that contain embedded nulls</b> such as UTF-16 and 
 >UTF-32
n85converter.charset = /* The charset you want, using UTF-8 here */ n85converter.charset = /* The character encoding you want, using UTF
>"UTF-8";>-8 here */ "UTF-8";
n117 converter.charset = /* The charset you want, using UTF-8 here */n117 converter.charset = /* The character encoding you want, using UT
> "UTF-8";>F-8 here */ "UTF-8";
t129      However, you must be aware that this method <b>will not wort129      However, you must be aware that this method <b>will not wor
>k</b> for character sets that have embedded null bytes, such as U>k</b> for character encodings that have embedded null bytes, such
>TF-16 or UCS-4.> as UTF-16 or UTF-32.

Back to History