Character encoding. 문자 집합에 있는 문자들을 적절한 바이트의 열로 표현하는 방법. 많은 문자 집합이 문자 인코딩의 역할을 겸하기도 하지만 실제로는 구분되는 개념이다.
문자 인코딩은 그 접근 방법에 따라서 크게 세 가지로 나눌 수 있다:
- 1바이트 문자 인코딩: 많은 언어들이 256개보다 훨씬 적은 문자만을 필요로 하기 때문에, 해당 언어의 문자만 쓴다면 모든 문자를 1바이트로 표현하는 것이 편리하다. 실질적으로는 첫 128개를 ISO/IEC 646 계열의 문자 집합으로 채우는 것이 일반적이다.
- ISO 2022 및 확장 유닉스 코드: 여러 종류의 문자 집합을 서로 갈아 끼워 가면서 사용할 수 있는(또는 적어도 그렇게 구성되어 있는) 문자 인코딩. 문자 수가 256개로는 턱이 없는 한중일 계열에서 흔히 나타난다.
- 기타 멀티바이트 문자 인코딩: UTF-8과 같이 비교적 최근에 나타난 모든 다른 인코딩을 끝장낼 인코딩을 제외하면 여기에 속하는 인코딩은 상당히 드물다.
1 목록
여기서는 문자 집합과 문자 인코딩이 서로 일치하지 않는 경우만 나열한다. 나머지는 문자 집합의 목록을 참고.
- 유니코드: UTF-8, UTF-16, UTF-32, UTF-7, UTF-1, CESU-8, BOCU-1, SCSU, GB 18030
- 한국어 (한글): EUC-KR, Windows-949, 조합형(= Windows-1361) ISO 2022-KR, EUC-KP(…쓰이긴 하냐?)
- 일본어 (가나와 칸지): EUC-JP + EUC-JISX0213, Shift_JIS + Shift_JISX0213, Windows-932
- 중국어 (한자): EUC-CN, EUC-TW, GBK(= Windows-936), GB 18030, Big5, Windows-950