오늘은 잠시 유니코드에 대해서 공부를 해보았습니다. 인터넷에서 관련자료를 찾으려고 google과 empas를 통해 검색해 보았는데 명확하게 설명이 되어있는 자료를 찾을 수가 없었습니다.

대부분이 단편적인 질문과 답변글 형식이었고, 일부 관련 wiki사이트들은 더이상 업데이트가 안되는 버려진 듯한 곳이었습니다.

그러다가 '유니코드 가이드'라는 제목의 웹페이지를 찾아내어 내심 기대를 하고 클릭을 했는데......링크가 끊겨 있었습니다. OTL

아래는 오늘 수집한 단편적인 정보들을 정리해 본 것입니다.

- 완성형한글 : KSC-5601 => KSX-1001(표준 명명법 변경에 따라 이름이 바뀜)
- 한글 표현이 매우 제한적이나 구현하기가 쉽다는 이유로 어이 없게도 한글표준으로 결정됨
- EUC-KR(Enhaced Unix Code-Korea) : 확장유닉스코드의 한글 인코딩
- Microsoft의 CP949(Code Page 949 : MS 사내에서 정한 임의의 코드번호임)
- x-windows-949 는 모질라에 정의된 UHC의 이름(앞의 x는 비표준이기 때문에 붙는 기호임)

오늘 공부한 바에 의하면, 위의 2가지는 가능한 빠른 시일 내에 사라져야할 과거의 유산으로 보입니다. 특히, 다양한 플랫폼에서 정보가 상호소통되는 웹상에서는 반드시 지양해야 합니다.

- 현재 다국어지원을 위한 웹상의 표준은 UTF-8입니다.
- UTF-8은 미국의 짠돌이 프로그래머들이 1바이트라도 아끼기 위해서 고안한 인코딩 방법으로 큰 장점으로는 기존의 방대한 문서들이 존재하는 ASCII 코드와도 호환이 된다는 것입니다.
- 즉, ASCII로 표현 가능한 영문자는 1바이트로 표현을 하고 다른 문자들은 2~3바이트로 표현을 합니다.
- 유니코드가 2바이트 고정이라는 편견을 버려야 합니다. UTF-16은 4바이트까지도 사용합니다.
- 후...예전에 여러 프로그래밍 서적에서 유니코드는 2바이트라고 귀에 못이 박히게 들었었는데...
- Java에서는 UCS-2를 사용합니다. 고정 2바이트를 사용하는 방식으로 UTF-16과 유사합니다.
- 윈도XP, 맥OS X는 유니코드 기반의 OS입니다.
- 문자셋(character set)과 인코딩(encoding)은 다릅니다.
- 문자셋은 추상적인 것(가나다라)이고 인코딩은 구현된 결과물(0xA03C)입니다.
- 태터툴즈도 예전엔 EUC-KR 을 사용해서 UTF-8을 사용하는 RSS 리더기에서
- 문자가 깨지는 현상이 있었다고 합니다.

그 외의 해결되지 않은 궁금한 사항

- 윈도에서 TEXT 파일을 저장했을 때, 파일이름은 어떤 방식의 코드로 저장되는가?
- 파일 내부의 내용물은 어떤 코드로 저장되는가?
- 그외의 고려사항으로 이기종간 byte order의 차이로 인한 문제의 소지가 있는데 구체적으로 어떤?
- 유니코드 1.0과 2.0에서 한글만 하위호환성이 없다는데?

Trackback Address >> http://esheep.net/trackback/18

  1. BlogIcon yser 2006/06/21 21:54  address  modify / delete  reply

    irc에서 대화하다가 이렇게 또 올해도.. 유니코드로 국내 자료가 없어서 헤매시는 분이 있군요.
    결국 이게 계속 악순환 되는 것 같습니다. 그나마 정리하던 분이 있었는데 국가에 신병이 박탈되셨고 -_-
    저도 생각만 하고는 아직 정리할 엄두를 못내고 있습니다.

    http://pluu.pe.kr/pukiwiki/index.php?%EC%9C%A0%EB%8B%88%EC%BD%94%EB%93%9C%EC%99%80%20%ED%95%9C%EA%B8%80

    여기 글을 보시면 그나마 조금은 보충이 될지도 모르겠군요.
    인코딩 문제.. 국내 자료를 제대로 정리는 해야하는데 아직 아무도 시도를 안하는 듯 합니다. 결코 만만한 문제도 아니구요. 특히 인터넷에서의 인코딩은 더욱 문제가 복잡하죠.

    p.s
    예전 사이트가 구글에서 걸려서 새로 옮긴 곳에 와서 다시 붙입니다.