Diff for "UTF8" - BioHackersNet

Differences between revisions 2 and 3

UTF-8 UniversalTransformationFormat8Bit, [RFC] 2279

UniCode는 상대적으로 비효율적인 CharacterSet이다. 따라서, 적절한 인코딩 방법을 사용하여 영미권에서 자주 사용하는 문자셋에 대해 적은 바이트를 사용하도록 하는 좀더 효율적인 방식의 인코딩이 필요하게 되었는데, 이것이 UTF-8

[ASCII] 문자셋은 한 byte로 인코딩하고, 나머지에 대해서는 2,3byte로 인코딩한다.

관련정보

LinuxdocSgml/UTF8-Unicode-TRANS
[http://pluu.pe.kr/blog/index.php?pl=49 euc-kr을 utf-8로 변경하기]

[Python]에서의 변환방법 (euc-kr -> utf-8)

   1 euckr2utf8 = lambda s: unicode(s, 'euc-kr').encode('utf-8')

특정디렉토리의 밑의 특정확장자 파일변환

[yong27@est test]$ cat cvtEncoding
#!/bin/sh
for cfile in `find . -name "*.${1}"`
do
echo Processing ${cfile}
iconv -f "$2" -t "$3" "$cfile" > "${cfile}_"
mv "${cfile}_" "$cfile"
done

[yong27@est test]$ ./cvtEncoding py euc-kr utf-8
Processing ./enc.py

특정디렉토리 밑의 모든 파일 및 파일,경로네임 변환 --> [EncodingConverter.py]

BioinfoWiki도 그렇고, TetterTools도 UTF-8이 아닌 EUC-KR을 쓰고 있다. 점차적으로 변경요망. --[yong27], 2004-10-06

UTF-8로 전체 변환 --[yong27], 2005-06-26

특정문자열에 대해, 인코딩을 자동으로 인식하는 프로그램을 만들어야겠다. [Google]서 대충봤는데 없는듯하고... 모든 인코딩에 대해 다 할 수 는 없겠고, 한국어사용자를 위한 utf-8 or euc-kr만 인식하는것은 가능하지 않을까? 자음+모음의 형식이 대강 맞으면 utf-8 아니면 euc-kr. --[yong27], 2005-06-27

-  ⇤ ← Revision 2 as of 2005-06-26 20:27:52 → 
  Size: 1365
  Editor: 127
  Comment:
+   ← Revision 3 as of 2005-06-27 14:22:46 → ⇥
  Size: 1753
  Editor: 203
  Comment:
-Deletions are marked like this.
+Additions are marked like this.
 Line 37:
+특정문자열에 대해, 인코딩을 자동으로 인식하는 프로그램을 만들어야겠다. [Google]서 대충봤는데 없는듯하고... 모든 인코딩에 대해 다 할 수 는 없겠고, 한국어사용자를 위한 utf-8 or euc-kr만 인식하는것은 가능하지 않을까? 자음+모음의 형식이 대강 맞으면 utf-8 아니면 euc-kr. --[yong27], 2005-06-27