문자코드조사

팀명 : 옵션
팀원 : 201252012 이근영
   201252013 박찬준
   201252014 박나영
   201252031 박동현
문자코드란
   문자코드란 문자를 컴퓨터에서 이용할 수 있도록 일정한 규칙
    에 의해 구조화된 약속의 총칭이다. 컴퓨터는 일종의 電氣信號
    에 의해 처리되기 때문에 0과 1의 2진수 밖에는 사용할 수가 없
    다. 따라서 문자와 같은 많은 종류의 정보를 컴퓨터에서 처리하
    기 위해서는 0과 1의 조합으로 하나의 문자를 구성하게 된다.
    이렇게 문자를 수치화 하여 컴퓨터가 처리할 수 있도록 하는 것
    을 ‘코드화’ 또는 ‘부호화’라고 하며, 복수의 문자를 일정한 규칙
    에 의해 조합한 세트를 ‘부호화 문자집합(Coded Character
    Set)’이라 한다. 그리고 이를 간단히 ‘문자집합’ 또는 ‘문자코드
    (Character Code)’라고 한다.

   엄밀한 의미에서 이들 사이에는 약간의 차이가 있지만, 일반적
    으로 ‘문자부호화 형식’과 ‘부호화 문자집합’은 구별하지 않으며,
    ‘부호화 문자집합’이라는 말로 이 두 가지를 하나로 묶어서 다
    루고 있다. 또 부호화 문자집합은 ‘codeset’ 혹은 ‘charset’이라
    고도 한다. 이 외에 ‘부호화체계’ 또는 ‘인코딩 스키마(encoding
    scheme)’라는 용어도 ‘부호화 문자집합’이나 ‘부호화 형식’과
    같은 의미로 사용하는 경우가 많다.
유니코드                                   아스키코드
   국제표준으로 제정된 2바               1963년 미국표준협회
    이트계의 만국 공통의 국                (ANSI)에 의해 결정되어
    제 문자부호 체계(UCS:               미국의 표준부호가 되었
    Universal Code System)       다. 미니컴퓨터나 개인용
    를 말한다. 애플컴퓨터                 컴퓨터(PC)와 같은 소형
    ·IBM·마이크로소프트 등               컴퓨터를 중심으로 보급
    이 컨소시엄으로 설립한                 되어 현재 국제적으로 널
    유니코드(Unicode)가               리 사용되고 있다.
    1990년에 첫 버전을 발표             아스키는 128개의 가능한
    하였고, ISO/IEC JTC1에           문자조합을 제공하는 7비
    서 1995년 9월 국제표준              트(bit) 부호로, 처음 32개
    으로 제정하였다. 공식 명               의 부호는 인쇄와 전송 제
    칭은ISO/IEC 10646-             어용으로 사용된다. 보통
    1(Universal Multiple-        기억장치는 8비트(1바이
    Octet Coded Character        트, 256조합)이고, 아스키
    Set)이다.                      는 단지 128개의 문자만
                                 사용하기 때문에 나머지
                                 비트는 패러티 비트나 특
                                 정문자로 사용된다.
UTF-8                                                   EUC-KR
   UTF-8은 유니코드를 위한 가변 길이                   EUC-KR은 KS X 1001와 KS X 1003
    문자 인코딩 방식 중 하나로, 켄 톰프                    을 사용하는 8비트 문자 인코딩으로,
    슨과 롭 파이크가 만들었다. 본래는                      EUC의 일종이며 대표적인 한글 완성
    FSS-UTF(File System Safe                 형 인코딩이기 때문에 보통 완성형이
    UCS/Unicode Transformation Format)       라고 불린다.
    라는 이름으로 제안되었다.                          EUC-KR 인코딩은 다음과 같이 구성
   UTF-8 인코딩은 유니코드 한 문자를                    된다.
    나타내기 위해 1바이트에서 4바이트                     128보다 작은 바이트에 KS X 1003을
    까지를 사용한다. 예를 들어서,                        배당한다.
    U+0000부터 U+007F 범위에 있는
    ASCII 문자들은 UTF-8에서 1바이트                 128보다 크거나 같은 바이트에 KS X
    만으로 표시된다. 4바이트로 표현되는                     1001을 배당한다. 각 글자는 행과 열
    문자는 모두 기본 다국어 평면(BMP)                    에 128을 더한 코드값을 사용하여 2바
    바깥의 유니코드 문자이며, 거의 사용                     이트로 표현된다.
    되지 않는다. UTF-16과 UTF-8 중 어               따라서 KS X 1001의 40-27에 배당된
    느 인코딩이 더 적은 바이트를 사용하                     "위"라는 글자는 EUC-KR에서 C0 A7
    는지는 문자열에서 사용된 코드 포인                      라는 바이트 열로 표현된다.
    트에 따라 달라지며, 실제로
    DEFLATE와 같은 일반적인 압축 알고                  KS X 1001에는 한글 채움 문자를 사
    리즘을 사용할 경우 이 차이는 무시할                     용하여 규격의 문자 집합에 포함되지
    수 있을 정도이다. 이러한 압축 알고리                    않은 한글을 표현하는 확장 방법이 있
    즘을 사용하기 힘들고 크기가 중요할                      지만, 대부분의 경우 이 방법은 EUC-
    경우 유니코드 표준 압축 방식을 대신                     KR에서 사용되지 않고 대신 CP949와
    사용할 수 있다.                                같은 다른 방법을 사용하여 KS X
                                             1001 바깥의 현대 한글을 표현한다.
ASCII코드
   ASCII(American Standard Code for information
    interchange) 코드는 미국 국립 표준 연구서가
    재정한 정보 교환용 미국 표준 코드로서 3비트
    의 존(zone)과 4비트의 디지트에 1비트의 패리
                                                                   bcd코드
    티 비트 패리티 비트오류 검츌 코드로 가장 간단                        숫자, 영자, 특수 기호를 나타내기 위한 6비트로
                                                       이루어지는 코드. 오류 검사용의 1비트가 부가
    하게 사용되는 것이 패리티(parity)비트를 사용                       되어, 전체로서는 7비트로 구성된다
    한 코드다.
   보통 컴퓨터의 내부에서 사용되며 특히 주기억
    장치에서 사용된다. 서버급 컴퓨터의 주기억장
    치 중에서 패리티를 사용하는 메모리 모듈                                         ebcdic 코드
    (ECC:error check correction)을 찾아볼 수 있으            Extended binary coded decimal interchanged
    며, 메모리에 저장되거나 전달될 데이터에 패리                          code의 약어. 8자리의 2진수를 사용하여 문자,
    티를 붙여서 전송한다.                                       숫자, 구두점 등을 부호화하는 IBM의 시스템. 7
                                                       자리의 2진수를 사용하는 ASCII 코드에 비해 두
   ASCII코드의 구성은 영대문자와 영소문자, 숫                         배의 기호와 제어기능을 표현함.
    자, 특수문자, 입출력 장치에 사용하는 제어문자
    및 각종 통신용 제어 문자들로 구성되어 있다.
   ASCII 텍스트 형식의 특징은 전문을 대상으로
                                                                   한글코드
    한 비통제 탐색이 가능하고, ASCII 코드는 사용                      컴퓨터 내부에서 한글을 표시하기 위해 사용되
    하는 모든 시스템 및 응용 프로그램 간의 호환이                         는 코드로서 행망 표준 코드인 2바이트 완성형
                                                       외에도 2바이트 조합형, n바이트형, 3바이트형,
    가능하다는 것이다.                                         7비트 조합형 등이 있음.
   그러나 대부분의 문헌이 순수한 텍스트로만 구
    성되지 않기 때문에 다양한 비텍스트적 요소를
    표현할 수 없고 미국과 일부 유럽의 문자만을 지
    원한다는 단점이 있다.
끝^^♥

문자코드

  • 1.
    문자코드조사 팀명 : 옵션 팀원: 201252012 이근영 201252013 박찬준 201252014 박나영 201252031 박동현
  • 2.
    문자코드란  문자코드란 문자를 컴퓨터에서 이용할 수 있도록 일정한 규칙 에 의해 구조화된 약속의 총칭이다. 컴퓨터는 일종의 電氣信號 에 의해 처리되기 때문에 0과 1의 2진수 밖에는 사용할 수가 없 다. 따라서 문자와 같은 많은 종류의 정보를 컴퓨터에서 처리하 기 위해서는 0과 1의 조합으로 하나의 문자를 구성하게 된다. 이렇게 문자를 수치화 하여 컴퓨터가 처리할 수 있도록 하는 것 을 ‘코드화’ 또는 ‘부호화’라고 하며, 복수의 문자를 일정한 규칙 에 의해 조합한 세트를 ‘부호화 문자집합(Coded Character Set)’이라 한다. 그리고 이를 간단히 ‘문자집합’ 또는 ‘문자코드 (Character Code)’라고 한다.  엄밀한 의미에서 이들 사이에는 약간의 차이가 있지만, 일반적 으로 ‘문자부호화 형식’과 ‘부호화 문자집합’은 구별하지 않으며, ‘부호화 문자집합’이라는 말로 이 두 가지를 하나로 묶어서 다 루고 있다. 또 부호화 문자집합은 ‘codeset’ 혹은 ‘charset’이라 고도 한다. 이 외에 ‘부호화체계’ 또는 ‘인코딩 스키마(encoding scheme)’라는 용어도 ‘부호화 문자집합’이나 ‘부호화 형식’과 같은 의미로 사용하는 경우가 많다.
  • 3.
    유니코드 아스키코드  국제표준으로 제정된 2바  1963년 미국표준협회 이트계의 만국 공통의 국 (ANSI)에 의해 결정되어 제 문자부호 체계(UCS: 미국의 표준부호가 되었 Universal Code System) 다. 미니컴퓨터나 개인용 를 말한다. 애플컴퓨터 컴퓨터(PC)와 같은 소형 ·IBM·마이크로소프트 등 컴퓨터를 중심으로 보급 이 컨소시엄으로 설립한 되어 현재 국제적으로 널 유니코드(Unicode)가 리 사용되고 있다. 1990년에 첫 버전을 발표  아스키는 128개의 가능한 하였고, ISO/IEC JTC1에 문자조합을 제공하는 7비 서 1995년 9월 국제표준 트(bit) 부호로, 처음 32개 으로 제정하였다. 공식 명 의 부호는 인쇄와 전송 제 칭은ISO/IEC 10646- 어용으로 사용된다. 보통 1(Universal Multiple- 기억장치는 8비트(1바이 Octet Coded Character 트, 256조합)이고, 아스키 Set)이다. 는 단지 128개의 문자만 사용하기 때문에 나머지 비트는 패러티 비트나 특 정문자로 사용된다.
  • 4.
    UTF-8 EUC-KR  UTF-8은 유니코드를 위한 가변 길이  EUC-KR은 KS X 1001와 KS X 1003 문자 인코딩 방식 중 하나로, 켄 톰프 을 사용하는 8비트 문자 인코딩으로, 슨과 롭 파이크가 만들었다. 본래는 EUC의 일종이며 대표적인 한글 완성 FSS-UTF(File System Safe 형 인코딩이기 때문에 보통 완성형이 UCS/Unicode Transformation Format) 라고 불린다. 라는 이름으로 제안되었다.  EUC-KR 인코딩은 다음과 같이 구성  UTF-8 인코딩은 유니코드 한 문자를 된다. 나타내기 위해 1바이트에서 4바이트  128보다 작은 바이트에 KS X 1003을 까지를 사용한다. 예를 들어서, 배당한다. U+0000부터 U+007F 범위에 있는 ASCII 문자들은 UTF-8에서 1바이트  128보다 크거나 같은 바이트에 KS X 만으로 표시된다. 4바이트로 표현되는 1001을 배당한다. 각 글자는 행과 열 문자는 모두 기본 다국어 평면(BMP) 에 128을 더한 코드값을 사용하여 2바 바깥의 유니코드 문자이며, 거의 사용 이트로 표현된다. 되지 않는다. UTF-16과 UTF-8 중 어  따라서 KS X 1001의 40-27에 배당된 느 인코딩이 더 적은 바이트를 사용하 "위"라는 글자는 EUC-KR에서 C0 A7 는지는 문자열에서 사용된 코드 포인 라는 바이트 열로 표현된다. 트에 따라 달라지며, 실제로 DEFLATE와 같은 일반적인 압축 알고  KS X 1001에는 한글 채움 문자를 사 리즘을 사용할 경우 이 차이는 무시할 용하여 규격의 문자 집합에 포함되지 수 있을 정도이다. 이러한 압축 알고리 않은 한글을 표현하는 확장 방법이 있 즘을 사용하기 힘들고 크기가 중요할 지만, 대부분의 경우 이 방법은 EUC- 경우 유니코드 표준 압축 방식을 대신 KR에서 사용되지 않고 대신 CP949와 사용할 수 있다. 같은 다른 방법을 사용하여 KS X 1001 바깥의 현대 한글을 표현한다.
  • 5.
    ASCII코드  ASCII(American Standard Code for information interchange) 코드는 미국 국립 표준 연구서가 재정한 정보 교환용 미국 표준 코드로서 3비트 의 존(zone)과 4비트의 디지트에 1비트의 패리 bcd코드 티 비트 패리티 비트오류 검츌 코드로 가장 간단  숫자, 영자, 특수 기호를 나타내기 위한 6비트로 이루어지는 코드. 오류 검사용의 1비트가 부가 하게 사용되는 것이 패리티(parity)비트를 사용 되어, 전체로서는 7비트로 구성된다 한 코드다.  보통 컴퓨터의 내부에서 사용되며 특히 주기억 장치에서 사용된다. 서버급 컴퓨터의 주기억장 치 중에서 패리티를 사용하는 메모리 모듈 ebcdic 코드 (ECC:error check correction)을 찾아볼 수 있으  Extended binary coded decimal interchanged 며, 메모리에 저장되거나 전달될 데이터에 패리 code의 약어. 8자리의 2진수를 사용하여 문자, 티를 붙여서 전송한다. 숫자, 구두점 등을 부호화하는 IBM의 시스템. 7 자리의 2진수를 사용하는 ASCII 코드에 비해 두  ASCII코드의 구성은 영대문자와 영소문자, 숫 배의 기호와 제어기능을 표현함. 자, 특수문자, 입출력 장치에 사용하는 제어문자 및 각종 통신용 제어 문자들로 구성되어 있다.  ASCII 텍스트 형식의 특징은 전문을 대상으로 한글코드 한 비통제 탐색이 가능하고, ASCII 코드는 사용  컴퓨터 내부에서 한글을 표시하기 위해 사용되 하는 모든 시스템 및 응용 프로그램 간의 호환이 는 코드로서 행망 표준 코드인 2바이트 완성형 외에도 2바이트 조합형, n바이트형, 3바이트형, 가능하다는 것이다. 7비트 조합형 등이 있음.  그러나 대부분의 문헌이 순수한 텍스트로만 구 성되지 않기 때문에 다양한 비텍스트적 요소를 표현할 수 없고 미국과 일부 유럽의 문자만을 지 원한다는 단점이 있다.
  • 6.