문자코드

문자코드조사

팀명 : 옵션
팀원 : 201252012 이근영
201252013 박찬준
201252014 박나영
201252031 박동현

문자코드란
 문자코드란 문자를 컴퓨터에서 이용할 수 있도록 일정한 규칙
에 의해 구조화된 약속의 총칭이다. 컴퓨터는 일종의 電氣信號
에 의해 처리되기 때문에 0과 1의 2진수 밖에는 사용할 수가 없
다. 따라서 문자와 같은 많은 종류의 정보를 컴퓨터에서 처리하
기 위해서는 0과 1의 조합으로 하나의 문자를 구성하게 된다.
이렇게 문자를 수치화 하여 컴퓨터가 처리할 수 있도록 하는 것
을 ‘코드화’ 또는 ‘부호화’라고 하며, 복수의 문자를 일정한 규칙
에 의해 조합한 세트를 ‘부호화 문자집합(Coded Character
Set)’이라 한다. 그리고 이를 간단히 ‘문자집합’ 또는 ‘문자코드
(Character Code)’라고 한다.

 엄밀한 의미에서 이들 사이에는 약간의 차이가 있지만, 일반적
으로 ‘문자부호화 형식’과 ‘부호화 문자집합’은 구별하지 않으며,
‘부호화 문자집합’이라는 말로 이 두 가지를 하나로 묶어서 다
루고 있다. 또 부호화 문자집합은 ‘codeset’ 혹은 ‘charset’이라
고도 한다. 이 외에 ‘부호화체계’ 또는 ‘인코딩 스키마(encoding
scheme)’라는 용어도 ‘부호화 문자집합’이나 ‘부호화 형식’과
같은 의미로 사용하는 경우가 많다.

유니코드 아스키코드
 국제표준으로 제정된 2바  1963년 미국표준협회
이트계의 만국 공통의 국 (ANSI)에 의해 결정되어
제 문자부호 체계(UCS: 미국의 표준부호가 되었
Universal Code System) 다. 미니컴퓨터나 개인용
를 말한다. 애플컴퓨터 컴퓨터(PC)와 같은 소형
·IBM·마이크로소프트 등 컴퓨터를 중심으로 보급
이 컨소시엄으로 설립한 되어 현재 국제적으로 널
유니코드(Unicode)가 리 사용되고 있다.
1990년에 첫 버전을 발표  아스키는 128개의 가능한
하였고, ISO/IEC JTC1에 문자조합을 제공하는 7비
서 1995년 9월 국제표준 트(bit) 부호로, 처음 32개
으로 제정하였다. 공식 명 의 부호는 인쇄와 전송 제
칭은ISO/IEC 10646- 어용으로 사용된다. 보통
1(Universal Multiple- 기억장치는 8비트(1바이
Octet Coded Character 트, 256조합)이고, 아스키
Set)이다. 는 단지 128개의 문자만
사용하기 때문에 나머지
비트는 패러티 비트나 특
정문자로 사용된다.

UTF-8 EUC-KR
 UTF-8은 유니코드를 위한 가변 길이  EUC-KR은 KS X 1001와 KS X 1003
문자 인코딩 방식 중 하나로, 켄 톰프 을 사용하는 8비트 문자 인코딩으로,
슨과 롭 파이크가 만들었다. 본래는 EUC의 일종이며 대표적인 한글 완성
FSS-UTF(File System Safe 형 인코딩이기 때문에 보통 완성형이
UCS/Unicode Transformation Format) 라고 불린다.
라는 이름으로 제안되었다.  EUC-KR 인코딩은 다음과 같이 구성
 UTF-8 인코딩은 유니코드 한 문자를 된다.
나타내기 위해 1바이트에서 4바이트  128보다 작은 바이트에 KS X 1003을
까지를 사용한다. 예를 들어서, 배당한다.
U+0000부터 U+007F 범위에 있는
ASCII 문자들은 UTF-8에서 1바이트  128보다 크거나 같은 바이트에 KS X
만으로 표시된다. 4바이트로 표현되는 1001을 배당한다. 각 글자는 행과 열
문자는 모두 기본 다국어 평면(BMP) 에 128을 더한 코드값을 사용하여 2바
바깥의 유니코드 문자이며, 거의 사용 이트로 표현된다.
되지 않는다. UTF-16과 UTF-8 중 어  따라서 KS X 1001의 40-27에 배당된
느 인코딩이 더 적은 바이트를 사용하 "위"라는 글자는 EUC-KR에서 C0 A7
는지는 문자열에서 사용된 코드 포인 라는 바이트 열로 표현된다.
트에 따라 달라지며, 실제로
DEFLATE와 같은 일반적인 압축 알고  KS X 1001에는 한글 채움 문자를 사
리즘을 사용할 경우 이 차이는 무시할 용하여 규격의 문자 집합에 포함되지
수 있을 정도이다. 이러한 압축 알고리 않은 한글을 표현하는 확장 방법이 있
즘을 사용하기 힘들고 크기가 중요할 지만, 대부분의 경우 이 방법은 EUC-
경우 유니코드 표준 압축 방식을 대신 KR에서 사용되지 않고 대신 CP949와
사용할 수 있다. 같은 다른 방법을 사용하여 KS X
1001 바깥의 현대 한글을 표현한다.

ASCII코드
 ASCII(American Standard Code for information
interchange) 코드는 미국 국립 표준 연구서가
재정한 정보 교환용 미국 표준 코드로서 3비트
의 존(zone)과 4비트의 디지트에 1비트의 패리
bcd코드
티 비트 패리티 비트오류 검츌 코드로 가장 간단  숫자, 영자, 특수 기호를 나타내기 위한 6비트로
이루어지는 코드. 오류 검사용의 1비트가 부가
하게 사용되는 것이 패리티(parity)비트를 사용 되어, 전체로서는 7비트로 구성된다
한 코드다.
 보통 컴퓨터의 내부에서 사용되며 특히 주기억
장치에서 사용된다. 서버급 컴퓨터의 주기억장
치 중에서 패리티를 사용하는 메모리 모듈 ebcdic 코드
(ECC:error check correction)을 찾아볼 수 있으  Extended binary coded decimal interchanged
며, 메모리에 저장되거나 전달될 데이터에 패리 code의 약어. 8자리의 2진수를 사용하여 문자,
티를 붙여서 전송한다. 숫자, 구두점 등을 부호화하는 IBM의 시스템. 7
자리의 2진수를 사용하는 ASCII 코드에 비해 두
 ASCII코드의 구성은 영대문자와 영소문자, 숫 배의 기호와 제어기능을 표현함.
자, 특수문자, 입출력 장치에 사용하는 제어문자
및 각종 통신용 제어 문자들로 구성되어 있다.
 ASCII 텍스트 형식의 특징은 전문을 대상으로
한글코드
한 비통제 탐색이 가능하고, ASCII 코드는 사용  컴퓨터 내부에서 한글을 표시하기 위해 사용되
하는 모든 시스템 및 응용 프로그램 간의 호환이 는 코드로서 행망 표준 코드인 2바이트 완성형
외에도 2바이트 조합형, n바이트형, 3바이트형,
가능하다는 것이다. 7비트 조합형 등이 있음.
 그러나 대부분의 문헌이 순수한 텍스트로만 구
성되지 않기 때문에 다양한 비텍스트적 요소를
표현할 수 없고 미국과 일부 유럽의 문자만을 지
원한다는 단점이 있다.

문자코드

More Related Content

What's hot

Similar to 문자코드

문자코드