SlideShare a Scribd company logo
1 of 6
문자코드조사

팀명 : 옵션
팀원 : 201252012 이근영
   201252013 박찬준
   201252014 박나영
   201252031 박동현
문자코드란
   문자코드란 문자를 컴퓨터에서 이용할 수 있도록 일정한 규칙
    에 의해 구조화된 약속의 총칭이다. 컴퓨터는 일종의 電氣信號
    에 의해 처리되기 때문에 0과 1의 2진수 밖에는 사용할 수가 없
    다. 따라서 문자와 같은 많은 종류의 정보를 컴퓨터에서 처리하
    기 위해서는 0과 1의 조합으로 하나의 문자를 구성하게 된다.
    이렇게 문자를 수치화 하여 컴퓨터가 처리할 수 있도록 하는 것
    을 ‘코드화’ 또는 ‘부호화’라고 하며, 복수의 문자를 일정한 규칙
    에 의해 조합한 세트를 ‘부호화 문자집합(Coded Character
    Set)’이라 한다. 그리고 이를 간단히 ‘문자집합’ 또는 ‘문자코드
    (Character Code)’라고 한다.

   엄밀한 의미에서 이들 사이에는 약간의 차이가 있지만, 일반적
    으로 ‘문자부호화 형식’과 ‘부호화 문자집합’은 구별하지 않으며,
    ‘부호화 문자집합’이라는 말로 이 두 가지를 하나로 묶어서 다
    루고 있다. 또 부호화 문자집합은 ‘codeset’ 혹은 ‘charset’이라
    고도 한다. 이 외에 ‘부호화체계’ 또는 ‘인코딩 스키마(encoding
    scheme)’라는 용어도 ‘부호화 문자집합’이나 ‘부호화 형식’과
    같은 의미로 사용하는 경우가 많다.
유니코드                                   아스키코드
   국제표준으로 제정된 2바               1963년 미국표준협회
    이트계의 만국 공통의 국                (ANSI)에 의해 결정되어
    제 문자부호 체계(UCS:               미국의 표준부호가 되었
    Universal Code System)       다. 미니컴퓨터나 개인용
    를 말한다. 애플컴퓨터                 컴퓨터(PC)와 같은 소형
    ·IBM·마이크로소프트 등               컴퓨터를 중심으로 보급
    이 컨소시엄으로 설립한                 되어 현재 국제적으로 널
    유니코드(Unicode)가               리 사용되고 있다.
    1990년에 첫 버전을 발표             아스키는 128개의 가능한
    하였고, ISO/IEC JTC1에           문자조합을 제공하는 7비
    서 1995년 9월 국제표준              트(bit) 부호로, 처음 32개
    으로 제정하였다. 공식 명               의 부호는 인쇄와 전송 제
    칭은ISO/IEC 10646-             어용으로 사용된다. 보통
    1(Universal Multiple-        기억장치는 8비트(1바이
    Octet Coded Character        트, 256조합)이고, 아스키
    Set)이다.                      는 단지 128개의 문자만
                                 사용하기 때문에 나머지
                                 비트는 패러티 비트나 특
                                 정문자로 사용된다.
UTF-8                                                   EUC-KR
   UTF-8은 유니코드를 위한 가변 길이                   EUC-KR은 KS X 1001와 KS X 1003
    문자 인코딩 방식 중 하나로, 켄 톰프                    을 사용하는 8비트 문자 인코딩으로,
    슨과 롭 파이크가 만들었다. 본래는                      EUC의 일종이며 대표적인 한글 완성
    FSS-UTF(File System Safe                 형 인코딩이기 때문에 보통 완성형이
    UCS/Unicode Transformation Format)       라고 불린다.
    라는 이름으로 제안되었다.                          EUC-KR 인코딩은 다음과 같이 구성
   UTF-8 인코딩은 유니코드 한 문자를                    된다.
    나타내기 위해 1바이트에서 4바이트                     128보다 작은 바이트에 KS X 1003을
    까지를 사용한다. 예를 들어서,                        배당한다.
    U+0000부터 U+007F 범위에 있는
    ASCII 문자들은 UTF-8에서 1바이트                 128보다 크거나 같은 바이트에 KS X
    만으로 표시된다. 4바이트로 표현되는                     1001을 배당한다. 각 글자는 행과 열
    문자는 모두 기본 다국어 평면(BMP)                    에 128을 더한 코드값을 사용하여 2바
    바깥의 유니코드 문자이며, 거의 사용                     이트로 표현된다.
    되지 않는다. UTF-16과 UTF-8 중 어               따라서 KS X 1001의 40-27에 배당된
    느 인코딩이 더 적은 바이트를 사용하                     "위"라는 글자는 EUC-KR에서 C0 A7
    는지는 문자열에서 사용된 코드 포인                      라는 바이트 열로 표현된다.
    트에 따라 달라지며, 실제로
    DEFLATE와 같은 일반적인 압축 알고                  KS X 1001에는 한글 채움 문자를 사
    리즘을 사용할 경우 이 차이는 무시할                     용하여 규격의 문자 집합에 포함되지
    수 있을 정도이다. 이러한 압축 알고리                    않은 한글을 표현하는 확장 방법이 있
    즘을 사용하기 힘들고 크기가 중요할                      지만, 대부분의 경우 이 방법은 EUC-
    경우 유니코드 표준 압축 방식을 대신                     KR에서 사용되지 않고 대신 CP949와
    사용할 수 있다.                                같은 다른 방법을 사용하여 KS X
                                             1001 바깥의 현대 한글을 표현한다.
ASCII코드
   ASCII(American Standard Code for information
    interchange) 코드는 미국 국립 표준 연구서가
    재정한 정보 교환용 미국 표준 코드로서 3비트
    의 존(zone)과 4비트의 디지트에 1비트의 패리
                                                                   bcd코드
    티 비트 패리티 비트오류 검츌 코드로 가장 간단                        숫자, 영자, 특수 기호를 나타내기 위한 6비트로
                                                       이루어지는 코드. 오류 검사용의 1비트가 부가
    하게 사용되는 것이 패리티(parity)비트를 사용                       되어, 전체로서는 7비트로 구성된다
    한 코드다.
   보통 컴퓨터의 내부에서 사용되며 특히 주기억
    장치에서 사용된다. 서버급 컴퓨터의 주기억장
    치 중에서 패리티를 사용하는 메모리 모듈                                         ebcdic 코드
    (ECC:error check correction)을 찾아볼 수 있으            Extended binary coded decimal interchanged
    며, 메모리에 저장되거나 전달될 데이터에 패리                          code의 약어. 8자리의 2진수를 사용하여 문자,
    티를 붙여서 전송한다.                                       숫자, 구두점 등을 부호화하는 IBM의 시스템. 7
                                                       자리의 2진수를 사용하는 ASCII 코드에 비해 두
   ASCII코드의 구성은 영대문자와 영소문자, 숫                         배의 기호와 제어기능을 표현함.
    자, 특수문자, 입출력 장치에 사용하는 제어문자
    및 각종 통신용 제어 문자들로 구성되어 있다.
   ASCII 텍스트 형식의 특징은 전문을 대상으로
                                                                   한글코드
    한 비통제 탐색이 가능하고, ASCII 코드는 사용                      컴퓨터 내부에서 한글을 표시하기 위해 사용되
    하는 모든 시스템 및 응용 프로그램 간의 호환이                         는 코드로서 행망 표준 코드인 2바이트 완성형
                                                       외에도 2바이트 조합형, n바이트형, 3바이트형,
    가능하다는 것이다.                                         7비트 조합형 등이 있음.
   그러나 대부분의 문헌이 순수한 텍스트로만 구
    성되지 않기 때문에 다양한 비텍스트적 요소를
    표현할 수 없고 미국과 일부 유럽의 문자만을 지
    원한다는 단점이 있다.
끝^^♥

More Related Content

Similar to 문자코드

유니코드 세미나
유니코드 세미나유니코드 세미나
유니코드 세미나YoungGyu Chun
 
파이썬 유니코드 이해하기
파이썬 유니코드 이해하기파이썬 유니코드 이해하기
파이썬 유니코드 이해하기Yong Joon Moon
 
전영규 유니코드 세미나_공개용
전영규 유니코드 세미나_공개용전영규 유니코드 세미나_공개용
전영규 유니코드 세미나_공개용YOUNGGYU CHUN
 
문자 인코딩과 유니코드
문자 인코딩과 유니코드문자 인코딩과 유니코드
문자 인코딩과 유니코드Yongsu Park
 
Windosw via c 스터디2장
Windosw via c 스터디2장Windosw via c 스터디2장
Windosw via c 스터디2장HolyTak
 
문자셋과 인코딩
문자셋과 인코딩문자셋과 인코딩
문자셋과 인코딩Jaehoon Jung
 
Go character encoding
Go character encodingGo character encoding
Go character encodingHomin Lee
 
문자코드(1박2일)
문자코드(1박2일)문자코드(1박2일)
문자코드(1박2일)dlrudeh22
 
Unicode & encoding
Unicode & encodingUnicode & encoding
Unicode & encodingJaeSang Yoo
 
글로벌소프트웨어개발 V1.0
글로벌소프트웨어개발 V1.0글로벌소프트웨어개발 V1.0
글로벌소프트웨어개발 V1.0KangJin Choi
 
Character Encoding in python
Character Encoding in pythonCharacter Encoding in python
Character Encoding in pythondaesung7kang
 
델파이와 유니코드
델파이와 유니코드델파이와 유니코드
델파이와 유니코드Devgear
 

Similar to 문자코드 (16)

유니코드 세미나
유니코드 세미나유니코드 세미나
유니코드 세미나
 
파이썬 유니코드 이해하기
파이썬 유니코드 이해하기파이썬 유니코드 이해하기
파이썬 유니코드 이해하기
 
전영규 유니코드 세미나_공개용
전영규 유니코드 세미나_공개용전영규 유니코드 세미나_공개용
전영규 유니코드 세미나_공개용
 
문자 인코딩과 유니코드
문자 인코딩과 유니코드문자 인코딩과 유니코드
문자 인코딩과 유니코드
 
Windosw via c 스터디2장
Windosw via c 스터디2장Windosw via c 스터디2장
Windosw via c 스터디2장
 
문자셋과 인코딩
문자셋과 인코딩문자셋과 인코딩
문자셋과 인코딩
 
Go character encoding
Go character encodingGo character encoding
Go character encoding
 
Unicode
UnicodeUnicode
Unicode
 
문자코드(1박2일)
문자코드(1박2일)문자코드(1박2일)
문자코드(1박2일)
 
Unicode & encoding
Unicode & encodingUnicode & encoding
Unicode & encoding
 
코드 Ch20
코드 Ch20코드 Ch20
코드 Ch20
 
Unicode
UnicodeUnicode
Unicode
 
글로벌소프트웨어개발 V1.0
글로벌소프트웨어개발 V1.0글로벌소프트웨어개발 V1.0
글로벌소프트웨어개발 V1.0
 
Character Encoding in python
Character Encoding in pythonCharacter Encoding in python
Character Encoding in python
 
Unicode @KASA
Unicode @KASAUnicode @KASA
Unicode @KASA
 
델파이와 유니코드
델파이와 유니코드델파이와 유니코드
델파이와 유니코드
 

문자코드

  • 1. 문자코드조사 팀명 : 옵션 팀원 : 201252012 이근영 201252013 박찬준 201252014 박나영 201252031 박동현
  • 2. 문자코드란  문자코드란 문자를 컴퓨터에서 이용할 수 있도록 일정한 규칙 에 의해 구조화된 약속의 총칭이다. 컴퓨터는 일종의 電氣信號 에 의해 처리되기 때문에 0과 1의 2진수 밖에는 사용할 수가 없 다. 따라서 문자와 같은 많은 종류의 정보를 컴퓨터에서 처리하 기 위해서는 0과 1의 조합으로 하나의 문자를 구성하게 된다. 이렇게 문자를 수치화 하여 컴퓨터가 처리할 수 있도록 하는 것 을 ‘코드화’ 또는 ‘부호화’라고 하며, 복수의 문자를 일정한 규칙 에 의해 조합한 세트를 ‘부호화 문자집합(Coded Character Set)’이라 한다. 그리고 이를 간단히 ‘문자집합’ 또는 ‘문자코드 (Character Code)’라고 한다.  엄밀한 의미에서 이들 사이에는 약간의 차이가 있지만, 일반적 으로 ‘문자부호화 형식’과 ‘부호화 문자집합’은 구별하지 않으며, ‘부호화 문자집합’이라는 말로 이 두 가지를 하나로 묶어서 다 루고 있다. 또 부호화 문자집합은 ‘codeset’ 혹은 ‘charset’이라 고도 한다. 이 외에 ‘부호화체계’ 또는 ‘인코딩 스키마(encoding scheme)’라는 용어도 ‘부호화 문자집합’이나 ‘부호화 형식’과 같은 의미로 사용하는 경우가 많다.
  • 3. 유니코드 아스키코드  국제표준으로 제정된 2바  1963년 미국표준협회 이트계의 만국 공통의 국 (ANSI)에 의해 결정되어 제 문자부호 체계(UCS: 미국의 표준부호가 되었 Universal Code System) 다. 미니컴퓨터나 개인용 를 말한다. 애플컴퓨터 컴퓨터(PC)와 같은 소형 ·IBM·마이크로소프트 등 컴퓨터를 중심으로 보급 이 컨소시엄으로 설립한 되어 현재 국제적으로 널 유니코드(Unicode)가 리 사용되고 있다. 1990년에 첫 버전을 발표  아스키는 128개의 가능한 하였고, ISO/IEC JTC1에 문자조합을 제공하는 7비 서 1995년 9월 국제표준 트(bit) 부호로, 처음 32개 으로 제정하였다. 공식 명 의 부호는 인쇄와 전송 제 칭은ISO/IEC 10646- 어용으로 사용된다. 보통 1(Universal Multiple- 기억장치는 8비트(1바이 Octet Coded Character 트, 256조합)이고, 아스키 Set)이다. 는 단지 128개의 문자만 사용하기 때문에 나머지 비트는 패러티 비트나 특 정문자로 사용된다.
  • 4. UTF-8 EUC-KR  UTF-8은 유니코드를 위한 가변 길이  EUC-KR은 KS X 1001와 KS X 1003 문자 인코딩 방식 중 하나로, 켄 톰프 을 사용하는 8비트 문자 인코딩으로, 슨과 롭 파이크가 만들었다. 본래는 EUC의 일종이며 대표적인 한글 완성 FSS-UTF(File System Safe 형 인코딩이기 때문에 보통 완성형이 UCS/Unicode Transformation Format) 라고 불린다. 라는 이름으로 제안되었다.  EUC-KR 인코딩은 다음과 같이 구성  UTF-8 인코딩은 유니코드 한 문자를 된다. 나타내기 위해 1바이트에서 4바이트  128보다 작은 바이트에 KS X 1003을 까지를 사용한다. 예를 들어서, 배당한다. U+0000부터 U+007F 범위에 있는 ASCII 문자들은 UTF-8에서 1바이트  128보다 크거나 같은 바이트에 KS X 만으로 표시된다. 4바이트로 표현되는 1001을 배당한다. 각 글자는 행과 열 문자는 모두 기본 다국어 평면(BMP) 에 128을 더한 코드값을 사용하여 2바 바깥의 유니코드 문자이며, 거의 사용 이트로 표현된다. 되지 않는다. UTF-16과 UTF-8 중 어  따라서 KS X 1001의 40-27에 배당된 느 인코딩이 더 적은 바이트를 사용하 "위"라는 글자는 EUC-KR에서 C0 A7 는지는 문자열에서 사용된 코드 포인 라는 바이트 열로 표현된다. 트에 따라 달라지며, 실제로 DEFLATE와 같은 일반적인 압축 알고  KS X 1001에는 한글 채움 문자를 사 리즘을 사용할 경우 이 차이는 무시할 용하여 규격의 문자 집합에 포함되지 수 있을 정도이다. 이러한 압축 알고리 않은 한글을 표현하는 확장 방법이 있 즘을 사용하기 힘들고 크기가 중요할 지만, 대부분의 경우 이 방법은 EUC- 경우 유니코드 표준 압축 방식을 대신 KR에서 사용되지 않고 대신 CP949와 사용할 수 있다. 같은 다른 방법을 사용하여 KS X 1001 바깥의 현대 한글을 표현한다.
  • 5. ASCII코드  ASCII(American Standard Code for information interchange) 코드는 미국 국립 표준 연구서가 재정한 정보 교환용 미국 표준 코드로서 3비트 의 존(zone)과 4비트의 디지트에 1비트의 패리 bcd코드 티 비트 패리티 비트오류 검츌 코드로 가장 간단  숫자, 영자, 특수 기호를 나타내기 위한 6비트로 이루어지는 코드. 오류 검사용의 1비트가 부가 하게 사용되는 것이 패리티(parity)비트를 사용 되어, 전체로서는 7비트로 구성된다 한 코드다.  보통 컴퓨터의 내부에서 사용되며 특히 주기억 장치에서 사용된다. 서버급 컴퓨터의 주기억장 치 중에서 패리티를 사용하는 메모리 모듈 ebcdic 코드 (ECC:error check correction)을 찾아볼 수 있으  Extended binary coded decimal interchanged 며, 메모리에 저장되거나 전달될 데이터에 패리 code의 약어. 8자리의 2진수를 사용하여 문자, 티를 붙여서 전송한다. 숫자, 구두점 등을 부호화하는 IBM의 시스템. 7 자리의 2진수를 사용하는 ASCII 코드에 비해 두  ASCII코드의 구성은 영대문자와 영소문자, 숫 배의 기호와 제어기능을 표현함. 자, 특수문자, 입출력 장치에 사용하는 제어문자 및 각종 통신용 제어 문자들로 구성되어 있다.  ASCII 텍스트 형식의 특징은 전문을 대상으로 한글코드 한 비통제 탐색이 가능하고, ASCII 코드는 사용  컴퓨터 내부에서 한글을 표시하기 위해 사용되 하는 모든 시스템 및 응용 프로그램 간의 호환이 는 코드로서 행망 표준 코드인 2바이트 완성형 외에도 2바이트 조합형, n바이트형, 3바이트형, 가능하다는 것이다. 7비트 조합형 등이 있음.  그러나 대부분의 문헌이 순수한 텍스트로만 구 성되지 않기 때문에 다양한 비텍스트적 요소를 표현할 수 없고 미국과 일부 유럽의 문자만을 지 원한다는 단점이 있다.