Your SlideShare is downloading. ×
0
PTM - Unicode
PTM - Unicode
PTM - Unicode
PTM - Unicode
PTM - Unicode
PTM - Unicode
PTM - Unicode
PTM - Unicode
PTM - Unicode
PTM - Unicode
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

PTM - Unicode

657

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
657
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Unicode<br />Bruno Pinto<br />Nº43876<br />
  • 2. ASCII<br />O computador e o utilizador comunicam-se com uma linguagem diferente. Enquanto utilizamos símbolos, textos, gráficos, sons e imagens para nos comunicar, o computador utiliza exclusivamente estados lógicos na representação binária sendo então necessário um código para estabelecer um canal de comunicação entre os dois. <br />Ao princípio não existia um consenso e cada fabricante de computador procurava definir seu próprio código de comunicação. O AmericanNational Standards Institute (ANSI) estabeleceu um código denominado ASCII “American Standard Code For InformationInterchange” que se tornou um padrão para os computadores pessoais.<br />A um mesmo valor do código ASCII podem estar associados símbolos diferentes, dependendo da função a ser executada. Um mesmo código pode produzir resultados diferentes quando for enviado para uma impressora ou para o vídeo.<br />O código ASCII original tem 128 caracteres. Os primeiros 32(20h) caracteres não têm uma representação gráfica e são usados para controlo dos protocolos de comunicação. No projecto do PC, a IBM estendeu o código original de modo a:Criar símbolos gráficos para 32 primeiros caracteresEstender para 256 o número de caracteres possíveisCriar um conjunto de caracteres especiais para aceitar as diversas associações do teclado.<br />2<br />TPM - Bruno Pinto<br />
  • 3. 3<br />TPM - Bruno Pinto<br />
  • 4. ISO 8859<br />A ISO 8859 é um conjunto de caracteres ISO (InternationalOrganization for Standardization), que é uma extensão ao código ASCII. Inclui caracteres acentuados.<br />Foram normalizados os conjuntos de caracteres de 8 bits, agrupando as variantes de idiomas relacionados geograficamente.<br />Não é de longe tão completo como o Unicode mas tem sido utilizável por algum tempo. <br />A ISO 8859 foi criada na década de 80 pela European Computer Manufacturer&apos;s Association (ECMA) e apoiadopela ISO. A ediçãosaídaem 1998 vemcomotodososnúmeros do Unicode. <br />4<br />TPM - Bruno Pinto<br />
  • 5. ISO 8859-1<br />A ISO 8859-1 (conhecida como Latin1) abrange a maioria dos idiomas da Europa Central (tal como Portugal) .<br />É o conjunto de caracteres padrão geralmente utilizados na maioria dos navegadores.<br />Os primeiros 128 caracteres do ISO 8859-1 são os caracteres originais do conjunto ASCII.<br />A maior parte da norma ISO 8859-1 (códigos 160-255) contém os caracteres usados em países da Europa Ocidental e alguns usados caracteres especiais. <br />5<br />TPM - Bruno Pinto<br />
  • 6. Unicode<br />O Unicode é um padrão que permite aos computadores manipular e representar texto de qualquer sistema de escrita existente. <br />O reportório tem cerca de 100.000 caracteres (tal como a ISO 10646), diagramas de códigos para referência visual, metodologia para codificação e um conjunto de codificações padrões caracteres, decomposição, etc.<br />Actualmente é desenvolvido pela Unicode Consortiumque é uma organização sem fins lucrativos. O desenvolvimento é feito em conjunto com a ISO. <br />O Unicode possui o objectivo de transcender as limitações de codificações de caracteres tradicionais, que possuem grande uso em vários países mas que permanecem em sua maioria incompatíveis umas com as outras. <br />Existem dois métodos possíveis para mapear os códigos Unicode em códigos de implementação que são eles o UCS (Universal CharacterSet) e o UTF (Unicode TransformationFormat). <br />6<br />TPM - Bruno Pinto<br />
  • 7. ISO 10646<br />A ISO 10646 define o Conjunto Universal de Caracteres como uma codificação de caracteres. Ela tem cerca de 100.000 códigos identificados por um nome não ambíguo, que representam símbolos tal como letras e números.<br />Desde 1991, a Unicode Consortium vêm trabalhando com a ISO para desenvolver o padrão Unicode e a ISO/IEC 10646 em conjunto. Após a publicação do Unicode 3.0 em Fevereiro de 2000, novos e actualizados caracteres correspondentes foram inseridos no UCS através da ISO/IEC 10646-1:2000.<br />Unicode e ISO 10646 tem uma certa relação entre ambas.<br />Esta relação ocorreu quando em 1991 o grupo de trabalho do ISO responsável pela ISO 10646 e Unicode Consortium decidiram criar um padrão universal de codificação de texto multi-linguagem. <br />Desde então os dois trabalham juntos para alargar o padrão e para manter as suas respectivas versões sincronizadas.<br />7<br />TPM - Bruno Pinto<br />
  • 8. UCS-4<br />UCS-4 ou UTF-32 são nomes alternativos para o método de codificação de caracteres, usando a quantidade fixa de 32 bits para cada caracteres Unicode.<br />Pode ser considerado como a forma de codificação mais simples tal como os outros UTF.<br />UCS-4 e UTF-32 podem ser considerados idênticos, salvo que o padrão UTF-32 possui semântica Unicode adicional que precisa ser observada.<br />8<br />TPM - Bruno Pinto<br />
  • 9. UCS-2 e UTF-16<br />UTF-16 e UCS-2 são formatos de transformação Unicode (UnicodeTransformationFormat) com 16 bits.<br />UTF-16 possui uma largura variável capaz de codificar todo o reportório Unicode. <br />UCS-2 foi substituída pela UTF-16 no Unicode versão 2.0 mas ainda se encontra em uso. A forma de codificação do UCS-2 é idêntica à do UTF-16.<br />Devido às semelhanças técnicas e de compatibilidade com UCS-2 e UTF-16, as duas codificações são muitas vezes confundidas e usadas como se trocáveis, de modo que as strings codificados em UTF-16 são, por vezes identificadas como sendo codificadas em UCS-2.<br />9<br />TPM - Bruno Pinto<br />
  • 10. UTF-8<br />UTF-8 é um tipo de codificação Unicode de 8 bits.<br />Pode representar qualquer carácter universal padrão do Unicode, sendo também <br />compatível com o ASCII. Por esta razão, está lentamente a ser adoptado como tipo de codificação padrão para email, páginas Web, e outros locais onde os caracteres são armazenados.<br />10<br />TPM - Bruno Pinto<br />

×