Unicode

Unicode的學(xué)名是(Universal Multiple-Octet Coded Character Set)，簡(jiǎn)稱為UCS。UNICODE使任何語言的字符都可以為機(jī)器更容易的接受,UNICODE由 UC(UNICODE協(xié)會(huì))管理并接受其技術(shù)上的修改。包括JAVA、LDAP、XML這樣的技術(shù)標(biāo)準(zhǔn)中均要求得到UNICODE的支持。UNICODE 的字符被成為代碼點(diǎn)（CODE POINTS），用U后面加上XXXX來表示，其中，X為16進(jìn)制的字符。

Unicode簡(jiǎn)介[ ]

對(duì)于英文來說，ascii碼 0-127就足以代碼所有字符，對(duì)于中文而言，則必須使用兩個(gè)字節(jié)(byte)來代表一個(gè)字符，具第一個(gè)字節(jié)必須大于127(所以我們有許程序判斷中文都是以ascii碼大于127作為條件)。以上用兩個(gè)字節(jié)來表示一個(gè)中文的方式，在習(xí)慣上稱為雙字節(jié)(即DBCS: Double-Byte Character Set)，而相對(duì)之下，英文的字符碼就稱為單字節(jié)SBCS(Single-Byte Character Set)。

雖然雙字節(jié)(DBCS)足以解決中英文字符混合使用情況，但對(duì)于不同字符系統(tǒng)而言，必須經(jīng)過字符碼轉(zhuǎn)換，非常麻煩。例如：中英文混合情況，日文，韓文等等。為解決這個(gè)問題，國(guó)際標(biāo)準(zhǔn)組織于1984年4月成立ISO/IEC JTC1/SC2/WG2工作組。針對(duì)各國(guó)文字、符號(hào)進(jìn)行統(tǒng)一性編碼。1991年美國(guó)跨國(guó)公司成立Unicode Consortium。并于1991年10月與WG2達(dá)成協(xié)議。采用同一編碼字集。目前Unicode是采用16位編碼體系。其字符集內(nèi)容與 ISO10646的BMP（Basic Multilingual Plane）相同。Unicode于1992年6月通過DIS（Draf International Standard）。目前版本V2.0于1996公布。內(nèi)容包含符號(hào)6811個(gè)。漢字20902個(gè)。韓文拼音11172個(gè)。造字區(qū)6400個(gè)。保留 20249個(gè)。共計(jì)65534個(gè)。

隨著國(guó)際互聯(lián)網(wǎng)的迅速發(fā)展。要求進(jìn)行數(shù)據(jù)交換的需求越來越大。不同的編碼體系越來越成為信息交換的障礙。而且多種語言共存的文檔不斷增多。單靠代碼頁已很難解決這些問題。于是UNICODE應(yīng)運(yùn)而生。

UNICODE有雙重含義。首先UNICODE是對(duì)國(guó)際標(biāo)準(zhǔn)ISO/IEC10646編碼的一種稱謂（ISO/IEC10646是一個(gè)國(guó)際標(biāo)準(zhǔn)。亦稱大字符集。它是ISO于1993年頒布的一項(xiàng)重要國(guó)際標(biāo)準(zhǔn)。其宗旨是全球所有文種統(tǒng)一編碼）。另外它又是由美國(guó)的HP、Microsoft、IBM、 Apple等大企業(yè)組成的聯(lián)盟集團(tuán)的名稱。成立該集團(tuán)的宗旨就是要推進(jìn)多文種的統(tǒng)一編碼。

UNICODE同現(xiàn)在流行的代碼頁最顯著不同點(diǎn)在于：UNICODE是兩字節(jié)的全編碼。對(duì)于ASCII字符它也使用兩字節(jié)表示。代碼頁是通過高字節(jié)的取值范圍來確定是ASCII字符。還是漢字的高字節(jié)。如果發(fā)生數(shù)據(jù)損壞。某處內(nèi)容破壞。則會(huì)引起其后漢字的混亂。UNICODE則一律使用兩個(gè)字節(jié)表示一個(gè)字符。最明顯的好處是它簡(jiǎn)化了漢字的處理過程。

UNICODE使用平面來描述編碼空間。每個(gè)平面分為256行。256列。相對(duì)于兩字節(jié)編碼的高低兩個(gè)字節(jié)。

UNICODE的第一個(gè)平面。稱為Basic Multilingual Plane（基本多文種平面）。簡(jiǎn)稱BMP。由于BMP僅用兩個(gè)字節(jié)表示。所以倍受青睞。

Unicode的最初目標(biāo)。是用1個(gè)16位的編碼來為超過65000字符提供映射。但這還不夠。它不能覆蓋全部歷史上的文字。也不能解決傳輸?shù)膯栴} (implantation head-ache's)。尤其在那些基于網(wǎng)絡(luò)的應(yīng)用中。因此。Unicode用一些基本的保留字符制定了三套編碼方式。它們分別是UTF-8，UTF- 16和UTF-32。正如名字所示。在UTF－8中。字符是以8位序列來編碼的。用一個(gè)或幾個(gè)字節(jié)來表示一個(gè)字符。這種方式的最大好處。是UTF－8保留了ASCII字符的編碼做為它的一部分。例如。在UTF－8和ASCII中?！癆”的編碼都是0x41.UTF－16和UTF－32分別是Unicode 的16位和32位編碼方式?？紤]到最初的目的。通常說的Unicode就是指UTF-16。

多年來。計(jì)算機(jī)普遍采用美國(guó)信息交換標(biāo)準(zhǔn)代碼（American Standard Code for Information Interchange，簡(jiǎn)稱ASCII碼）來表示字符。這些字符可以是字母。數(shù)字。標(biāo)點(diǎn)符號(hào)和控制符。用這種編碼來表示英文在內(nèi)的字符不成問題的。但要表示其它語言文字如。阿拉伯文。中文。日文。維文。哈文…必須進(jìn)行擴(kuò)充。在1987年。Xerox Palo Alto研究中心的Joe Becker和Lee Collins。以及Apple公司的Mark Davis試圖研究一種適用于多文種處理的字符編碼。這種編碼很快就得到了許多大公司的支持。這些公司都派代表參加Unicode研究組。Unicode 的研究得到了較快的進(jìn)展。由于Unicode集團(tuán)的成員都是世界上的主要系統(tǒng)及軟件制造商。所以Unicode很快就成為事實(shí)上的工業(yè)標(biāo)準(zhǔn)。

基于Unicode的系統(tǒng)允許使用65000個(gè)不同的字符。足以善蓋世界所有語言的所有字母。外加數(shù)千種符號(hào)。

其中。General Scripts區(qū)單獨(dú)收錄了19種語言文字。包括 ASCII，Latin1，Greek，Cyrillic，Armenian，Hedrew，Arabic，Devanagari，Bengali ，Gurmukhi，Gujarati，Oriya，Tamil，Telugu，Kannada，Malayalam，Thai，Lao，Tibetan，Georgian 等語言文字之外。還包括漢語。日語和朝鮮語中的所有大量字符。

Unicode是一種定長(zhǎng)的2B多文種字符集編碼。它試圖善蓋現(xiàn)有的有關(guān)國(guó)家和地區(qū)的標(biāo)準(zhǔn)。包括GB2312，CNS11643，JIS 0208和KSC 5601等。Unicode可以表示混合文字資料。也可以保證以前的ISO 10646。

Unicode的特點(diǎn)[ ]

不管哪一國(guó)的字符碼均以兩個(gè)Byte表示，例如"A"在Unicode則是16進(jìn)制 41和00的組合，即4100，高位41(轉(zhuǎn)換為Ascii碼即是65=A)，Windows NT/2000以Unicode來表示字符集，例如你可以看到MS SQL Server中產(chǎn)生的SQL文件可以選擇是以Unicode來保存還是以普通格式來保存，如果你以Unicode保存，則在95/98平臺(tái)許多軟件均無法正確讀出其格式。

參考來源[ ]

參考來源

久久精品水蜜桃av综合天堂,久久精品丝袜高跟鞋,精品国产肉丝袜久久,国产一区二区三区色噜噜,黑人video粗暴亚裔

WIKI使用導(dǎo)航

站長(zhǎng)百科導(dǎo)航

站長(zhǎng)專題

Unicode

目錄

Unicode簡(jiǎn)介[ ]

Unicode的特點(diǎn)[ ]

相關(guān)條目[ ]

參考來源[ ]