久久精品水蜜桃av综合天堂,久久精品丝袜高跟鞋,精品国产肉丝袜久久,国产一区二区三区色噜噜,黑人video粗暴亚裔

Unicode

來自站長百科
跳轉(zhuǎn)至: 導(dǎo)航、? 搜索
Unicode logo.jpg

Unicode的學(xué)名是(Universal Multiple-Octet Coded Character Set),簡稱為UCS。UNICODE使任何語言的字符都可以為機(jī)器更容易的接受,UNICODE由 UC(UNICODE協(xié)會)管理并接受其技術(shù)上的修改。包括JAVA、LDAPXML這樣的技術(shù)標(biāo)準(zhǔn)中均要求得到UNICODE的支持。UNICODE 的字符被成為代碼點(diǎn)(CODE POINTS),用U后面加上XXXX來表示,其中,X為16進(jìn)制的字符。


Unicode簡介[ ]

對于英文來說,ascii碼 0-127就足以代碼所有字符,對于中文而言,則必須使用兩個字節(jié)(byte)來代表一個字符,具第一個字節(jié)必須大于127(所以我們有許程序判斷中文都是以ascii碼大于127作為條件)。以上用兩個字節(jié)來表示一個中文的方式,在習(xí)慣上稱為雙字節(jié)(即DBCS: Double-Byte Character Set),而相對之下,英文的字符碼就稱為單字節(jié)SBCS(Single-Byte Character Set)。

雖然雙字節(jié)(DBCS)足以解決中英文字符混合使用情況,但對于不同字符系統(tǒng)而言,必須經(jīng)過字符碼轉(zhuǎn)換,非常麻煩。例如:中英文混合情況,日文,韓文等等。為解決這個問題,國際標(biāo)準(zhǔn)組織于1984年4月成立ISO/IEC JTC1/SC2/WG2工作組。針對各國文字、符號進(jìn)行統(tǒng)一性編碼。1991年美國跨國公司成立Unicode Consortium。并于1991年10月與WG2達(dá)成協(xié)議。采用同一編碼字集。目前Unicode是采用16位編碼體系。其字符集內(nèi)容與 ISO10646的BMP(Basic Multilingual Plane)相同。Unicode于1992年6月通過DIS(Draf International Standard)。目前版本V2.0于1996公布。內(nèi)容包含符號6811個。漢字20902個。韓文拼音11172個。造字區(qū)6400個。保留 20249個。共計65534個。

隨著國際互聯(lián)網(wǎng)的迅速發(fā)展。要求進(jìn)行數(shù)據(jù)交換的需求越來越大。不同的編碼體系越來越成為信息交換的障礙。而且多種語言共存的文檔不斷增多。單靠代碼頁已很難解決這些問題。于是UNICODE應(yīng)運(yùn)而生。

UNICODE有雙重含義。首先UNICODE是對國際標(biāo)準(zhǔn)ISO/IEC10646編碼的一種稱謂(ISO/IEC10646是一個國際標(biāo)準(zhǔn)。亦稱大字符集。它是ISO于1993年頒布的一項重要國際標(biāo)準(zhǔn)。其宗旨是全球所有文種統(tǒng)一編碼)。另外它又是由美國的HP、MicrosoftIBM、 Apple等大企業(yè)組成的聯(lián)盟集團(tuán)的名稱。成立該集團(tuán)的宗旨就是要推進(jìn)多文種的統(tǒng)一編碼。

UNICODE同現(xiàn)在流行的代碼頁最顯著不同點(diǎn)在于:UNICODE是兩字節(jié)的全編碼。對于ASCII字符它也使用兩字節(jié)表示。代碼頁是通過高字節(jié)的取值范圍來確定是ASCII字符。還是漢字的高字節(jié)。如果發(fā)生數(shù)據(jù)損壞。某處內(nèi)容破壞。則會引起其后漢字的混亂。UNICODE則一律使用兩個字節(jié)表示一個字符。最明顯的好處是它簡化了漢字的處理過程。

UNICODE使用平面來描述編碼空間。每個平面分為256行。256列。相對于兩字節(jié)編碼的高低兩個字節(jié)。

UNICODE的第一個平面。稱為Basic Multilingual Plane(基本多文種平面)。簡稱BMP。由于BMP僅用兩個字節(jié)表示。所以倍受青睞。

Unicode的最初目標(biāo)。是用1個16位的編碼來為超過65000字符提供映射。但這還不夠。它不能覆蓋全部歷史上的文字。也不能解決傳輸?shù)膯栴} (implantation head-ache's)。尤其在那些基于網(wǎng)絡(luò)的應(yīng)用中。因此。Unicode用一些基本的保留字符制定了三套編碼方式。它們分別是UTF-8,UTF- 16和UTF-32。正如名字所示。在UTF-8中。字符是以8位序列來編碼的。用一個或幾個字節(jié)來表示一個字符。這種方式的最大好處。是UTF-8保留了ASCII字符的編碼做為它的一部分。例如。在UTF-8和ASCII中?!癆”的編碼都是0x41.UTF-16和UTF-32分別是Unicode 的16位和32位編碼方式??紤]到最初的目的。通常說的Unicode就是指UTF-16。

多年來。計算機(jī)普遍采用美國信息交換標(biāo)準(zhǔn)代碼(American Standard Code for Information Interchange,簡稱ASCII碼)來表示字符。這些字符可以是字母。數(shù)字。標(biāo)點(diǎn)符號和控制符。用這種編碼來表示英文在內(nèi)的字符不成問題的。但要表示其它語言文字如。阿拉伯文。中文。日文。維文。哈文…必須進(jìn)行擴(kuò)充。在1987年。Xerox Palo Alto研究中心的Joe Becker和Lee Collins。以及Apple公司的Mark Davis試圖研究一種適用于多文種處理的字符編碼。這種編碼很快就得到了許多大公司的支持。這些公司都派代表參加Unicode研究組。Unicode 的研究得到了較快的進(jìn)展。由于Unicode集團(tuán)的成員都是世界上的主要系統(tǒng)及軟件制造商。所以Unicode很快就成為事實(shí)上的工業(yè)標(biāo)準(zhǔn)。

基于Unicode的系統(tǒng)允許使用65000個不同的字符。足以善蓋世界所有語言的所有字母。外加數(shù)千種符號。

其中。General Scripts區(qū)單獨(dú)收錄了19種語言文字。包括 ASCII,Latin1,Greek,Cyrillic,Armenian,Hedrew,Arabic,Devanagari,Bengali ,Gurmukhi,Gujarati,Oriya,Tamil,Telugu,Kannada,Malayalam,Thai,Lao,Tibetan,Georgian 等語言文字之外。還包括漢語。日語和朝鮮語中的所有大量字符。

Unicode是一種定長的2B多文種字符集編碼。它試圖善蓋現(xiàn)有的有關(guān)國家和地區(qū)的標(biāo)準(zhǔn)。包括GB2312,CNS11643,JIS 0208和KSC 5601等。Unicode可以表示混合文字資料。也可以保證以前的ISO 10646。

Unicode的特點(diǎn)[ ]

不管哪一國的字符碼均以兩個Byte表示,例如"A"在Unicode則是16進(jìn)制 41和00的組合,即4100,高位41(轉(zhuǎn)換為Ascii碼即是65=A),Windows NT/2000以Unicode來表示字符集,例如你可以看到MS SQL Server中產(chǎn)生的SQL文件可以選擇是以Unicode來保存還是以普通格式來保存,如果你以Unicode保存,則在95/98平臺許多軟件均無法正確讀出其格式。


相關(guān)條目[ ]

參考來源[ ]