發新話題

中日韓統一表意文字

本帖已經被作者加入個人空間

中日韓統一表意文字

中日韓統一表意文字(英語:CJK Unified Ideographs),目的是要把分別來自中文、日文、韓文、越文中,本質相同、形狀一樣或稍異的表意文字(主要為漢字,但也有仿漢字如日本國字、韓國獨有漢字、越南的喃字)於ISO 10646及Unicode標準內賦予相同編碼。

越南文後來加入此計劃,所以亦有CJKV(中日韓越統一表意文字)的稱呼。Unicode亦開始收錄其仿漢字——喃字。

版本歷史
於1990年代初ISO 10646制訂時,來自台灣的代表提出將源自中國的中日韓漢字予以統一(Unify,ISO術語稱為認同),可以大量節省編碼空間,獲其他代表接納。

字源
最初期統一漢字
最初期的統一漢字(20,902字)字源來自以下字集:

    * 中國大陸的G源
          o G0:GB 2312-80:6,763字
          o G1:GB 12345-90:2,352字(含58個香港字和92個吏讀字,不包括和GB 2312重複的字)
          o G3:GB 7589-87 繁體字:7,237字
          o G5:GB 7590-87 繁體字:7,039字
          o G7:現代漢語通用字表:642(G0, 1, 3, 5, 8未包括的字)
          o G8:GB 8565-89:290字(G0, 1, 3, 5未包括的字)
    * 台灣的T源
          o T1:CNS 11643-1986第一字面:5,401+9字(含9個計量用漢字)
          o T2:CNS 11643-1986 第二字面:7,650字
          o TE:CNS 11643-1986 第十四字面:6,319+239+10(含239個CCCII特字和10個XCCS特字
    * 日本的J源
          o J0:JIS X 0208-90:6,335+1字
          o J1:JIS X 0212-90:5,801字
    * 南韓的K源
          o K0:KS C 5601-87:4,888字(含268個重見字)
          o K1:KS C 5657-91:2,856字

以上的來源字集會實施字源分離原則。

另外還有:EACC的ANSI Z39.64-1989、Big5、CCCII第一面、GB 12052-89、JEF、中國大陸電報碼、台灣電報碼、Xerox Chinese等字集來源。

擴展A區
擴展A區包含有6,582個新的漢字,位置在 U+3400—U+4DB5。這6千多個漢字分別從以下字典或字集中取得:

    * 中國大陸
          o GE:GB 16500-95
          o GS:新加坡漢字
    * 台灣
          o T3:CNS 11643-1992第三字面(原本為CNS 11643-1986第十四字面)新加入字元
          o T4:CNS 11643-1992 第四字面
          o T5:CNS 11643-1992 第五字面
          o T6:CNS 11643-1992 第六字面
          o T7:CNS 11643-1992 第七字面
          o TF:CNS 11643-1992 第十五字面
    * 日本
          o JA: Unified Japanese IT Vendors Contemporary Ideographs, 1993
    * 南韓
          o K2:PKS C 5700-1:1994
          o K3:PKS C 5700-2:1994
    * 越南
          o V0:TCVN 5773:1993
          o V1:TCVN 6056:1995



擴展B區
擴展B區包含有42,711個新的漢字,位置在 U+20000—U+2A6D6。根據 IRG N777號文件,這四萬多個漢字分別從以下字典或字集中取得:

    * 《康熙字典》中出現的18,486個未收錄漢字(包括一個在補遺篇出現的漢字);
    * 《漢語大字典》中出現的28,914個未收錄漢字;
    * 《辭源》中出現的66個未收錄漢字;
    * 《辭海》中出現的247個未收錄漢字;
    * 《漢語大詞典》中出現的553個未收錄漢字;
    * 《中國大百科全書》中出現的86個未收錄漢字;
    * 北大方正排版系統中出現的65個未收錄漢字;
    * 《四庫全書》中出現的522個未收錄漢字;
    * 香港增補字符集中出現的1,081個未收錄漢字;
    * 日本工業標準的JIS X 0213第3平面及第4平面的302個未收錄漢字;
    * 南韓1998中出現的166個未收錄漢字;
    * 北韓 KPS 9566-97 和 KPS 10721-2000 國家標準所收錄的5,642個漢字;
    * 台灣CNS 11643的第4至7和15平面所收錄的30,177個漢字;
    * 越南 TCVN、VHN 01:1998 和 VHN 02:1998 所收錄的4,232個字喃;

這堆漢字中重複的漢字有不少,所以經過整理之後,實際總數只有42,711個漢字。

另外,在 U+2F800—U+2FA1D 的位置,放了542個來自台灣的兼容漢字。

Unicode 4.1漢字
為使 Unicode 向下兼容GB 18030和香港增補字符集(HKSCS)的所有漢字,而擴展C區又遲遲未能出籠,在 Unicode 4.1 版中引進了14個香港增補字符集的用字和8個 GB 18030 用字。該22字被編於 U+9FA6—U+9FBB 的位置。

另外,在 U+FA70—U+FAD9 的位置,放了106個來自北韓的兼容漢字。

擴展C區
按計劃,中日韓統一表意文字擴展C區將收錄4,251個漢字,包括來自中國大陸、澳門、台灣、日本、越南等尚未被編碼的漢字。這些漢字預計會收錄在下一版的 Unicode 版本中,位置在 U+2A6E0—U+2B77A。根據 IRG N1266號文件,這四千多個漢字分別從以下字典或字集中取得:

    * 中國大陸
          o 《中國大百科全書》
          o 北大方正排版系統
          o 《漢語大字典》
          o 《漢語大詞典》
          o 《古代漢語詞典》
          o 商務印書館用字
          o 《現代漢語詞典》
          o 《辭海》
          o 《康熙字典》及補遺
          o 中國測繪科學研究院用字
          o 《漢語方言大辭典》
          o 殷周金文集成引得
    * 澳門
          o 澳門資訊系統字集
    * 台灣
          o CNS 11643-1992第12字面
          o CNS 11643-1992 第13字面
          o CNS 11643-1992 第14字面
    * 日本
          o 日本國字集(Japanese KOKUJI Collection)
    * 南韓
          o 韓國 IRG 漢字集第5版(Korean IRG Hanja Character Set 5th Edition: 2001)
    * 北韓
          o KPS 10721:2003
    * 越南
          o 喃字典(Từ điển chữ Nôm), Nguyễn Quang Hồng, 2006
          o Từ điển chữ Nôm Tày, Hoàng Triều Ân, 2003
          o Bảng tra chữ Nôm miền Nam, Vũ Văn Kính, 1994
    * UTC來源
          o ABC Chinese-English Dictionary, John DeFrancis(德范克), et al., eds., 2nd edition. (1998) Honolulu: University of Hawaii Press
          o 耶穌基督後期聖徒教會香港分會用字
          o Mathews' Chinese-English Dictionary, Robert H. Mathews (1975) Cambridge; Harvard University Press
          o 宋本《廣韻》
          o 《中國鳥類系統檢索》,鄭作新等(2000),北京,科學出版社
          o 段玉裁《說文解字注》



字源分離原則
字源分離原則(Source Separation Rule)是整理中日韓統一表意文字的基礎。

由於CJK各地字型多有微妙的差異,如「戶」字的第一筆,台灣作撇「戶」、中國大陸作點「戶」、日本作橫「戶」,這種程度的差異,理想上是整併為一個字為佳。然而,從之前各種受挫之文字整併計劃的經驗得知,整合字集與現行通用字集(Big5或國標碼)等無法一一對應,是推行整合字集的最大阻礙。

例如,日本的JIS標準同時收錄了「」字與「」字,原本JIS文件裡這兩個字可以並存,但採用整合字集後反而變成同一個字,會造成使用上的困擾。於是,字源分離原則因而誕生。

字源分離原則是指,在上述所列出之各種字源裡,若有任何字集同時收了兩種以上的文字字形,則在Unicode中日韓統一表意文字中,也同時收錄這些字。這樣一來,現行的各種原有字集與Unicode漢字可以一一對應。

由於Unicode中日韓統一表意文字的主要訴求,就是能大幅減少Unicode收錄漢字字數,同時尊重各地的習慣字形。但字源分離原則則破壞了「只對字,而不對字形」編碼之原則,亦遭受不少批評。

已統一的漢字
原則上ISO 10646只對字(Character),而非字形(Glyph)編碼。同一字各地可使用自己的標準寫法。下例中使用HTML標示同一編碼的字在不同地區中的寫法(但只是閣下電腦提供的字型,未必代表該地區的標準寫法)。

例子:
Unicode中文日文韓文
中國大陸台灣香港
U+6D2A
U+6F22
U+76F4
U+7A97
U+89D2
U+8D77
U+9AA8

註:不是所有瀏覽器均可分辨「中文-香港」(zh-hk)此一HTML的語言代碼(Language Code)並使用不同的字形。如閣下看到的字形和中國大陸的字形一樣,表示閣下的瀏覽器不能分辨此標籤,或設定兩者以同一種字形顯示。截至2005年6月,只有Firefox和Mozilla瀏覽器支援此標籤。詳見 Test results: Automatic font assignment for CJK text。

沒有統一的漢字
有些字只是同一字在不同地區的寫法,理應統一,但因為字源分離原則而只好分開編碼。值得注意的是字源分離原則由「把不正統的編入位於基本多文種平面的「相容表意文字區」(Compatibility Ideographs)」起廢棄,原因是CNS中有太多字形非常接近,按 Unicode 標準應該統一的字。這些字只有正統的會編入正式字集(包括擴展A、B、C區)中,不正統的編入位於「第二輔助平面」的「相容表意文字補充區」(Compatibility Ideographs Supplement)中。

TOP

發新話題

本站所有圖文均屬網友發表,僅代表作者的觀點與本站無關,如有侵權請通知版主會盡快刪除。