<address id="p1xx7"></address>
          <form id="p1xx7"></form>

            <form id="p1xx7"></form>

                返回字庫首頁

                生僻字常見問題

                大字庫是不是就能解決生僻字問題?

                答:通常所說的大字庫指的是國家已經頒布編碼標準的,擁有字符數最多的現行字庫。 GB18030-2005是我國現行最新的編碼標準,包含漢字70650個。這個字庫與公安部實際使用的人口信息生僻字庫(即方正人口信息字庫)不同。截止目前,方正人口信息字庫在GB18030-2005標準之上還補了生僻字4787個,增加了GB18030-2005以外的通用規范漢字160個,即方正人口信息字庫比GB18030-2005多了4947個漢字,達到75597個漢字,每年還會應公安部的應用要求及時增補。

                字庫超過10萬字是不是能解決生僻字問題?

                答:字庫實際上有兩個部分,一是字形,就是我們看到字是怎么寫的,二是編碼,每個字符都對應一個編碼。如果一個字庫超過國標,那么多出的字符就是我們所說的自定義補字,而補字的編碼是由補字的一方自己定義的,換句話說,對兩個都有補字的字庫來說,同一個編碼位置所對應的字卻不一樣。實際上超過國標編碼的字庫,都是根據具體需求產生的定制字庫,比如方正人口信息字庫就是在2004年因公安部發行二代身證的需求,在整理全國派出所戶籍、一代身份證等信息后,定制而成的專門解決人口信息中生僻字的字庫。而所謂10萬字的字庫,一般是應古籍整理等方面的需求而產生的定制字庫,方正跟中華書局也有類似的合作字庫,但其并不能替代解決人口信息中的生僻字問題。

                如果我有生僻字的編碼,是不是就可以不用人口信息字庫?

                答:作為臨時性措施,使用生僻字的編碼是可以幫助通過聯網驗證,但其存在不能顯示的問題。生僻字的應用包括是輸入、顯示和聯網驗證。搜狗拼音可以解決個別生僻字的輸入和顯示問題,使用生僻字編碼通過驗證可以臨時應付生僻字的聯網驗證問題。但想要正常使用生僻字,應做到一套方案同時滿足可輸入、可顯示、可驗證和可打印,缺了哪一環節都不是正常使用字庫的方式。同時,目前公開的一直兩碼也僅僅涉及與GBK編碼相關的52個字符,與全部生僻字數量相差甚遠。

                別人說他們的字庫也能解決生僻字庫,我能相信嗎?

                答:人們一般把不認識的字理解為生僻字,而從字庫編碼標準上來講生僻字指的是GBK編碼之外的漢字。目前國家已經頒布的最大字庫編碼標準是GB18030-2005,有70650個漢字,GBK有21003個漢字,在GBK之外有49647個漢字統稱為生僻字。GB18030-2005編碼標準的字庫能解決49647個“生僻字”。方正人口信息生僻字庫比GB18030-2005標準多出來了4947個漢字,也會隨著公安部的生僻字增補及時升級。因此,方正人口信息生僻字庫才能完整解決人口信息生僻字問題。

                我用搜狗拼音能打出生僻字,是不是可以替代人口信息生僻字庫?

                答:搜狗拼音輸入法可以輸入的超出標準范圍的生僻字是搜狗公司自己補的字,編碼是自己定義的,當然和公安在用的人口信息字庫的編碼不同,因此驗證無法通過。另外搜狗拼音也只補了最常見的個別生僻字,與人口信息字庫中自定義生僻字數量相差甚遠。

                是不是我安裝一套人口信息生僻字庫就可以解決生僻字的問題了?

                答:安裝了人口信息生僻字庫,也僅僅是具備了解決生僻字問題的基礎,接下來還需要配套一系列解決方案才能保證我們正常使用生僻字:由于人口信息生僻字庫是在GB18030-2005標準基礎上定制的。國標擴容后,二字節的位置都用盡了,再增加的字都采取了四字節編碼,這樣就要求,應用系統、數據庫存儲都需要支持UTF-8,才能使得應用系統、數據庫“認識”這些字。

                1. 輸入問題,由于人口信息生僻字庫是專門定制的字庫,市面上的輸入法都無法支持從方正人口信息生僻字庫中調用字符,這就需要配套專門輸入法,方正人口信息生僻字庫配套有專門的輸入法。

                2. 移動端、WEB端使用生僻字,由于人口信息生僻字庫屬于大字庫,超過了40M,都下載安裝會占用很大的存儲空間和帶寬。因此,方正字庫專門開發了人口信息生僻云字庫的技術方案,解決了移動端和WEB端的方便使用生僻字的問題。

                3. 信創環境,由于信創環境的變化,原來很多在Windows上的應用,都需重新開發并適配信創環境,方正已經開發適配信創環境的人口信息生僻字庫和典碼輸入法。

                4. 一字兩碼驗證,由于歷史原因,一些生僻字是先補了字,在人口信息生僻字庫使用自定義編碼(PUA編碼),國標擴容之后再賦予了標準碼,這樣某些字就在公安人口信息生僻字庫中存在兩個碼,即一字兩碼。由于身份證發放時間有先后,在國標擴容之前發出的身份證芯片中保存的是PUA編碼,而在國標擴容之后同一個生僻字在芯片中保存的標準碼。因此,對于某些一字兩碼生僻字的聯網驗證,就需要知道這個字的兩個編碼,一個不過,驗另一個,以確保通過驗證。方正字庫會給用戶提供完善的一字兩碼驗證方案。

                所以解決人口信息生僻字問題不僅僅是一個字庫而是一整套方案。

                報名咨詢

                問題交流

                返回頂部

                娇妻被老外撑大了

                        <address id="p1xx7"></address>
                        <form id="p1xx7"></form>

                          <form id="p1xx7"></form>