pinyin-data
汉字拼音数据。
数据介绍
拼音数据的格式:
{code point}: {pinyins} # {hanzi} {comments}
-
以
#
开头的行是注释,行内#
后面的字符也是注释 -
{pinyins}
中使用逗号分隔多个拼音 -
示例:
# 注释 U+4E2D: zhōng,zhòng # 中
拼音文件介绍:
kTGHZ2013.txt
: Unihan Database 中 kTGHZ2013 部分的拼音数据(来源于《通用规范汉字字典》的拼音数据)kHanyuPinyin.txt
: Unihan Database 中 kHanyuPinyin 部分的拼音数据(来源于《漢語大字典》的拼音数据)kXHC1983.txt
: Unihan Database 中 kXHC1983 部分的拼音数据(来源于《现代汉语词典》的拼音数据)kHanyuPinlu.txt
: Unihan Database 中 kHanyuPinlu 部分的拼音数据(来源于《現代漢語頻率詞典》的拼音数据)kMandarin.txt
: Unihan Database 中 kMandarin 部分的拼音数据(普通话中最常用的一个读音。zh-CN 为主,如果 zh-CN 中没有则使用 zh-TW 中的拼音)kMandarin_overwrite.txt
: 手工纠正kMandarin.txt
中有误的拼音数据(可以修改)GBK_PUA.txt
: Private Use Area 中有拼音的汉字,参考 GB 18030 - 维基百科,自由的百科全书 (可以修改)nonCJKUI.txt
: 不属于 CJK Unified Ideograph 但是却有拼音的字符(可以修改)kanji.txt
: 日本自造汉字 的拼音数据 (可以修改)kMandarin_8105.txt
: 《通用规范汉字表》(2013 年版)里 8105 个汉字最常用的一个读音 (可以修改)overwrite.txt
: 手工纠正的拼音数据(可以修改)pinyin.txt
: 合并上述文件后的拼音数据zdic.txt
: 汉典网 的拼音数据(可以修改)cc_cedict.txt
: 根据 cc-cedict.org 的词语拼音数据生成的单个汉字拼音数据
Unihan Database 数据版本:
Date: 2022-08-01 16:36:07 GMT [JHJ]
Unicode version: 15.0.0
修改数据
- 上面标注了 可以修改 字样的文件都可以直接修改
- 如果汉字的拼音不需要修改,只是调整第一个读音的话,可以直接修改
kMandarin_8105.txt
这个文件 - 执行
merge_unihan
命令可以按照合并规则生成最新的pinyin.txt
文件 - 进入 unihan 目录,执行
make update
命令可以更新最新的 Unihan 数据
参考资料
- 汉语拼音方案
- Unihan Database Lookup
- 汉典 zdic.net
- 字海网,叶典网
- 国学大师_国学网
- Unicode、GB2312、GBK和GB18030中的汉字
- GB 18030 - 维基百科,自由的百科全书
- 通用规范汉字表 - 维基百科,自由的百科全书
- China’s 通用规范汉字表 (Tōngyòng Guīfàn Hànzìbiǎo)
- 日本汉字的汉语读音规范
- 日本汉字的汉语普通话规范读音表- 维基百科
- 漢語大字典(第二版)
相关项目
- mozillazg/phrase-pinyin-data: 词语拼音数据
- mozillazg/python-pinyin: 汉字转拼音(pypinyin)
- mozillazg/pypinyin-dict: 在 pypinyin 项目中使用 pinyin-data 里不同数据文件里的数据