ITAコーパスの文章リスト公開用リポジトリ
合計424文からなる,音素バランスを考慮したパブリックドメインの日本語テキストコーパスです.
ITAコーパスとは
著作権の消滅した文献やオリジナルの文章・単語から文セットを構築することで,パブリックドメインで公開される文章コーパスです.日本語の単語では出現しにくいモーラも一定量カバーしつつも読みやすさを考慮しています.424文は,100文 (Emotion)と324文 (Recitation)のサブセットで構成されており,用途に応じて使い分けることが可能です.分野横断的研究を加速させるコーパスをという思いを込めて,Inter-field Task Accelerating (ITA)コーパスと命名しました.
ITAコーパスの文献情報
- 小口純矢,金井郁也,小田恭央,齊藤剛史,森勢将雅:ITAコーパス:パブリックドメインの音素バランス文からなる日本語テキストコーパスの構築と基礎評価,情報処理学会研究報告,vol. 2021-MUS-131, no. 31, pp. 1-6, 2021.
ファイル構成
音声のファイル名と対応付けることを意識した.txtファイルと,朗読者向けに印刷して配布する.docxと.pdfファイルを用意しました.用途に応じてご自由にご利用ください.
- emotion_transcript_utf8.txt
- emotion_朗読者用.docx
- emotion_朗読者用.pdf
- recitation_transcript_utf8.txt
- recitation_朗読者用.docx
- recitation_朗読者用.pdf
ITAコーパスを朗読した音声データベースの例(ライセンス等は制作者のサイトをご確認ください)
- 読唇マルチモーダルデータベース [https://zunko.jp/multimodal_dev/login.php]
- 松風様のITAコーパス朗読データ [https://drive.google.com/drive/folders/1hIPDU2blUdWr_YyweaohsbYVT8Z62Qgy]
- Vtuberコフィン ITAコーパス収録素材集 [https://booth.pm/ja/items/3382115]
- あみたろの声素材工房 [http://amitaro.net/]
- 刻鳴時雨ITAコーパス読み上げ音声素材 [https://booth.pm/ja/items/3640133]
- 話速変換コーパス:SpeedSpeech-JA-2022 [https://ast-astrec.nict.go.jp/release/speedspeech_ja_2022/download.html]
ライセンス情報
パブリックドメインです.これは義務ではありませんが,データベース等を構築した場合,お知らせ頂ければ上記の例に記載させて頂きます.
開発者
- プロジェクト総括:小田恭央(SSS合同会社)
- プロジェクト管理:金井郁也(明治大学)
- 文章作成・管理:小口純矢(明治大学)
- 文章抽出:細田計
- アドバイザ:齊藤剛史(九州工業大学),森勢将雅(明治大学)
修正履歴
- 2021/06/17: 最初のアップロード