home about terms

日本語の文章データベース(コーパス)の調査

date: 2021-05-17 | mod: 2021-05-17

index

目的

  • 国語教育で使える日本語コーパスを見つけたい。
  • 自然言語処理に使えるコーパスを見つけたい。
  • ある漢字の入力に対して、それを含めた例文のみ表示させたい。

コーパスとは

以下引用文

コーパス(日: 集成・全文献,英: corpus)は、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化し、言語的な情報(品詞、統語構造など)を付与している。 (Wikipedia 2021/05/17閲覧)

  • 機能語用例データベース「はごろも」
    • 利用申請必要
    • 研究・教育用に限定
  • 日本語教育語彙表
    • 研究・教育用に限定
  • 日本語 WordNet
    • 利用申請不要
    • SQLite版あり
  • 現代日本語書き言葉均衡コーパス(BCCWJ)
    • 登録制と登録不要あり
      • 登録不要は「少納言」(公開一時停止中)
      • 代替検索サイト「梵天」
        • ウェブサービスのみ

代替案:コーパスが使えない時

まだ特定の漢字を習っていない相手に適切な文を示すことが目的の場合

  • 習っていない漢字の時はひらがなに変換する。
  • Pythonで漢字をひらがなにする方法
    • pykakasi