言語資源とは

言語資源とは

言語のデータセット。

自分で作るのは大変なので既存のものを利用するのが吉。

単語などの言語資源である辞書や、文章の言語資源であるコーパスなどの総称。

まずは辞書とコーパスを理解すれば良いと思います。

 

辞書

特定の言語単位のリスト。語彙資源、語彙目録ともいう。

言語単位としては単語や形態素などが一般的。

 

もっともシンプルなものでは単に要素(単語)が羅列してあるだけの辞書もある。

情報がリッチなものでは以下の項目が単語ごとに付随する

  • 品詞
  • 定義
  • 発音
  • 読み
  • 語形変化

 

シソーラス

単語間の上位下位の概念を付与したものをシソーラスという。

例えば「犬」は「動物」の下位、「チワワ」の上位

 

例:WordNet(厳密にはシソーラスよりも情報量が多く、辞書とシソーラスを複合したようなもの)

 

コーパス

テキストのデータセット。複数形はcorpora。

品詞や構文解析がされているものがある。

その特徴によって統語構造が付与されているツリーバンク、対訳のセットになっている対訳コーパスなど細かく分類することも可能。

タグ付けがされているものをannotated corpusと総称する。

一般にコーパスといえば、何かしらのタグ付けがされているものを指す。

 

例えばニュース文書のコーパスは単純にテキストデータだけではなく、以下のような処理が行われている。

  • 文章ごとの区分
  • 単語ごとの品詞タグ付け
  • 構文解析

 

例:Brown Corpus

例:Penn Treebank

 

参考

入門 自然言語処理

入門 自然言語処理
Posted with Amakuri at 2018.6.8
Steven Bird, Ewan Klein, Edward Loper
オライリージャパン

 

 

 

コメントを残す