# NLTK: Natural Language Toolkit ## Summary [NLTK :: Natural Language Toolkit](https://www.nltk.org/) > NLTK is a leading platform for building Python programs to work with human language data. It provides easy-to-use interfaces to [over 50 corpora and lexical resources](https://www.nltk.org/nltk_data/) such as WordNet, along with a suite of text processing libraries for classification, tokenization, stemming, tagging, parsing, and semantic reasoning, wrappers for industrial-strength NLP libraries, and an active [discussion forum](https://groups.google.com/group/nltk-users). - references - [NLTKの使い方をいろいろ調べてみた - Qiita](https://qiita.com/m__k/items/ffd3b7774f2fde1083fa) ## 日本語 [NLTK Japanese Corpora - NLTKで使える日本語コーパス](https://masatohagiwara.net/nltk-japanese-corpus.html) - ここでは、自由に利用可能な日本語のコーパスを2つ紹介し、それらに対応した CorpusReader を配布しています。 - KNB Corpus (Annotated blog corpus) KNB (解析済みブログ)コーパス - KNB コーパスは、再配布可能な日本語タグ付きブログコーパスで、249記事、4,189文から成ります。形態素、構文、格・省略・照応、評判情報を含んでいます。 - JEITA Public Morphologically Tagged Corpus (in ChaSen format) - JEITA 形態素解析済み コーパス (ChaSen 形式) - 本コーパス 「JEITA 形態素解析済みコーパス (ChaSen 形式)」は、[プロジェクト杉田玄白](http://www.genpaku.org/) と[青空文庫](http://www.aozora.gr.jp/) のテキストを自動で形態素解析した、フリーで利用可能なタグ付きコーパスです。本コーパスは、本来、「JEITA 形態素解析済みコーパス」として配布されていたデータに基づいています。 - ただし、本コーパスに含まれているファイルは上記JEITA 形態素解析済みコーパスの配布データそのものではなく、プログラムからのアクセスを容易にするために ChaSen のファイル形式に変換してあります。ChaSen の詳細については[ChaSen のオフィシャルサイト](http://chasen-legacy.sourceforge.jp/)を参考にしてください。