n-gram、共起ネットワーク(1)

環境設定

Google colaboratoryで実行できます

本プログラムに必要なライブラリをインストールします

(1)Wikipediaから指定したキーワードに関するページの文章を読み込みます。

keywordで指定した単語に関するページをWikipediaで検索して、その中から、keyword_indexで指定したページを読み込みます。









(2)n-gram(n個の連続する単位(n-gram)での単語出現回数)のn値を変えながら、連続した単語(名詞)の出現回数を可視化してください。

ngramで指定した個数をn値とします


(3)ストップワード(出現頻度の高すぎる単語の除去)の設定をしてください。

top_nで指定した出現頻度の高い単語を除去します。


(4)共起語(あるキーワードに対して頻繁に出現する単語)算出のためのパラメータ(min_edge_frequecy)を設定してください。node_size(円):50程度, edge_size(線):100程度を目安としてください。




(5)パラメータ(min_edge_frequecy)を調整しながら、「在宅医療」のWikipediaのページについての共起ネットワークを描画して、その結果から「読み取れた内容(文章)」を回答してください。また、Wikipediaのページを直接読解した内容とを比較して、共起ネットワークから「読み取れなかった重要な内容(文章)」を回答してください。


北海道医療大学・情報センター