レポートなどのテキストデータのクラスタリングと異常値検をします。
Doc2Vecにより分散表現したレポートをTSNEにより次元削減したうえで、Kmeans法によりクラスタリングします。クラスターの中心に位置するレポートを指定して、レポートの内容を閲覧できるようにします。これにより、クラスターごとに、どのようなレポートが属しているのかがわかるようにします。
なお、サンプルコードでは、ダウンロードするレポートが少ない(4個)のため実行結果は参考程度としてください。
環境設定とサンプルレポートのダウンロード
特定の日時に作成されたレポートのみ抽出
レポートサイズのヒストグラム作成
Doc2Vecモデルの作成
Doc2Vecモデルによる分散表現作成
TSNEによる次元削減
Kmeans法によるクラスタリング
北海道医療大学 情報センター・情報推進課
お問い合わせ先:情報推進課 ips(at)hoku-iryo-u.ac.jp