2019年5月2日木曜日

KHコーダ(KHcoder)でテキストマイニング  ~ 共起ネットワーク その1 ~


KHコーダにはいくつかの分析コマンドがあるが、今回は主に共起ネットワークを使用することにした。共起とは、ある単語と別の限られた単語が頻繁に出現することである。
このコマンドを用いることにより出現パターンの似通った語を線(edge)で結んだネットワークを描画することが出来る。そこからテーマないしはトピックを読み取れる。
よって小説でこの分析コマンドを使うと、物語のあらすじや登場人物の関係図などが読み取れるはずである。


共起ネットワークを表示させるには大きく分けて二つある。

その1.「ツール」→「抽出語」→「共起ネットワーク」で起動する方法
これで起動すると共起ネットワークの「オプション」画面(設定画面)になる。ここで各種の設定を行い「OK」で共起ネットワークが描画される。
それぞれの設定に関しては基本的はデフォルトの設定で大きな問題は無いが下記項目に関しては検討が必要となる場合もあると思う。

<集計単位と抽出語の選択>
「集計単位」
KHコーダでは分析対象テキスト中で「語」が出現する場所と「語」が出現する回数を計算して分析する。「語」は抽出語のことで分析の最小単位となり、「場所」は「文」または「段落」のことである。よって集計単位を「段落」に設定するのか「文」に設定するのかで結果が大きく異なることがある。「段落」「文」それぞれを試して良い方を選択する必要があるが、「段落」→「文」の順で評価することが推奨されている。

「最小出現数」
出現語(抽出語)の最少出現数を設定する。大きくすれば対象語が少なくなるし、小さく設定すれば多くなる。試して最も適当な数値を検討する必要がある。

「品詞による語の取捨選択」
前述のように「既定値」の設定では、良く用いられるが特徴的な意味をあまり持たない語を省いてある(日本語の場合のみ)。
こちらもどの品詞を表示させるのが良いか試してみると良いだろう。


<共起ネットワークの設定>
「共起関係(edge)の種類」
ここでは語と語、または語と外部変数の共起関係の表示の設定ができる。今回は外部変数は用いていないので「語-語」で設定する。

「バブルプロット」
この項目ににチェックを入れると、語の出現数に対応して円のサイズが変化する。つまり大きい円ほど多く出現している語になる。

「最小スパニング・ツリーだけを描画」
この項目にチェックを入れるとシンプルなネットワークを描くことができる。ネットワークが複雑になったりして見づらいときに使うオプションである。

「共起パターンの変化を探る(相関)」
このオプションを利用することにより相関関係を可視化して物語の進行にともなう変化を読み取ることが出来る。
具体的には、相関を計算する対象を「出現位置」にしてネットワークを描画させると、データの前方(物語の前半)で多く共起している語のペアは青色の線(edge)で結ばれ、データ後方(物語の後半)で多く共起している語のペアは赤色の線(edge)で結ばれる。





<共起ネットワーク描画画面での操作>
中心性とサブグラフ検出
「比較的強くお互いに結びついてる部分」のことを、KHコーダ(KH Coder)では「サブグラフ」と表記される。つまり同じグループといった意味であろう。
共起ネットワークを描画した場合、下部に「カラー:」と表示されているボタンが表示される。これを押すことによりプルダウンメニューで、語(node)の色分け方法を幾つか選択できる。
最初は「中心性」による色分けであり、黄色よりも青色の方が,中心性が高いことを示す。
次は、比較的強くお互いに結びついてる部分を自動的に検出してグループ分けを行い、その結果を色分けによって示す「サブグラフ検出」である。
「modularity」と「random walks」の方法を選ぶことができるが、見やすい方を選ぶと良いだろう。
ちなみに色のついていない語(白色)は、他の語とサブグラフを形成していない単独の語である。また同じサブグラフに含まれる語は実線で結ばれるのに対して互いに異なるサブグラフに含まれる語は破線で結ばれる。
「共起パターンの変化を探る(相関)」にチェックを入れると前述の方法に加えて「相関」が追加される。


その2.「ツール」→「抽出語」→「関連語検索」で検索を行い、下部メニューから「共起ネットワーク」をクリックし起動する方法。

この場合は検索した語に関しての共起ネットワークが表示され、検索の条件として用いた語は二重の正方形で囲んで表示される。
しかし検索語が表示されない場合があったので原因を調べたところ、どうやら対象語が多い場合は二重正方形で囲んで表示されるはずの検索語が表示されない場合があるようだ。
その時は「フィルタ設定」で「最少文書数」の数を増すなどの操作を行う。
この「フィルタ設定」の画面も全体が表示されないにもかかわらず、スクロールバーも表示されないので、もし「OK」ボタンが画面に表示されていない場合はウィンドウを下部に伸ばしてみることも必要のようである。
検索語が表示される以外は、その1の場合とほぼ同じである。

0 件のコメント:

コメントを投稿