1. IBM man after 5 before 80さんから、下記のような要望を受けました。
2. サイトの見出しの中に小見出しを幾つか作ることはできますか?例えば、「治療・治験」、「症状」、「リハビリ・サプリメント」と言うような区分です。「治療・治験」のコーナーは患者に対しては勿論のこと、封入体筋炎に関わる医師に対する情報提供の場になればと期待します。勿論「症状」も「リハビリ・サプリメント」も同様です。
3. これについては、封入体筋炎の投稿ページのコメントが多くなってきており、非常に見づらく、一旦コメントを取りまとめて整理しようと思っていました。
4. この「小見出し」については、1つのコメントに「治験」、「症状」、「リハビリ」など多くの意見が含まれる場合が多く、一義的にコメントをこれらの言葉で分類できないことから、アンケートの自由意見のとりまとめでよく使われるAfter Codingの手法でコメントを整理しました。その結果をエクセルファイルに示します。エクセルの右側の1のついたものが、そのコメントに含まれるtarget wordです。引用文は小さな文字になっています。
5. Text Mining
Text Miningとは、テキスト(文書)から、知見を引き出す(マイニングする)技術です。いろいろなコードがありますが、今回はKH Coderを用いてText Miningを行いました。KH Coderは、樋口耕一(立命館大学社会学部)によって開発されたテキストマイニングのフリー・ソフトウェアです。今回のコメントから単語の抽出は、茶筅(ChaSen:奈良先端科学技術大学院大学より公開されている言語処理のためのフリーソフトウェア)の解析結果をそのまま用いているので、茶筅の品詞体系に準じて行っています。今回は、引用文を除いた34のコメント(After Codingのエクセルファイル参照)全てを対象としてText Miningを行いました。表-1に、全コメントよりText Miningにより抽出した単語のうち、出現回数上位150を示しました。「治験」、「アリモクロモル」など将来の治療に関わる単語も出現回数上位に入っています。このエクセルファイルのオレンジのセルの単語は4回以上の出現回数ですが、これらの単語を用いてネットワークグラフを作成しました。
6. ネットワークグラフの作成
グラフの頂点(node)と辺(edge)に物理的意味を持たせたものが、ネットワークです。そのネットワークを表したものがネットワークグラフです。ネットワークグラフとは、頂点(node)と辺(edge)を用いたグラフです。KH Coderでは、下記のJaccard係数を用いて、各コメント回答ごとにノードワード(n)と関連語(w)の出現回数でJaccard係数を算出してネットワークグラフを描いています。
Jaccard係数=(a)/(F1+F2-a)
a:各コメントを単位に、関連語(w)がノードワード(n)と一緒に出現した各コメント数合計
F1:各コメントを単位に、ノードワード(n)が出現した各コメント数合計
F2:各コメントを単位に、関連語(w)が全コメントで出現した各コメント数合計
今回のネットワークグラフでは、ノードワード(n)4回以上の出現回数の単語を用い、出現回数によりノード円の大きさを変化させて、辺(edge)の大きさをJのaccard係数として、 Jaccard係数が上位120位までを描いています。図-1に作成したネットワークグラフを示しました。大きな黒丸で囲んだように、コメントの意見は、「封入体筋炎の治験」、「封入体筋炎の症状」および「封入体筋炎の治療・薬」の3つ程度に分かれるように感じられます。
7. 今後、今回の封入体筋炎の治療法に関するコメントとりまとめを見直し検討していくとともに、2020年10月には封入体筋炎の治療法に関する新しい投稿ページをupする予定です。よろしくお願いします。