名古屋・豊橋発,弁護士籠橋の中小企業法務

名古屋,豊橋,東海三県中小企業法務を行っています。

№2136 テキストマイニング

テキストマイニングのまねごとをやってみた。
 文章などに大量に存在する単語を分析して、相互関係をさぐるものだ。インターネット上にあらわれた大量の言語を分析にし,大衆の動向をさぐるにも使われる。IOTでは非常に重要な分析手法だ。

 このテキストマイニングは最先端の分析手法で、いろいろな会社が商売にしている。しかし、なんと、立命館大学樋口耕一先生が,分析ソフト「Kh Coder」を無償で提供してくれていた。(→KhCorder http://khc.sourceforge.net/

 さらに,わかりやすいチュートリアルもあって,私でも「共起ネットワーク」を作ることができた。夏目漱石の「こころ」がサンプル文書になっていて、それを練習問題にして作成した。それがこれだ。

イメージ 1


 「こころ」には先生,K,妻(お嬢さん)が登場するが,テキストマイニングの手法で分析すると,先生=自分の領域と,K,妻の他者の領域がはっきり分かれている。これらの領域は文章全体を2分するほど大きな領域で,対抗関係が存在する。いやいやおもしろい。

正確なところは何もわかりません
 しかし,テキストマイニングは正確にはウィキによると次のように定義され、シロウトの私にはよくわからない。
テキストマイニング(text mining)は、文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である」。

 そもそも、データマイニングはウィキによると次のように定義され、よくわからない。
データマイニング(英語: Data mining)とは、統計学パターン認識人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識を取り出す技術のことである。DMと略して呼ばれる事もある。通常のデータの扱い方からは想像が及びにくい、ヒューリスティク(heuristic、発見的)な知識獲得が可能であるという期待を含意していることが多い。」

 当事務所は「製造業」を多くの顧客とする中小企業を得意分野とする法律事務所だ。IOTの流れは誰もとめられず、中小企業と言え無関係ではない。中小企業製造業のも同じだし、その業界を顧客とする私たちも同じだ。

名古屋E&J法律事務所へのお問い合わせはこちら