COREPON.COM 株式会社 組織活性化研究所
ANALYSIS SOLUTION CASE STUDY VOICE INFORMATION
コラム 先生のやぶにらみ セミナー・講演 最新情報 SECRETARY DESK
日本語セマンティクス
TOPANALYSISデータマイニング日本語セマンティクス第1回
日本語セマンティクス第1回
←なし →第2回
日本語セマンティクスの先進性
1-カッティング


 私たちは横浜市に住んで20年になりますが、水道の水は不味くて飲めたものではありません。休日になると夫と山梨県の道志川までわき水を汲みに出かけています。一回にポリタンク3個くらいを汲んで帰ります。そのままでは飲めませんが沸かしてコーヒーにしたり紅茶にすると、水道水では味わえない透き通った美味しい水になります。ホンモノの水を飲みたかったら、多少の苦労は惜しむべきでないと思います。
 こうした自由記述文を我々の「日本語セマンティクス」では意味の通る文節でカットします。形態素といわれる旧式のカッティングでは短い単語になってしまい意味が伝わらなくなるため、これを改良しました。

私たちは横浜市に住んでいる
水道水は不味い
飲めたものでない
休日に山梨県の道志川に出かける
水を汲みに出かける
コーヒーや紅茶として飲む
わき水を沸かすと美味しい水になる
ホンモノを味わいたい
苦労は惜しむべきでない


 これを形態素でカットすると滅茶苦茶な単語の羅列となります。カットしたものを順番に並べて読めば、まだ何とか理解できますが、カットされた単語が並べ換えられてしまうと全く意味が通じなくなります。次の単語です(笑)。

水道 汲む
一回
そのまま わき水
水道水 ポリタンク
横浜市 不味い
ホンモノ 美味しい
出かける 帰る
道志川 透き通った
紅茶 コーヒー


2-要約文


 テキストマイニングの目的のうちに、大量文書から内容を要約して「まとめる」ことがあります。お客様の声を聞いて経営資源に活用したいとの期待は大きく、今後ますます大量文書を読み取ることが求められます。
 ところが人間の目で読破するといっても、実際やってみた方はおわかりでしょうが大変な作業です。一回だけならまだしも、これが何度もあるようだと、つい誰かに頼みたくなります。派遣のパートさんや新入社員にまかせてしまいまたくなります。しかし、彼らだってツライものはツライ。
 これを形態素でチャレンジしているのを見ましたが噴飯モノでした。
 わずか600人の文章をウンウンと、長時間かけて単語カットして並べようとしましたが、結果は冗談のようなものになりました。

この 大きい コーセー 石鹸
美白 DHC おすすめ
カサカサ 汚れ 買わない
ツルツル しっとり 皮脂 ひりひり
満足 痛い ニキビ 値段
つっぱる 潤い 香り 乾燥肌
ダメ ひのき リピート 不満


 これらの単語を線で結んで、それぞれ自分で読んで下さいというのです。
 せっかくカットしたものを再度結んでいけば「何か意味が出る」というのでしょうか。でも、それでは主観的になってしまいます。お客様の声を聞くのでなく、自分たちの意見を作っていくことになりかねません。
 私たちの「まとめ文」はこうなりました。

皮脂まで落とす→乾燥肌なので→痛い→ひりひり
ひのきの石鹸→香りがよい→満足です→リピートします
DHC→ツルツル→ニキビが消える→汚れ落ちがよい→値段が高い
DHC→皮脂まで流す→つっぱる→カサカサ→買わない
コーセー→泡立ちがいい→おすすめ→美白効果がある


 いかがですか。9千人であろうと2万人であろうと、発言した人々の意見をまとめて結論をだします。ここでは5つの要約文ができました。

 旧式な形態素のまとめでは、単語と単語を線で結んでから、勝手につないで読んでくれという冷たいサービスでしかありませんでした。しかし、組織活性化研究所の要約文は意味のつながるまとめ方をしてくれます。

 しかも、まとめた5文型にピッタリ発言した人々の意見はこうです。ちょっとズレた方向に流れた人々の発言はこうです。あるいは全くユニークなn=1のように個人的な発言をした人の意見はこれこれです、と内容から分類してくれます。
 そのため、文型ごとに集中して読み込むことができます。いろいろな発言や主張がバラバラに出てくるのでなく、○○タイプの意見とか××タイプの意見としてくくられますから、理解度が深まります。

 2万人の発言のうち、Aといった人々が4千人いて、Bといった人が6千人いました。Aの亜流がこれだけいて、Bの亜流がこれだけといったようになります。
 AにもBにも入らない個性的な発言者は3千人いましたと。


3-データ活用が可能


 形態素でトライしている人々の作成するグラフや図は、統計学や数学で処理されていないので、データとして再利用できません。気分で作った「お絵かき」のようなものです。
 その点、「日本語セマンティクス」は全て統計学で分析されているので、目的に応じてスコアーを活用出来ます。相関係数や因子得点、そして危険誤差率などがしっかり計算されています。ちなみに危険誤差率は0.1%水準ですから、覆る危険性は1000回に1回未満という確実なレベルです。
ページの先頭へ
(C) Soshiki-Kasseika Kenkyusho Inc.