MeCab と Yahoo!日本語形態素解析API の解析結果の特徴を調べてみました。MeCab, Yahoo!APIともに「名詞」に限定して出現頻度を調べました。
※ MeCab についてはmecab + PHP で形態素解析(出現頻度)の方法を参照
※ Yahoo!日本語形態素解析APIの使い方についてはドキュメントを参照。(基本的なAPIなので省略)
1.ドラゴンボール
wikipedia ドラゴンボールのストーリーを使用。
七つ集めれば、どんな願いでも一つだけ叶えてくれる「神龍(シェンロン)」を呼び出すことができる、ドラゴンボール。それに関わる様々な冒険物語で、人里はなれた山奥に住む尻尾の生えた少年・孫悟空がドラゴンボールを求めて西の都から来た少女・ブルマと出会うところから物語は始まる。
やがて最初のドラゴンボール探しの途中で知り合った亀仙人の下で修行し、天下一武道会やレッドリボン軍、ピッコロ大魔王等との闘いを通じてたくましく成長した悟空は、兄ラディッツにより、自分が惑星ベジータ出身の戦闘民族サイヤ人であることを知らされる。その後サイヤ人の王子ベジータと死闘を繰り広げ、永遠のライバルとなる。さらにサイヤ人をも支配する宇宙の帝王フリーザとナメック星で激突、伝説の超サイヤ人に目覚める。
地球帰還後、未来から来た少年トランクスから、かつて悟空が少年時代に壊滅させたレッドリボン軍の生き残りであるドクター・ゲロの存在、彼が作り上げた2体の最強の人造人間が3年後に現れること、その脅威、そして悲惨な未来を知らされる。悟空を始めとする戦士達はそれらを未然に防ぐのではなく、戦うことを選択。しかし事態は未来のトランクスが知っている歴史とは大きく違うものとなり、トランクスさえ知らなかった人造人間達、さらにはドクター・ゲロのコンピューターが作り上げた生命体セルが登場。悟空はこの戦いで命を落とす。
その後主人公は成長した息子孫悟飯に変わる。悟飯は平和な学園生活の最中、宇宙最強最悪の生命体魔人ブウとの宇宙存亡をかけた戦いに巻き込まれていく。
【結果】
MeCab | Yahoo!API |
---|
6 | 悟 |
5 | 人 |
4 | 空 |
4 | サイヤ |
4 | こと |
3 | 未来 |
3 | 体 |
3 | 少年 |
3 | 宇宙 |
3 | ボール |
3 | ドラゴン |
3 | トランクス |
2 | 物語 |
2 | 飯 |
2 | 達 |
2 | 戦い |
2 | 生命 |
2 | 成長 |
2 | 人造 |
2 | 人間 |
2 | 最強 |
2 | 後 |
2 | 軍 |
2 | レッド |
2 | リボン |
2 | ベジータ |
2 | ドクター・ゲロ |
2 | その後 |
1 | 惑星 |
1 | 歴史 |
1 | 龍 |
1 | 様々 |
1 | 命 |
1 | 民族 |
1 | 未然 |
1 | 魔王 |
1 | 魔 |
1 | 冒険 |
1 | 平和 |
1 | 武道 |
1 | 悲惨 |
1 | 彼 |
1 | 年 |
1 | 闘い |
1 | 等 |
1 | 都 |
1 | 途中 |
1 | 登場 |
1 | 伝説 |
1 | 天下 |
1 | 帝王 |
1 | 地球 |
1 | 孫悟空 |
1 | 孫 |
1 | 存亡 |
1 | 存在 |
1 | 息子 |
1 | 選択 |
1 | 戦闘 |
1 | 戦士 |
1 | 仙人 |
1 | 西 |
1 | 生活 |
1 | 生き残り |
1 | 星 |
1 | 人里 |
1 | 神 |
1 | 尻尾 |
1 | 少女 |
1 | 出身 |
1 | 修行 |
1 | 主人公 |
1 | 七つ |
1 | 自分 |
1 | 時代 |
1 | 事態 |
1 | 死闘 |
1 | 支配 |
1 | 始め |
1 | 山奥 |
1 | 最中 |
1 | 最初 |
1 | 最悪 |
1 | 激突 |
1 | 兄 |
1 | 脅威 |
1 | 亀 |
1 | 帰還 |
1 | 願い |
1 | 学園 |
1 | 壊滅 |
1 | 会 |
1 | 下 |
1 | 王子 |
1 | 永遠 |
1 | 一つ |
1 | 一 |
1 | ラディッツ |
1 | ライバル |
1 | ブルマ |
1 | ブウ |
1 | フリーザ |
1 | ピッコロ |
1 | ナメック |
1 | セル |
1 | シェンロン |
1 | コンピューター |
1 | もの |
1 | の |
1 | ところ |
1 | それら |
1 | それ |
1 | 3 |
1 | 2 |
| 4 | サイヤ |
4 | 悟空 |
3 | こと |
3 | トランクス |
3 | ドラゴンボール |
3 | 宇宙 |
3 | 少年 |
3 | 未来 |
2 | ゲロ |
2 | ドクター |
2 | ベジータ |
2 | リボン |
2 | レッド |
2 | 人造人間 |
2 | 後 |
2 | 悟飯 |
2 | 成長 |
2 | 戦い |
2 | 最強 |
2 | 物語 |
2 | 生命体 |
1 | 2 |
1 | 3 |
1 | それら |
1 | ところ |
1 | もの |
1 | コンピューター |
1 | シェンロン |
1 | セル |
1 | ナメック |
1 | ピッコロ |
1 | フリーザ |
1 | ブウ |
1 | ブルマ |
1 | ライバル |
1 | ラディッツ |
1 | 一つ |
1 | 七つ |
1 | 下 |
1 | 主人公 |
1 | 亀 |
1 | 事態 |
1 | 人里 |
1 | 仙人 |
1 | 会 |
1 | 伝説 |
1 | 修行 |
1 | 兄 |
1 | 冒険 |
1 | 出身 |
1 | 命 |
1 | 地球 |
1 | 壊滅 |
1 | 天下一 |
1 | 始め |
1 | 存亡 |
1 | 存在 |
1 | 学園 |
1 | 孫 |
1 | 孫悟空 |
1 | 少女 |
1 | 尻尾 |
1 | 山奥 |
1 | 帝王 |
1 | 帰還 |
1 | 平和 |
1 | 彼 |
1 | 息子 |
1 | 悲惨 |
1 | 惑星 |
1 | 戦士 |
1 | 戦闘 |
1 | 探し |
1 | 支配 |
1 | 時代 |
1 | 最中 |
1 | 最初 |
1 | 最悪 |
1 | 未然 |
1 | 様々 |
1 | 武道 |
1 | 歴史 |
1 | 死闘 |
1 | 民族 |
1 | 永遠 |
1 | 激突 |
1 | 王子 |
1 | 生き残り |
1 | 生活 |
1 | 登場 |
1 | 神龍 |
1 | 脅威 |
1 | 自分 |
1 | 西 |
1 | 途中 |
1 | 選択 |
1 | 都 |
1 | 闘い |
1 | 願い |
1 | 魔人 |
1 | 魔王 |
|
【検証】
解析結果よりも10倍の重力で修業したら本当に強くなるのか?ということの方が気になった方が多いのではないでしょうか。
2. 東京都
wikipedia の
東京都を使用。
東京都は、日本の首都として、司法・立法・行政の中心地であり、経済の中心地でもある。日本の都道府県の中では人口が最も多く、人口密度は大阪府と同程度である。東京都区部を中心とする東京大都市圏は、世界で最も人口が多い都市圏であり、経済規模ではニューヨーク大都市圏を凌ぎ世界最大である[1]。またニューヨーク、ロンドン、パリと共に世界最上位レベルの世界都市にあげられることもある[2]。
明治維新以前の東京市の旧称は江戸であり、戦国時代には太田道灌の城下町、江戸時代には江戸幕府の所在地・徳川将軍家の城下町として栄えた。第二次世界大戦中の1943年7月1日に、東京都制(昭和18年法律第89号)が施行され 、東京府と東京市を統合した形で東京都が設置された。第二次大戦後の1947年(昭和22年)に、地方自治法が施行されたために東京都制は廃止されたが、東京都の名称と行政区域は変更されず、現在に至っている。このため東京都庁は、市役所(23区を包括する市)としての機能と県庁として広域行政体としての機能を併せ持つ。
東京都庁舎は長年千代田区の有楽町にあったが、1991年(平成3年)4月1日に新宿区の新宿副都心に移転した。移転に伴い、地方自治法に従って都条例も改正され、現在の都庁所在地は新宿区となっている[3]。ただし、地図上での都庁所在地の表記は、便宜上「東京」が使用され続けている[4]。なお、東京都の英語表記は、Tokyo Metropolis(あるいは Tokyo Metropolitan prefecture)である。東京都庁を指して東京都ということもあるが、この場合はTokyo Metropolitan Governmentとなる。
【結果】
MeCab | Yahoo!API |
---|
16 | 東京 |
9 | 都 |
6 | 年 |
5 | 世界 |
4 | 都庁 |
4 | 区 |
4 | ]。 |
4 | [ |
3 | 都市 |
3 | 中心 |
3 | 人口 |
3 | 新宿 |
3 | 所在地 |
3 | 市 |
3 | 行政 |
3 | 江戸 |
3 | 圏 |
3 | Tokyo |
3 | 1 |
2 | 法 |
2 | 府 |
2 | 表記 |
2 | 日本 |
2 | 日 |
2 | 二 |
2 | 中 |
2 | 地方 |
2 | 地 |
2 | 大戦 |
2 | 城下町 |
2 | 昭和 |
2 | 自治 |
2 | 次 |
2 | 時代 |
2 | 施行 |
2 | 現在 |
2 | 月 |
2 | 経済 |
2 | 機能 |
2 | 移転 |
2 | ため |
2 | こと |
2 | Metropolitan |
2 | 4 |
2 | 3 |
1 | 立法 |
1 | 有楽町 |
1 | 明治維新 |
1 | 名称 |
1 | 密度 |
1 | 幕府 |
1 | 法律 |
1 | 包括 |
1 | 変更 |
1 | 平成 |
1 | 部 |
1 | 廃止 |
1 | 徳川 |
1 | 道灌 |
1 | 統合 |
1 | 都道府県 |
1 | 都心 |
1 | 都区 |
1 | 程度 |
1 | 長年 |
1 | 庁舎 |
1 | 地図 |
1 | 大都市 |
1 | 大阪 |
1 | 体 |
1 | 太田 |
1 | 戦国 |
1 | 千代田 |
1 | 設置 |
1 | 制は |
1 | 制 |
1 | 条例 |
1 | 場合 |
1 | 上位 |
1 | 上 |
1 | 将軍家 |
1 | 首都 |
1 | 市役所 |
1 | 司法 |
1 | 使用 |
1 | 最大 |
1 | 号 |
1 | 広域 |
1 | 後 |
1 | 県庁 |
1 | 形 |
1 | 区域 |
1 | 旧称 |
1 | 規模 |
1 | 改正 |
1 | 英語 |
1 | 以前 |
1 | ロンドン |
1 | レベル |
1 | パリ |
1 | ニューヨーク大 |
1 | ニューヨーク |
1 | prefecture |
1 | Metropolis |
1 | Government |
1 | 1991 |
1 | 1947 |
1 | 1943 |
1 | 89 |
1 | 23 |
1 | 22 |
1 | 18 |
1 | 7 |
1 | 2 |
| 9 | 東京都 |
5 | 世界 |
5 | 東京 |
3 | 1 |
3 | Tokyo |
3 | 所在地 |
3 | 行政 |
2 | 3 |
2 | 4 |
2 | Metropolitan |
2 | こと |
2 | ため |
2 | ニューヨーク |
2 | 中心地 |
2 | 二 |
2 | 人口 |
2 | 地方 |
2 | 城下町 |
2 | 大都市圏 |
2 | 新宿区 |
2 | 施行 |
2 | 日本 |
2 | 東京都庁 |
2 | 機能 |
2 | 江戸 |
2 | 現在 |
2 | 移転 |
2 | 経済 |
2 | 自治法 |
2 | 表記 |
2 | 都庁 |
1 | 18 |
1 | 1943 |
1 | 1947 |
1 | 1991 |
1 | 2 |
1 | 22 |
1 | 23 |
1 | 7 |
1 | 89 |
1 | Government |
1 | Metropolis |
1 | prefecture |
1 | パリ |
1 | レベル |
1 | ロンドン |
1 | 中 |
1 | 中心 |
1 | 人口密度 |
1 | 以前 |
1 | 体 |
1 | 使用 |
1 | 副都心 |
1 | 包括 |
1 | 区域 |
1 | 区部 |
1 | 千代田区 |
1 | 司法 |
1 | 名称 |
1 | 地図 |
1 | 場合 |
1 | 変更 |
1 | 大戦中 |
1 | 大戦後 |
1 | 大阪府 |
1 | 太田 |
1 | 将軍家 |
1 | 市 |
1 | 市役所 |
1 | 幕府 |
1 | 庁舎 |
1 | 広域 |
1 | 府 |
1 | 廃止 |
1 | 形 |
1 | 徳川 |
1 | 戦国時代 |
1 | 改正 |
1 | 新宿 |
1 | 旧称 |
1 | 明治維新 |
1 | 最上位 |
1 | 最大 |
1 | 有楽町 |
1 | 江戸時代 |
1 | 法律 |
1 | 県庁 |
1 | 程度 |
1 | 立法 |
1 | 統合 |
1 | 英語 |
1 | 規模 |
1 | 設置 |
1 | 道灌 |
1 | 都市 |
1 | 都市圏 |
1 | 都条例 |
1 | 都道府県 |
1 | 長年 |
1 | 首都 |
|
【検証】
MeCab は文脈によらず厳密に「東京」「新宿」などと分離しているのに対し、
Yahoo!APIは空気(文脈)を読んで「東京都」と「東京」、「新宿区」と「新宿」を使い分けているようです。
MeCabでは「人口密度」、「大都市」、「戦国時代」など一固まりと捉える方が自然な単語までも分離されてしまうようです。
ドラゴンボールの例も同様ですが、どちらかといえば
MeCabは
機械的に区切る傾向が、
Yahoo!APIは空気を読んで区切る傾向があるようです。