b

いつまでも子どものままで

#vingow の自動要約機能が面白かったのでいろいろ考えた

意外とはやくインターネットの未来きた

Gunosy炎上とハフィントン・ポスト、楽しいインターネットの未来 - b
ブックレビュー/サマリー系サイトが来る(Book-exについて) - b
 上記2エントリで、僕は「機械の自動キュレーション機能には限度があるんだから…人力でなんとかしないと…」といった話を書いた。ところがなんと、これを書いてわずか一ヶ月後、Gunosyのよきライバル(?)ともいえるvingowがアップデートし、自動要約機能を備えてしまった。
パーソナルニュースリーダーのVingowが「自動ニュース要約」機能を開始 | TechCrunch Japan
 この自動要約機能は、上記2エントリで「限度がある」といった自動機能とは異なる性質のものだとはいえ、なかなかわくわくする機能だ。海外ではすでに自動要約機能は実装化しつつあるようだが、日本語の要約機能は初の試み。どの程度のものなのか、自分なりにいろいろと調べて考えてみたので、少しご紹介したい。

ニュースのサマリーとしては結構優秀

 たとえばこの記事。

 大阪府教育委員会は14日、今年入学試験を実施した府立高153校のうち、54校で答案用紙110枚に採点や集計のミスが見つかったと発表した。合否判定をやり直した結果、府立成城高で2人の合否に影響があった。
 今年の府立高入試では、大手前高(大阪市中央区)で合否に影響が出た採点ミスが発覚。府教委が府立高の全校調査をしていた。
 府教委によると、影響が出たうちの1人は前期日程で不合格だったが、後期日程で合格して既に入学していた。調査の結果、この生徒が前期日程で合格していたと判明したため、後期日程で不合格だった別の生徒が繰り上がった。

大阪府立高54校で採点ミス 今春入試、2人に合否影響−北海道新聞[道外]

 これをvingowで要約すると、こうなる。

2人に合否影響府立高の入学試験で採点ミスが見つかり、記者会見で謝罪する大阪府教育委員会の津田仁教育監で合否に影響が出た採点ミスが発覚
府教委が府立高の全校調査をしていた
府教委によると、影響が出たうちの1人は前期日程で不合格だったが、後期日程で合格して既に入学していた

 箇条書き三つでまとめられており、「読む」というより「見る」感覚で簡単に情報を把握することができる。文章内容は自動抽出なのでところどころおかしいが、サマリーとしては十分で、記事を読む時間が半分以下になっているように思われる。
 ちなみに、同様にいくつかの記事でサマリーを試してみたので、以下も参考に。ちなみに、NBAの記事は、僕もこの試合を見たのだが、試合内容もうまく要約できていたように思える。

新iPhone、9月発売か=低価格モデルも―米アップル (時事通信) - Yahoo!ニュース(左)
スパーズがヒートに大勝、2勝1敗とリード NBAファイナル 写真15枚 国際ニュース : AFPBB News(右)


ただ、ネットの記事には使えない気が…

 だが、僕個人がそうなだけかもしれないが、インターネットで記事を読むときは、ニュースよりも、もう少し文字の多い読み物のほうが多い気がする。vingowはニッチなニュースをたくさん拾ってくるキュレーションサービスとしてGunosyと差異化をはかっているから、もともと対象としているものがニュースだけなのだろうが、そもそもニュースと読み物の境目は曖昧だ。vingowはそういった曖昧な境目は関係なく、タグとひも付けされた新しい情報をとにかく拾ってくるので、タイムラインには長文も流れてくる。このようなとき、vingowの自動要約機能は意味をなさない。このへんの話は何かと話題のイケダハヤトさんが既にブログに書いているので、そちらを読んでいただければ。

自動要約のこれからに期待

 本当はここまで書いて終わりにしようと思ったのだが、これじゃただのイケダ氏の後追いでカッコ悪いじゃないか!と思い、この機能をより充実したものにするにはどうしたらいいのか、というのを考えてみた。
必要になってくるのは「カテゴリごとに要約のアルゴリズムを変える」ということではないだろうか。コードを書くための知識はほとんどないので、素人の文章になってしまって申し訳ないが、少し書いてみたい。


f:id:bfffffffragile:20130615083521p:plain

 上の画像は、先ほど自動要約機能を試してみた例としてあげたNBAに関するニュースのキャプチャを加工したものだ。スポーツのニュースを読んでわかっておかなければいけない要所というのはだいたい決まっている。そして上記の画像は、そのパターンを赤い部分でまとめてある。この例で言えば

  • どちらが、何対何で勝ったか、負けたか
  • その日活躍した選手はだれか
  • スター選手はどうだったか

などだろう。
 既存のニュースサイトがわけているカテゴリごとに、このような「要所」はパターン化できると思われる。そしてそのカテゴリはそこまで膨大ではないので、このパターンを洗い出してそれぞれにコードを書けばよりよい自動サマリーができるのではないだろうか。開発者側の苦労をあまりに考慮していない言葉になってしまった気はするが、以上が僕の意見である。もし開発者のみなさまの参考になったらいいな、という思いを込めて。
 なんにせよ、(その精度に関して賛否両論あるとはいえ)キュレーションサービスに自動要約機能がついたというのはすばらしいことで、近い未来に情報の読み方がまた変わってくるのかもしれないと考えるとわくわくする。JX通信社は米重社長を中心に、かつて仕事で何度かお世話になっているという個人的な思いもあり、vingowのこれからが楽しみ。応援しております。