t_room

識別学習ライブラリ「DISCERN」のご案内

背景と概要

音声認識や文字認識、さらには大量文書の分類やバイオインフォマティクスにおけるデータの分類や予測問題に至るまで、今、パターン認識技術の応用分野は急速に広まっています。 そうした中で、特に、識別学習と呼ばれるパターン認識システムの設計手法が注目されています。 パターン認識システムは、認識対象である入力パターンを予め登録しているクラスモデルと比較し、 最も近いクラスモデルを探し出し、そのモデルが属するクラスを認識結果として出力します。 クラスモデルは、該当するクラスらしさを、あるいは競合するクラス間におけるそれぞれの相違を、適切に表現できていなくてはなりません。 十分に適切な表現ができてれば、高い認識精度を達成することができます。 識別学習は、特にクラス間におけるそれぞれの相違を十分に表現し、入力パターンが属するパターン空間内におけるクラス境界を 正確に表現できるようなクラスモデルを実現するために用いられるモデル設計法、あるいはモデル学習法です。
識別学習法として、これまでにも様々なタイプの学習法が提案されてきました。 中でも、多層パーセプトロンに代表される人工神経回路網(ニューラルネットワーク)の学習に広く用いられてきた最小二乗誤差学習法や学習ベクトル量子化法、 これらと深い関係を持ち、特に音声認識分野やテキスト処理分野で使われてきた最小分類誤り学習法(一般化確率的降下法とも呼ばれます)、 比較的最近になって急速に普及しているサポートベクタマシンなどが注目を集めています。 特に最小二乗誤差学習法やサポートベクタマシンに関しては、これまでにも多くのライブラリソフトが作成、販売、あるいは公開されてきました。 しかしその一方で、実はこれらの学習法の多くに共通する理論的視点を与え、しかも高い認識性能を発揮する学習法である最小分類誤り学習法に関するソフトウェアは、 あまり公開されることがありませんでした。 研究発表の状況からは、各研究機関が独自にこの学習法を実装し、実験等に供してきたものと考えられますが、 公開されたライブラリソフトウェアの入手が容易でない状況は、結果として、パターン認識技術に興味を持つ初学者の皆さんが最小分類誤り学習法そのもの、 あるいはそれが照らす識別学習法の地平を見通すような学習を始めることを阻害してきたように思われます。
上記の問題を軽減することを目指して、私たちは平成19年度科学研究費補助金の助成を受け(基盤研究(B)「識別学習の体系化と汎用的手法の実現に関する研究」 (課題番号:19300064))、最小分類誤り学習法を軸とする識別学習全体の体系化とさらに強力な学習法の開発研究を進めると同時に、 その成果を盛り込んだ識別学習ライブラリソフトウェア「DISCERN」を作成してきました。 DISCERNは、プラットフォームフリーなプログラミング言語Javaで実装されています。 従って、OSを問わずに実行することが可能です。また、コードそのものも公開していますので、搭載されている識別学習法の動作をコードを追うことによって学習することも可能です。 また、GUIを持っていますので、識別学習を用いたパターン認識実験を容易に実行することも可能です。
DISCERNには、上記の助成研究の最新の成果である大幾何マージン最小分類誤り学習法や増加型最小分類誤り学習法なども実装されており、 標準的な識別学習法の学習のみならず新しい研究開発の成果を体験することもできます。 ただ、その一方で、開発途上の成果が盛り込まれていることなどに起因して、実装に軽微な問題が含まれている可能性を完全に排除することはできません。 この点をご容赦頂きました上で、本ライブラリが、パターン認識を学ぶ皆さんの多少の助けになれますよう念じている次第です。

DISCERN
ここからダウンロードできます。

DISCERNの使い方

本ライブラリの使い方は簡単です。添付のDISCERN.zipをダウンロードし、解凍、コンパイルをするだけです。 ライブラリ全体のインタフェースを担っているUserInterface.javaをスタートしますと、インタラクティブな操作ウィンドウが現れます。 この操作も簡単で、モデルの型を選択し、識別学習法を選択、さらに簡単な評価実験のために添付している実験データファイルを選択すれば、学習を実行することができます。 ライブラリの実装や操作については下記の論文等に記載されています。それらを参照していただくか、直接下記にお問い合わせください。 卒業研究などの未公開論文についてもお問い合わせください。

実装手法等

モデル学習における学習データの取り扱い方に関して
  • ホールド・アウト法
  • リーブ・ワン・アウト法
モデル構造
  • 3層パーセプトロン
  • プロトタイプ型ネットワーク
  • パーセプトロン(線形判別関数)
識別学習法
  • 最小二乗誤差学習法
  • (関数マージン)最小分類誤り学習法
  • 大幾何マージン最小分類誤り学習法
  • 学習ベクトル量子化法(LVQ2)
  • AdaBoost
  • AdaBoost.MH
  • サポートベクタマシン

※ 一部の手法はGUIとのリンクが未完成です。

関連文献

  • 滝康伸:“パターン認識のための識別学習ライブラリ開発—基礎検討としてのプロトタイプ型システムの実装と評価—”,
    2007年度同志社大学工学部情報システムデザイン学科卒業論文,2008年2月.
  • 山田幸太:“パターン認識のための識別学習ライブラリ開発—基礎検討としてのニューラルネットワーク型システムの実装と評価—”,
    2007年度同志社大学工学部情報システムデザイン学科卒業論文,2008年2月.
  • 宮家輝大:“最小分類誤り学習とサポートベクターマシンの比較”,
    2008年度同志社大学工学部情報システムデザイン学科卒業論文,2009年2月.
  • 塩津広至:“再利用性向上を目指した識別学習ライブラリの実装—ニューラルネットワークの構造と計算の柔軟な選択機構の実装法—”,
    2008年度同志社大学工学部情報システムデザイン学科卒業論文,2009年2月.
  • 足立守:“多クラスサポートベクターマシンの実装と実験”,
    2009年度同志社大学工学部情報システムデザイン学科卒業論文,2010年2月.
  • 徳野純一:“最小分類誤り学習における損失関数平滑度の自動制御”,
    2009年度同志社大学工学部情報システムデザイン学科卒業論文,2010年2月.
  • 谷口真一:“アンサンブル型最小分類誤り学習法の実装と実験的評価”,
    2009年度同志社大学大学院工学研究科情報工学専攻修士論文,2010年1月.
  • 山田幸太:“幾何マージンの最大化を目指した最小分類誤り学習とその実装法”,
    2009年度同志社大学大学院工学研究科情報工学専攻修士論文,2010年1月.
  • 山田幸太、他:“最大幾何マージン最小分類誤り学習法を目指して”,
    同志社大学理工学研究報告,50巻,pp. 149-158,2009年.
  • 渡辺秀行、他:“アンサンブル型最小分類誤り学習の提案”,
    電子情報通信学会 パターン認識・メディア理解研究会,PRMU2008-250,2009年8月.
  • 山田幸太、他:“最小分類誤り学習における幾何マージンの制御法について”,
    電子情報通信学会・日本音響学会 音声研究会,SP2009-43,2009年7月.
  • 渡辺秀行、他:“判別関数の一般形に対する幾何マージンの導出とその制御を伴う最小分類誤り学習”,
    電子情報通信学会 パターン認識・メディア理解研究会,PRMU2009-60,2009年8月.
  • 谷口真一、他:“アンサンブル型最小分類誤り学習法の実装と実験的評価”,
    電子情報通信学会 パターン認識・メディア理解研究会,PRMU2009-67,2009年9月.
  • 渡辺秀行、他:“大幾何マージン最小分類誤り学習法”,
    第12回情報論的学習理論ワークショップ,2009年10月.
  • H. Watanabe et al.:“Minimum Error Classification with Geometric Margin Control”,
    2010 IEEE International Conference on Acoustics, Speech, and Signal Processing,2010年3月.