【セマンティックセグメンテーション】U-Net とは何か

AI/データサイエンス

今後セマンティックセグメンテーションについての記事を掲載します。今回はU-Netを扱います。

関連項目として、過去に”Down SamplingとUp Sampling”、及び”FCN”について解説しました。本記事ではこれらの内容を前提に書きますので、必要に応じて以下から過去記事を参照ください。

【セマンティックセグメンテーション】Down SamplingとUp Sampling
今後はセマンティックセグメンテーションについての記事を掲載しますが、その関連項目として、今回はDown SamplingとUp Samplingについて解説します。
【セマンティックセグメンテーション】FCN (Fully Convolutional Network) とは何か
今後はセマンティックセグメンテーションについての記事を掲載します。今回はFCN(Fully Convolutional Network)を扱います。

スポンサーリンク

U-Netのアーキテクチャ

U-Netは2015年に”Convolutional Networks for Biomedical Image Segmentation”というタイトルで発表されました。タイトルからわかる通り、生物医学の分野で適用するためのモデルとして公開されました。

U-Netのアーキテクチャは“U”字型の形をしたEncoder-Decoder構造であり、FCNと同じくスキップ接続を有しています。なおEncoder-Decoderモデルというのは、Encoderで抽象化してDecoderで出力するモデルのことです。Encoder-Decoderモデルについては自然言語処理のseq2seqモデルの記事も参照ください。

スポンサーリンク

スキップ接続とデータ拡張

U-Netのスキップ接続の特徴は、FCNがEncoder(Down Sampling)の情報とDecoder(Up Sampling)の情報をセルごとに足し合わせていたのに対して、U-Netではどちらの情報も保持したままチャネル方向に連結していることです。

FCNの説明に用いた図を使えば、チャネル方向の結合は以下の(E)のように表現できます。これによって、要素ごとの加算をするFCNのスキップ接続では失われる可能性のある高解像度の詳細な空間情報を、U-NetのDecoder部分で保持・復元することができます。

もう1つの U-Netの特徴は、学習プロセスでデータ拡張(Data Augumentation)手法を豊富に使用していることです。医療画像に使うことを意図されているU-Netは、学習データが少ないケースを想定しています。そのため少量の学習データを与えた場合でも、それらに対し、画像のシフト(移動)、回転、歪み(変形)、およびグレースケール値の変更を加えた拡張データも加えて学習をすることで、少量のデータでも学習が進むように構築されています。

これら、スキップ接続やデータ拡張により、U-Netは少ないデータでも高いパフォーマンスを発揮することが可能となり、それが医療画像のようにラベル付けにコストがかかり、大量の訓練データが得られないタスクにおいてその有効性があると考えられます。セマンティックセグメンテーションモデルはその後も発展を続けていますが、現在でもU-Netは医療画像セグメンテーションの分野で広く使用されています。

また、U-Netの精度はFCNや今後紹介するSegNetよりも高く、その後2017年に発表された画像生成モデルであるpix2pixモデルや、2022年に公開され人間の作品と区別できないクオリティの画像生成をするStable Diffusionなどにも活用されるなど、医療以外の分野でも広く応用されています。

原著論文は以下です。

https://arxiv.org/pdf/1505.04597

コメント

タイトルとURLをコピーしました