こんばんは、スタジオ真榊です。今夜は2023年4月25日付で完成したばかりのControlnet1.1用モデル「Tile」についての報告です。Controlnet1.1で使えるものの中でもひときわ異質なこのモデル。アップスケール用なのか?それともCannyやDepthのように構図を写し取るためのものなのか?いろいろと検証してみました。
※Controlnet全体についての基本的な使い方や各モデル紹介については、こちらの記事(▼)をご参照ください。
Tileってどんなモデル?
Controlnet1.1が公開された当初、Tileは「未完成」という注釈つきのモデルでした。モデル一覧では「control_v11u_sd15_tile」が公開され、プリプロセッサ一覧には入力画像にガウスぼかしを掛ける「Tile gaussian」というものが掲載されていました。その後、2023年4月25日に「完成」がアナウンスされ、新たなモデルとして「control_v11f1e_sd15_tile」が公開。「Tile gaussian」は「tile resample」に姿を変た…という経緯があります。
一体、何ができるモデルなのか?公式に書かれている説明は下記のようなものです。
・このモデルはさまざまな方法で使用できますが、大きく分けて、次のような2 つの動作をします。
1.入力画像の細部を無視して、新しいディティールを生成する
2.分割したタイルのsemantics(データが意味するもの)とプロンプトが一致しない場合、プロンプトを無視して生成を行う
入力画像の細部を無視できるため、低品質なディティールを洗練されたものに置き換えることができます。
わかるような、わからないような。
例えば、64×64の小さな犬のアイコンをそのまま8倍の512×512にズームすると、
このようにぼやけてしまいます。
これは元画像のディティールが画像縮小の影響で失われてしまっているためですね。これを入力画像にしてi2iで高品質にしようとしても…
元画像の「低品質な細部」にひっぱられて、このように低品質な画像ができてしまいます。
Tileはこうした「低品質な細部」を無視しつつ、もとのアイコンの犬の全体の形を保ちながら、アイコンに存在しない詳細な毛並みに置き換えてくれるというものです。
こちらの画像をご覧ください。
これは、i2iではなくt2iで、先程の64x64pxの画像をTileで読み込ませて512x512で生成したもの。元画像になかったディティールが追加されていることが分かると思います。
「おお、じゃあこれ、アップスケール用のモデルなんですね?」と思うところですが、公式はあくまで「アップスケールもできるが、本来はディティールの置き換え(または追加)を行うモデル」だと念を押しています。
公式が提案する「Tileの使い方」は次の5つ。
①2倍、4倍、または8倍のアップスケールができる
②入力した画像のディティールを追加、変更、または再生成できる
③RealESRGANなどのアップスケーラーによって崩壊してしまったディテールを修正、改良、改善できる
④ノイズ除去強度を最強の「1」にしても、タイルごとに別の絵になることを防げる
⑤簡単に色分けされた下書きイラストを完成させられる
このうち、①のアップスケールについては、ほかのアップスケーラーのようにイラストを高解像度化するのではなく、「イラストに描かれたものを認識し、より高い解像度でゼロから描き直す」のだというのです。一体どういうことなのか?それを今回検証していきたいと思います。
- 関連記事
-