Ut Video Codec Suite は、開発初期の目標はともかくとして、「そこそこの圧縮率でかなりの速度の編集用コーデック」という方向にバージョンアップを重ねています。「かなりの速度」という点に関しては、アルゴリズムレベルや実装(アセンブラ)レベルでの継続的な改良により、満足できるレベルを達成できていると思っています。

Read the rest of this entry

性能向上
  • 共通: x86 でのデコードを 10% ほど高速化した。
  • 共通: x64 版をアセンブラ化し、おおむね x86 版と同程度の速度にした。

Read the rest of this entry

x86版でアセンブラ化されているところは全てx64版でもアセンブラ化したので、ここいらでまたベンチマーク結果を載せておきます。基本的にはベタ移植なので速度はほとんど同じはずですが、ハフマンデコードに関してはメモリアクセス回数削減の効果が期待されるところです。なお、x64版のアセンブラ化の過程で、どちらに対しても適用できるデコードの高速化を行ったため、x86とx64の両方を再計測しています。

Read the rest of this entry

SSE2 には MASKMOVDQU という命令があって、16バイトの長さを持つ SSE レジスタの一部分だけを書き込むことができます。

Read the rest of this entry

Ut Video Codec Suite の x64 版をアセンブラ化するために、Intel のドキュメント等で勉強してたわけですが、一般的な注意点とか自分が遭遇した落とし穴とかについて書いておきます。対象読者狭すぎw

Read the rest of this entry

  • -a オプションを使うとロスレスチェックが行われる状態になっていたのを修正。

配布ファイル (zip)

Read the rest of this entry

そろそろ x64 版のアセンブラ化に着手しようと考えていますが、着手する前に、処理負荷の傾向がどうなっているかを比較しておこうと思います。

Read the rest of this entry

性能向上
  • ULRG: デコード速度優先でエンコードされたものの RGB24 や RGB32 へのデコードを高速化した。Core 2 で x86 の場合 14% ほど、x64 の場合 6% ほど。
  • ULRA: デコード速度優先でエンコードされたものの RGBA へのデコードを高速化した。Core 2 で x86 の場合 17% ほど、x64 の場合 6% ほど。

Read the rest of this entry

性能向上
  • ULY2: デコード速度優先でエンコードされたものの YUY2 や UYVY へのデコードを高速化した。Core 2 で 12% ほど。
  • ULY0: デコード速度優先でエンコードされたものの YV12 へのデコードを高速化した。Core 2 で 5% ほど。
その他
  • ULY2: YVYU と VYUY での入出力のサポートを廃止した。
  • ULY0: YVYU と VYUY での入出力のサポートを廃止した。

Read the rest of this entry

  • -c オプションの有無にかかわらず、常にロスレスチェックが行われる状態になっていたのを修正。

配布ファイル (zip)

Read the rest of this entry