x86版でアセンブラ化されているところは全てx64版でもアセンブラ化したので、ここいらでまたベンチマーク結果を載せておきます。基本的にはベタ移植なので速度はほとんど同じはずですが、ハフマンデコードに関してはメモリアクセス回数削減の効果が期待されるところです。なお、x64版のアセンブラ化の過程で、どちらに対しても適用できるデコードの高速化を行ったため、x86とx64の両方を再計測しています。

Read the rest of this entry

SSE2 には MASKMOVDQU という命令があって、16バイトの長さを持つ SSE レジスタの一部分だけを書き込むことができます。

Read the rest of this entry

Ut Video Codec Suite の x64 版をアセンブラ化するために、Intel のドキュメント等で勉強してたわけですが、一般的な注意点とか自分が遭遇した落とし穴とかについて書いておきます。対象読者狭すぎw

Read the rest of this entry

  • -a オプションを使うとロスレスチェックが行われる状態になっていたのを修正。

配布ファイル (zip)

Read the rest of this entry

そろそろ x64 版のアセンブラ化に着手しようと考えていますが、着手する前に、処理負荷の傾向がどうなっているかを比較しておこうと思います。

Read the rest of this entry

性能向上
  • ULRG: デコード速度優先でエンコードされたものの RGB24 や RGB32 へのデコードを高速化した。Core 2 で x86 の場合 14% ほど、x64 の場合 6% ほど。
  • ULRA: デコード速度優先でエンコードされたものの RGBA へのデコードを高速化した。Core 2 で x86 の場合 17% ほど、x64 の場合 6% ほど。

Read the rest of this entry

性能向上
  • ULY2: デコード速度優先でエンコードされたものの YUY2 や UYVY へのデコードを高速化した。Core 2 で 12% ほど。
  • ULY0: デコード速度優先でエンコードされたものの YV12 へのデコードを高速化した。Core 2 で 5% ほど。
その他
  • ULY2: YVYU と VYUY での入出力のサポートを廃止した。
  • ULY0: YVYU と VYUY での入出力のサポートを廃止した。

Read the rest of this entry

  • -c オプションの有無にかかわらず、常にロスレスチェックが行われる状態になっていたのを修正。

配布ファイル (zip)

Read the rest of this entry

次のバージョンで YVYU と VYUY での入出力を廃止しようとしています。これが廃止されて困る人はまずいないと思うのですが、万が一困るという珍しい人は理由を添えて異議を申し立ててください。

廃止する理由ですが、きっちり検証できないものが実装されたままになっているのはまずいだろうという判断です。じゃあなんで実装したのよと聞かれると困るのですが。

その他
  • ULY2: デコード時に RGB32 で出力する場合、安全のためアルファチャンネルと解釈されうるフィールドは 255 で埋めるようにした。
  • ULY0: デコード時に RGB32 で出力する場合、安全のためアルファチャンネルと解釈されうるフィールドは 255 で埋めるようにした。

Read the rest of this entry