或るプログラマの一生

4月

SSE のシャッフル関係命令のベンチマーク

梅澤威志技術ネタ 2013-04-20

気になったので測定してみました。

ここに置かれている PDF を見るとレイテンシとスループットが載っているのですが、たまに俄かには信じがたい数値が書いてあったりします。もやっとするので必要な分だけ自分で測定することにしました。

結果は以下の通り。ハイフンの前がレイテンシで後がスループット（1クロックに何命令発行できるか）の逆数。どちらも数値が大きいほど「遅い」ことになります。

命令	Conroe	Penryn	Nehalem	Sandy
PS[LR]LDQ	2-1	1-1	1-0.5	1-0.5
PALIGNR	2-1	1-1	1-1	1-1
PSHUFB	3-2	1-1	1-0.5	1-0.5
PUNPCK[LH]{BW,WD,DQ}	4-2	1-1	1-0.5	1-0.5
PUNPCK[LH]QDQ	1-1	1-1	1-0.5	1-0.5
PACK{USWB,SSWB,SSDW}	4-2	1-1	1-0.5	1-0.5
PACKUSDW	N/A	1-1	1-0.5	1-0.5
PBLENDVB	N/A	2-2	2-1 ※	2-1 ※

Conroe: Core 2 Quad Q6600 (Kentsfield)
Penryn: Core 2 Duo E8200 (Wolfdale)
Nehalem: Core i3-380M （Arrandale なので厳密には Westmere）
Sandy: Core i7-2600K
※ ただし、デスティネーションオペランドが確定してからのレイテンシだけは 2 ではなく 1 になる。

ここから分かることは、

Conroe はかなり遅いが、Penryn になって劇的に高速化された。便利な命令は高速化されやすい。
PS[LR]LDQ はちゃんと 1-0.5 まで高速化されているのに、PALIGNR は 1-1 まで。惜しい。
Nehalem/Sandy の PBLENDVB の挙動を見ると内部処理が透けてくる。

こんなところでしょうか。

なんでこんなもの調べているのかというとそれはもうお察しの通りです。

Address: http://umezawa.dyndns.info/wordpress/?p=3805

« FSS が連載再開して大変らしい

[UtVideo] バージョン 12.1.0 »

Trackback

only 1 comment untill now

或るプログラマの一生 @ 2013-09-15 03:13

SSE のシャッフル関係命令のベンチマーク（Haswell 対応版）

Intel 最適化マニュアルを見ると、Haswell ではシャッフル関係命令が遅くなっているようです。せっかく AVX2 で SIMD-int が 256bit 幅で使えるようになったのに遅くなったのでは意味が無いので…

日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

プログラミングからチラシの裏まで

SSE のシャッフル関係命令のベンチマーク

only 1 comment untill now

Add your comment now

カレンダー

アーカイブ

カテゴリー

他のサイトのマイページ