インラインコードのレジスタ使用を、以下のコードサンプルでIterator::Incr
から最適化しないのはなぜですか? (Visual Studioの2015年、/ O2最適化設定)インラインクラスメソッドのレジスタ最適化が不十分
私はイテレータ、Iterator::Incr
がInterpolator::InterpolateFast
内部インライン化されるメソッドへの参照を使用して、この記事の一番下に示すC++のコードを使用しています。しかし、生成されたアセンブラコードは、へのアクセスへのアクセスを示していますが、このクラスメンバ変数は効率のために内側ループのレジスタの内部に配置できます。私は反復子がコピーされる高速バージョンをコンパイルしていた場合
[email protected]:
00020 41 01 19 add DWORD PTR [r9], ebx ; memory access to Iterator::_rem (slow)
00023 4d 63 01 movsxd r8, DWORD PTR [r9]
...
0003e 75 e0 jne SHORT [email protected]
、アセンブラコードは、プロセッサレジスタの内部を配置及び配列要素自体に一つだけのメモリアクセスを使用します。
[email protected]:
; 699 : _rem += _incr;
00011 45 03 c2 add r8d, r10d ; Iterator::_rem placed inside registers (fast)
...
イテレータクラスへの参照を使用する場合、コンパイラはクラスが(同時スレッドによって、例えば)InterpolateFast
修正またはアクセスされていると仮定し、従って最適化を登録回避するように、それはそう。
イテレータをコピーせずにプロセッサレジスタを使用してインラインメソッドを最適化するにはどうすればよいですか?
typedef unsigned int BYTE;
class Iterator
{
public:
Iterator() {}
Iterator (const Iterator& it) :
_rem (it._rem), _incr (it._incr) {}
inline int Incr (const BYTE* &pSrc)
{
_rem += _incr;
pSrc += _rem >> 16;
return _rem;
}
private:
int _rem;
int _incr;
friend class Interpolator;
};
class Interpolator
{
public:
Interpolator (BYTE* p) : _p (p) {}
int InterpolateFast (int len)
{
int sum = 0;
const BYTE *p = _p;
Iterator& it (_it); // slow version, memory accesses to it._rem
// Iterator it (_it); // fast version, registers optimized
while (len--)
{
int rem = it.Incr (p);
sum += p[0] * rem;
}
return sum;
}
private:
Iterator _it;
const BYTE* _p;
};
int main()
{
BYTE arr[1000];
Interpolator ip (arr);
volatile int sum = ip.InterpolateFast (1000);
return 0;
}
(コードが、このポストのために簡略化されており、意味のある機能を有していないことに留意されたい。)
はコンパイルされません。 MCVEを投稿できますか? –
ポインタエイリアシングの問題のようです - 私はM $コンパイラのオプションを知らないけど、/ Oaや/ Owを試してみて、 "遅い"バージョンに役立つかどうかを見てください。はいの場合は、おそらくコードの変更を介して可能性があります。 – Anty
@RichardHodges:例を更新しました。 –