未来を見据えたAMD 2011年のBulldozerは効率重視

【AMD】未来を見据えたAMD  2011年のBulldozerは効率重視【CPU】
●CPU設計の大きなターンであるBulldozer
AMDが2011年に投入する次世代CPUアーキテクチャ「Bulldozer(ブルドーザ)」。CPUアーキテクチャ上でのBulldozerの大きな ポイントは、シングルスレッドの整数演算性能の追求を止めたことだ。Bulldozerでは、おそらく、現行のAMD CPUよりシングルスレッドの整数中心のアプリケーションの性能は下がる。CPU構造の簡素化で、CPUの動作周波数を上げることができれば、低下分を埋 め合わせることができるかも知れないが、クロック当たりの性能は下がるだろう。その反面、マルチスレッド性能と浮動小数点演算性能は大きく伸びる。


つまり、AMDは、PC向けCPUの不文律だった、整数演算性能をたゆまなく伸ばし続けるというコースから外れることになる。なぜ、AMDはそんな決断をしたのか。それは、CPUのパフォーマンス効率を上げるためには、それがベストな方法だからだ。

・・・・・


今、流れは変わり始めている。Intelは、低価格または低消費電力のCPUセグメントにはILPを下げた「Atom(Bonnell:ボンネル)」系 CPUコアを投入した。AMDも、同じコンセプトのBobcat「(ボブキャット)」を2011年に投入する。そして、AMDは、ハイエンドからメインス トリーム向けのCPUアーキテクチャであるBulldozerでも、ILPからDLP&TLPへのシフトを行ない、ILPを従来より下げる。それ に対して、Intelは、DLPとTLPを高めながらも、ILPを維持しようとしている。AMDとIntelは、決定的に方向が分かれつつある。

●CPU設計の原則に従ったBulldozerの方向性
AMDがBulldozerの整数系パイプ数を減らして、実行帯域を狭くしたのは、すでに述べたように、その方が効率が高くなるからだ。電力やトランジスタ当たりパフォーマンスを上げるには、整数パイプを減らすのが一番手っ取り早い。

・・・・・・・・・・・

論理的には、CPUを効率的にするにはILPを抑えて、同時に実行できる命令数を減らして、CPUコアをよりシンプルにすればいいという結論になる。2 x86命令デコード&実行のパイプラインにすれば、現在よりパフォーマンス当たりの電力とトランジスタ数を下げることができる。


●トレードオフで未来のアプリを取ったAMD
2 x86命令実行に落として、より効率的にしたCPUコアを多数載せれば、チップ全体のパフォーマンス効率が高まる。電力とトランジスタ当たりのチップ全体 のパフォーマンスがより上がり、より効率的なCPUになる。ただし、ピークのシングルスレッド整数パフォーマンスは犠牲になり、性能向上の恩恵を受けるこ とができないアプリケーションが出てくる。

となると、PC CPUにとって、これはトレードオフの問題となる。シングルスレッドの性能を維持するか、マルチスレッドの性能を重視するのか。ピーク性能を取るか、効率 を取るか。既存アプリケーションの性能を死守するのか、将来アプリケーションの性能向上にフォーカスするのか。そして、AMDは後者を取ったことになる。

AMDアーキテクチャの中での比較では、効率の追求が浮き彫りになるBulldozer。しかし、Bulldozerの整数パイプの構造をIntel系アーキテクチャと比較すると、また別なビューとなる。

・・・・・・・・・

Nehalemでは2スレッドに対してパイプは6本。Bulldozerの2スレッドに対して合計8本のパイプより、単純計算で狭いことになる。
しかし、Nehalemでは1スレッドがピークで6パイプを占めることが可能だ。それに対してBulldozerは、スレッド当たりピークで4パイプとなる。

IntelのSMTでは、例えばメモリアクセスで1スレッドがストールしている場合も、別なスレッドが実行パイプを埋めることができる。そのため、パイプ の実行効率は高くなる。Bulldozerにはその利点はない。ストールしている間は、そのスレッドの整数コアは停滞してしまう。しかし、スレッド同士の リソースの競合は起こらないため、ピークの性能は削がれない。

つまり、IntelとAMDは、どちらも異なる考え方で、効率とピーク性能のバランスを取ろうとしている。Intelは、Nehalemの路線を維持すると考えられるため、両社の違いは、今後数世代は継続されると考えられる。



全文はImpress Watch


8: ラジオメーター(新潟県) :2010/02/05(金) 01:18:15.30 ID:M3kYYMjv
2011年 AMD 新アーキテクチャ

◇Bulldozer (Zambezi 4~8コア)
・32nmSOIプロセス High-K/メタルゲート採用
・3GHzを超えるクロック?
・1つのモジュールに2コアを内蔵 コア毎に独立した整数スケジューラとL1キャッシュ
・1つのモジュールに共有L2キャッシュ、L3キャッシュ、ノースブリッジ、128-bitのSIMD積和算ユニットを2基搭載
・浮動小数点演算ユニットや命令デコーダなどのリソースを2つのコア/スレッドで共有
※今後、増えていく浮動小数点演算のニーズをGPUで行うこと(ヘテロジニアス化)を見据えている
・クラスタードアーキテクチャ(HTよりマルチスレッド性能が高い) ※従来よりコア数を増やしやすい設計
・AMD独自のXOP、FMA4、CVT16に加え新命令のAVXサポート
・2ch DDR3-1866まで対応
・ソケット AM3(もしくはAM3r2) (チップセット890FX, 890GX、SB850が使用可能?)


http://pc.watch.impress.co.jp/img/pcw/docs/328/392/kaigai6.jpg
http://pc.watch.impress.co.jp/img/pcw/docs/328/384/amd-08.jpg
http://pc.watch.impress.co.jp/img/pcw/docs/328/379/02.jpg
http://pc.watch.impress.co.jp/img/pcw/docs/330/076/kaigai2.jpg



(・∀・)(・∀・)(・∀・)(・∀・)(・∀・)(・∀・) 従来の6コア

(・∀・∀・)(・∀・∀・)(・∀・∀・)(・∀・∀・) Bulldozerの8コア


30: やかん(大阪府) :2010/02/05(金) 02:28:27.28 ID:vwVqKn5p
(・∀・∀・∀・∀・∀・∀・∀・∀・) 

じゃあこれが一番効率良いんじゃねぇ?>>8


47: ボンベ(アラバマ州) :2010/02/05(金) 10:12:33.45 ID:lwGiyh6S
>>8
> 1つのモジュールに共有L2キャッシュ、L3キャッシュ、ノースブリッジ、128-bitのSIMD積和算ユニットを2基搭載

ノースブリッジじゃなくてメモリコントローラだろ


40: アスピレーター(大阪府) :2010/02/05(金) 03:00:18.35 ID:ZViyfYeO
>>8
ようするにINTELのHTパクったってこと?


41: ラジオメーター(新潟県) :2010/02/05(金) 03:38:58.25 ID:M3kYYMjv
>>40
 ブンシン!!   ブンシン!!    ブンシン!!   ブンシン!!
(・∀三∀・)(・∀三∀・)(・∀三∀・)(・∀三∀・) SandyBridgeでHT有効の場合 (4コア8スレッド)

ブンシンオワタ
(・∀・)(・∀・)(・∀・)(・∀・) SandyBridgeでHT無効の場合 (4.コア4スレッド)

6ニン ダヨ
(∵)(∵)(∵)(∵)(∵)(∵) Bulldozer(6コア6スレッド)

4ニン ダヨ
(・∀・)(・∀・)(・∀・)(・∀・) Core2Quad(4コア4スレッド)



HTは2コアを4スレッドに見せかけてる
Bulldozerは1コアをシンプルにして、CPUコアを多くしやすくした



99: ピンセット(関西地方) :2010/02/06(土) 14:26:49.50 ID:D17XhCtr
>>40
逆。
インテルのHTは、1コアを2コアに見せかけてマルチスレッドを処理する。

いっぽうブルドーザーは2コアでシングルスレッドを処理する。



15: 蛍光ペン(関東地方) :2010/02/05(金) 01:52:41.21 ID:X8Zd+I/7
インテル・サンディブリッジとの違いを誰か判りやすく説明してくれ


17: ざる(静岡県) :2010/02/05(金) 01:55:44.05 ID:RaQsQxQv
>>15

(・∀・)(・∀・)(・∀・)(・∀・) ←SandyBridge

(・∀・∀・)(・∀・∀・) ←Bulldozer



12: 落とし蓋(兵庫県) :2010/02/05(金) 01:47:30.39 ID:gUk+OzAn
マルチスレッドのクアッドとたいして変わらんのでは?


16: 音叉(群馬県) :2010/02/05(金) 01:53:05.68 ID:nr4x8XJ0
アホみたいに高い消費電力は改善されんの?


18: ラジオメーター(新潟県) :2010/02/05(金) 02:11:31.84 ID:M3kYYMjv
>>12,16
HTの4コアは8スレッドだけど、マルチスレッド性能が低下する場合がある。
BulldozerはCPUコアとスレッド数が同じなので、マルチスレッド性能が低下することが無い
その代わり、CPUコアをシンプルにしたのでシングルスレッド性能はIntelよりも低くなる

シングルスレッドを含め、トータル性能を引き上げ続けるIntel
CPUコアをシンプルにして効率的なCPUを目指すAMDって感じ
どちらが正しい方向性なのかは実際に出て、数年経ってみないと分からない



23: カンナ(不明なsoftbank) :2010/02/05(金) 02:23:48.61 ID:oK49vm63
>>18
エンコしまくる俺はこれ買えばいいんだな?


20: 修正テープ(dion軍) :2010/02/05(金) 02:14:18.20 ID:wv9DkR57
まだ、シングルスレッド性能を落とすと決まったわけじゃ・・・。
同数のコアで比較するとK10やNehalem、SandyBridgeよりピーク性能が落ちるのは
確定的だが。

ピーク性能同格同士だとこうでしょ。

(・∀・)(・∀・)(・∀・)(・∀・) ←SandyBridge

(・∀・∀・)(・∀・∀・)(・∀・∀・)←Bulldozer



21: 蛍光ペン(関東地方) :2010/02/05(金) 02:15:42.65 ID:X8Zd+I/7
>>20
でもそれだと消費電力でインテルに負けそうな希ガス


25: ラジオメーター(新潟県) :2010/02/05(金) 02:25:06.90 ID:M3kYYMjv
>>21
というか単純比較しにくい

同じ4コア
(・∀・)(・∀・)(・∀・)(・∀・) ←SandyBridge

(・∀・∀・)(・∀・∀・) ←Bulldozer


4コアと6コア
(・∀・)(・∀・)(・∀・)(・∀・) ←SandyBridge

(・∀・∀・)(・∀・∀・)(・∀・∀・)←Bulldozer



22: 羽根ペン(dion軍) :2010/02/05(金) 02:19:04.96 ID:CUB+QFl/
クロックあたりの性能落としてマルチスレッドとか浮動小数点演算性能を拡張命令でぶん回して
売りにするってまんまPentium4だよね
しかもプロセス技術で劣るAMDがクロック重視は危険でしょ、俺はこいつはコケると思う


24: 額縁(岐阜県) :2010/02/05(金) 02:24:59.66 ID:dWxObwGy
大丈夫かよ
実際こんなんが出るんじゃないの

( 。∀・∀・)(・∀・∀゚)(・∀・∀・)


27: ラベル(香川県) :2010/02/05(金) 02:27:23.78 ID:DYxjTSZz
>>24
クソワロタ


98: 額縁(富山県) :2010/02/06(土) 14:22:40.43 ID:eOdTJT0p
>>24
今日1番笑ったわ


90: 墨壺(東京都) :2010/02/06(土) 12:25:16.88 ID:NOooAEfG
>>17
>>20
>>24
わかりやすい上にオチまで付いたw
で、実際はそう考えてよいの?


110: 黒板消し(dion軍) :2010/02/06(土) 20:51:00.49 ID:8p5kuPpW
>>90
凡そ、実際のマルチスレッド時の性能比は、それであってると考えて良いでしょう。
(ハイパースレッディングも考慮しても)

SandyBridge 4コアとBulldozer  6コア(3モジュール)
SandyBridge 6コアとBulldozer  8コア (4モジュール)
これが同格同士。

今、特に話題になってるのは、AMDの発表どおりの仕組みだとすると
シングルスレッド性能が、SandyBridgeはおろか、K10と比べても
確実に落ちる事。 



115: げんのう(不明なsoftbank) :2010/02/06(土) 23:29:25.48 ID:Yf5zrGnS
>>110
Bulldozerの8コアよりK10の8コアの方が速くなっちゃうってこと?


116: シャーレ(埼玉県) :2010/02/06(土) 23:31:09.07 ID:lLiSXUXB
>>115
ワンコアしか使わないとk10の方が早いかも
けどマルチスレッティングな事だとブルドーザーの方が早い



117: 泡箱(dion軍) :2010/02/06(土) 23:37:37.69 ID:zf/GSGYm
8コア対8コアじゃBulldozerのほうが遅いでしょ
同じダイサイズや消費電力で普通6コアのところ8コアにできるという話だ



118: げんのう(不明なsoftbank) :2010/02/06(土) 23:40:07.02 ID:Yf5zrGnS
>>116
ありがとう。エンコくらいにしかCPUを酷使することしないから良かった。
シングルスレッドが遅くとも内部構造が何とかでマルチスレッドなら速いのか。


119: がんもどき(アラバマ州) :2010/02/06(土) 23:41:40.52 ID:B1CYZpld
マルチスレッドの本領発揮できるのはエンコぐらいだしスレッドあたりの性能を伸ばした方が良さそうな気がするが…


29: シール(アラバマ州) :2010/02/05(金) 02:28:22.64 ID:P+vvvGsJ
中身は1.5コアぐらいで
整数演算のみなら2コア分の性能を発揮できるが
浮動小数点演算のみなら1コア分の性能しか発揮できない
浮動小数点演算を多用するマルチメディア系、科学技術系ではアレな感じになるわけだ

つまりGPUの強力な浮動小数点演算性能と、それによるマルチメディア系の肩代わりをアテにしたもので
Bulldozerが出る前にGPUの時代が来ないと死亡確定

ところで>>1の記事完全に間違ってるよね?


32: 首輪(関西地方) :2010/02/05(金) 02:37:36.72 ID:QDasMDfV
今度はAMDがニコイチ言われる番か、12コアもニコイチだし


33: 紙(東京都) :2010/02/05(金) 02:38:01.41 ID:Mixszfoq
とりあえずBulldozerがでたらグラボと一緒に乗り替えろってことか
さいしょから4モジュール8コアとか出してくるのかな


34: 修正テープ(dion軍) :2010/02/05(金) 02:38:32.64 ID:wv9DkR57
実際はこう↓
 △    △   △   △      
(・∀・)(・∀・)(・∀・)(・∀・) ←SandyBridge

   △     △     △       
(・∀・∀・)(・∀・∀・)(・∀・∀・)←Bulldozer

三角の帽子がデコーダー=大きく電気を喰うとされる所。
帽子一個でSandyBridgeもBulldozerも1サイクルで4命令デコード出来る。
(但し、平均するとNehalemでもせいぜい2.2~2.3命令同時がやっとだそうな)

恐らく、Bulldozer はこの帽子に何かシングルスレッド性能落とさないような
秘密がまだあるのでしょう。

凝った帽子のせいで逆に電力効率はどっこいどっこいになったりして。



37: トレス台(アラバマ州) :2010/02/05(金) 02:45:06.66 ID:xu1WyjJB
よく分からん
2コアで1スレッドと認識されるの?


38: 輪ゴム(アラバマ州) :2010/02/05(金) 02:48:59.53 ID:0FLDFs7I
後藤は所詮インテルの腰巾着
まともな記事なんて書けない


39: 修正テープ(dion軍) :2010/02/05(金) 02:58:05.79 ID:wv9DkR57
後藤説によると、デコーダーにぶらさがっている2コアに交互に命令を
発行するとの事。(それで2スレッドを実現)
インテルかぶれの原田氏は、その辺書いてなかったけど。
(過去の両氏の推測は、あたりもあれば、大きくはずれてるのもある)
どっちにしろ、AMDからは、4命令を同時にデコード出来るとしか発表されてない。



48: 落とし蓋(兵庫県) :2010/02/05(金) 10:23:18.18 ID:gUk+OzAn
なんにせよOSやソフト次第って部分に変わりは無いんだろ


49: ボンベ(アラバマ州) :2010/02/05(金) 10:28:17.94 ID:lwGiyh6S
>>48
これからのゲームやOSやエンコアプリはマルチスレッドになっていくよ
そもそも今のほとんどのアプリはCPUボトルネックではなくHDDボトルネックだからね


52: 画鋲(熊本県) :2010/02/05(金) 10:57:01.39 ID:SvNkbelx
一方大手ベンチソフトはとある圧力でシングルスレッド重視(ry


54: レーザー(dion軍) :2010/02/05(金) 11:29:18.98 ID:RsmKr7du
Nehalem 4コア8スレッド
【――――――】
【――― ―――】【――― ―――】【――― ―――】【――― ―――】

Westmere 6コア12スレッド
【――――――】
【――― ―――】【――― ―――】【――― ―――】【――― ―――】【――― ―――】【――― ―――】

K10 4コア4スレッド
【――――――】
【――――――】【――――――】【――――――】【――――――】

Bulldozer 4モジュール8コア8スレッド
【――――】
【―――― ――――】【―――― ――――】【―――― ――――】【―――― ――――】

Better→

後は最適化で差がつく



65: 砥石(東京都) :2010/02/05(金) 17:21:40.13 ID:r4cDJsz8
よくわからないけどなんかかっこいいから2011年もAMD信者続行するわ


73: 綴じ紐(埼玉県) :2010/02/05(金) 21:01:17.12 ID:xRGBhD/z
まぁどちらにせよ真打イスラエルチームにぶっちぎられるんだろ?


75: トレス台(熊本県) :2010/02/05(金) 22:35:12.80 ID:ipJU8Ktu
1core→複数core→1coreの流れになるんだろうな
複数にしてある程度性能が上がると
同期が取れなくなって1coreに戻るという


76: レーザーポインター(三重県) :2010/02/05(金) 23:25:40.99 ID:C1ZF1KQI
GPU部門と同じで効率重視か


82: 巾着(関西地方) :2010/02/06(土) 09:25:44.46 ID:bbac1VGT
これ出す前にAMD潰れるだろ
GPUもNVIに市場負けてるのに更にGT100投入されたらラデチョンなんか確実に駆逐されるじゃん
CPUなんか性能もわかってない余程のアホしか買ってないし


83: バールのようなもの(三重県) :2010/02/06(土) 09:33:36.58 ID:3xoUfGrc
GPUなんか性能も分かってない余程のアホしか買ってないしな Nvidiaの


84: 巾着(関西地方) :2010/02/06(土) 10:58:19.38 ID:bbac1VGT
それはないな
あらゆるFPSの大会では全部ゲフォが採用されてる
ラデチョンは動作、性能ともに不十分だから採用されてないんだよ
ラデチョン信者の妄想怖すぎ


88: エバポレーター(岐阜県) :2010/02/06(土) 11:48:21.42 ID:jtdKTkwK
amdっていつ倒産するの?


89: テンプレート(山形県) :2010/02/06(土) 11:55:34.45 ID:gJn4kMMr
>>88
Intelからぶんどった金とアラブ系のファンドの支援有るうちは大丈夫。


91: 指錠(東京都) :2010/02/06(土) 13:15:18.18 ID:DJh/7/dw
性能なんて実物でてこないと分からんよ


92: 巾着(関西地方) :2010/02/06(土) 13:28:02.05 ID:bbac1VGT
たしかにね
この会社の製品は不具合や問題があっても平気で出すから人柱がいないと電源がショートしないか確認出来ないもんね


93: やかん(不明なsoftbank) :2010/02/06(土) 13:49:20.14 ID:hj2gavll
関西さんいつも通りAMDアンチお疲れ様です


96: オートクレーブ(福島県) :2010/02/06(土) 13:54:40.54 ID:qoYyfd9H
Intelのほうが酷い不具合は多いでしょ


85: サインペン(兵庫県) :2010/02/06(土) 11:16:26.61 ID:/pkEDcCS
ブルドーザーなんかどうでもいい
俺が欲しいのはLlanoだ
CPU・GPU・ノースブリッジ・サウス、全部ワンチップにしてITXに放り込め
これでゲームもそこそこにできるハイコストパフォーマンスPCの出来上がりよ


95: 手枷(東京都) :2010/02/06(土) 13:53:54.93 ID:j0bq5KHa
効率重視とかクロックあたりの実効性能は落ちるとかそういうの困るんですよ
それって3DゲームでFPSでないってことじゃないですか?
やっぱどれだけFPS伸ばせるかってとこで勝負しないと


102: 泡箱(dion軍) :2010/02/06(土) 14:45:21.69 ID:zf/GSGYm
巨大ダイはデスクトップ向けは儲からん
BulldozerはOpteron特化にするから
一般ユーザーはK10シュリンクのLIano使ってねってところ

113: すり鉢(東京都) :2010/02/06(土) 22:31:35.93 ID:/S3bCf3U
Pentium4 HT
(´・ω・≡・ω・`)
PhenomⅡX4
\(^o^)/\(^o^)/\(^o^)/\(^o^)/
Celeron Dual-Core
( ゜ω゜ )( ゜ω゜ )
Core2Duo
( ^ω^ )( ^ω^ )
Core2Quad
( ^ω^ )( ^ω^ )人( ^ω^ )( ^ω^ )
PentiumG
( ^ω^ )( ^ω^ )人(^o^ )
Core i3 5--X
( ^ω^≡^ω^)( ^ω^≡^ω^)人(^o^ )
Core i5 6--X
⊂二( ^ω^≡^ω^)⊃⊂二( ^ω^≡^ω^)⊃人(^o^ )
Core i5 7--X
⊂二( ^ω^)⊃⊂二( ^ω^)⊃⊂二( ^ω^)⊃⊂二( ^ω^)⊃
Core i7 8--X 9--X
⊂二( ^ω^≡^ω^)⊃⊂二( ^ω^≡^ω^)⊃
⊂二( ^ω^≡^ω^)⊃⊂二( ^ω^≡^ω^)⊃
Core i9
⊂二( ^ω^≡^ω^)⊃⊂二( ^ω^≡^ω^)⊃⊂二( ^ω^≡^ω^)⊃
⊂二( ^ω^≡^ω^)⊃⊂二( ^ω^≡^ω^)⊃⊂二( ^ω^≡^ω^)⊃



120: クレパス(神奈川県) :2010/02/06(土) 23:45:19.97 ID:2H7KZ04Y
>>113
GulftownはCorei7シリーズになったよ


121: 蒸し器(千葉県) :2010/02/06(土) 23:49:01.58 ID:xAXzn7I2
現行のソフトってメインのスレッドだけで重い処理してるのが多いし、
マルチコアって聞いても使い道がサーバー特化にしか見えないよな。


122: ミキサー(dion軍) :2010/02/07(日) 00:03:27.34 ID:z/c8EztN
>>121
だから普通に考えて
ソフトがどんどんマルチスレッド対応になるんだろ


123: オーブン(佐賀県) :2010/02/07(日) 00:38:59.10 ID:VD1O8R0t
まだシングルスレッドが遅くなると決まったわけじゃないけどね
K7から改築しまくって効率悪い3wayのK10.5より、
新設計で2wayに最適化したBulldozerの方が速いかもしれない

なんせ、3wayより2wayで事足りる処理が圧倒的に多いらしいし、
同じ2wayでの処理なら新設計のコアのほうが速いからね
(3way必要な処理で劣っても、2wayの処理で劣るような設計だと意味がない)


でも実際日本のプログラマもそろそろマルチスレッド処理くらい扱えるようにならんといけないのかも

はぁ~面倒くさい。


126: 包丁(千葉県) :2010/02/07(日) 01:09:21.83 ID:8Miv5mLV
設計が面倒くさいよな。
正直レンダリングぐらいしか効率化できない気がするんだが。




このエントリーをはてなブックマークに追加



1 件のコメント :

  1. 単なる並列処理じゃ面白くない。いい加減、CELL並に変態性の有るわくわくするチップ出来んのかねぇ。
    実際、⊂二( ^ω^≡^ω^)⊃の絵の様な程の差も無いですよね。

    返信削除

【注意】投稿前にコメントの名前欄の確認を!!【注意】
Googleアカウントにログインした状態でコメントする際は、「コメントの記入者」の欄をよく確認してから投稿するようお願いいたします。

自動スパム検出機能により投稿が反映されない場合があります。スパムでないことが確認でき次第公開しますので、しばらくお待ちください。