マルチスレッドプログラミング相談室その9

TOP カテ一覧スレ一覧 100～終まで 2ch元削除依頼
スレ立てるまでもない質問はここで 149匹目
Win32API質問箱 Build126
Pythonのお勉強 Part62
クラス名・変数名に迷ったら書き込むスレ。Part28
TypeScript part3
【MACRO】Google Apps Script 質問スレ【DRIVE】
プログラミングのお題スレ Part14
家計簿ソフトを作る
Visual Studio 2019 Part3
プログラミングのやる気出す方法教えてくれ

1 ：2012/06/15 ～最終レス：2019/12/05: マルチスレッドプログラミングについて語るスレ
■前スレ
マルチスレッドプログラミング相談室その8
http://toro.2ch.sc/test/read.cgi/tech/1253521167/
■過去スレ
その１ ttp://pc3.2ch.sc/tech/kako/997/997345868.html
その２ ttp://pc5.2ch.sc/test/read.cgi/tech/1037636153/
その３ ttp://pc8.2ch.sc/test/read.cgi/tech/1098268137/
その４ ttp://pc8.2ch.sc/test/read.cgi/tech/1130984585/
その５ ttp://pc11.2ch.sc/test/read.cgi/tech/1157814833/
その６ ttp://pc11.2ch.sc/test/read.cgi/tech/1187008532/
その７ ttp://pc12.2ch.sc/test/read.cgi/tech/1215253576/
OS・言語・環境は問わないが、それゆえ明記すべし。
テンプレ
【ＯＳ】
【言語】
【実行環境】
【その他特記する事項】
2 ：: ■関連スレ・関連性の高いスレ
ネットワークプログラミング相談室 Port28
http://toro.2ch.sc/test/read.cgi/tech/1334736934/
3 ：: >>1 乙
前スレ >>994
並列実行「可能」でも「スケールする」かは知らんぞ。
OpenMP なら !$omp parallel do としてコンパイルオプション /Qopenmp
4 ：: >>前すれ995
そういうオプションがあるのですね，レポートと書き直したソースを添付します．
http://www5.puny.jp/uploader/download/1339744079.zip
pass:giko
potential OUTPUT 依存関係
らしいですが，ググってもよくわかりません．依存関係がないように>>前すれ999のようにpureに書き換えたのですが．
>>前すれ997
これは試しにつけてみただけのものです，やはり使い方が違いますか・・．
5 ：: gfortran -O3 20120528_fast_pararell_subroutine.f90 -ftree-vectorize -msse2 -ftree-vectorizer-verbose=2
6 ：: 彼女二人と同時にデートする時はマルチスレッドじゃないといけないんだけど
どうすればいいかな
7 ：: 時分割でがんばれ
8 ：: Analyzing loop at 20120528_fast_pararell_subroutine.f90:237
237: not vectorized: not suitable for gather D.2660_224 = *shoi_69[D.2659_223];
Analyzing loop at 20120528_fast_pararell_subroutine.f90:196
196: not vectorized: not suitable for gather D.2600_148 = *a_147(D)[D.2599_146];
Analyzing loop at 20120528_fast_pararell_subroutine.f90:150
150: not vectorized: loop contains function calls or data references that cannot be analyzed
Analyzing loop at 20120528_fast_pararell_subroutine.f90:131
131: not vectorized: not suitable for gather D.2767_169 = *a_86(D)[D.2766_168];
Analyzing loop at 20120528_fast_pararell_subroutine.f90:91
91: not vectorized: not suitable for gather D.2704_87 = *a_86(D)[D.2703_85];
Analyzing loop at 20120528_fast_pararell_subroutine.f90:37
37: not vectorized: not suitable for gather D__I_lsm.780_635 = MEM[(real(kind=8)[0:] *)D.2433_241][pretmp.758_17];
Analyzing loop at 20120528_fast_pararell_subroutine.f90:38
38: not vectorized: not suitable for gather D.2485_318 = MEM[(real(kind=8)[0:] *)D.2298_95][D.2484_317];
9 ：: >>4
ループ間で出力変数に依存関係があるかも、という判断。
○ i, j は value 属性を付け、b は戻り値にする。
○ サブルーチン inv の宣言部に interface で sho_det の引数属性を書く。
ここまでで依存はクリア、反復回数が少ないかも、というようになる。
/Qpar-threshold0 オプション (100～0) で並列化は完了。

10 ：: bに依存がないことくらい解析できてもよさそうなのにね
11 ：: sho_det呼び出しの２重ループで並列化できるの？
12 ：: 双子と付き合う時はマルチスレッドのチンポ子が欲しい。
13 ：: クリティカルセクションとかミューテクスって重いんですか？
秒間2500回とかマジキチですか？
14 ：: 400μ秒は今のパソコン環境でも、厳しいんじゃね
何をしたいかにもよるけど、専用環境作ったほうがハマらんかもね
15 ：: ロックフリー！
16 ：: >>13
そのあたりだと、API 呼び出しのオーバーヘッドもバカにならないから
自前で実装したほうがいいんじゃね？
17 ：: https://gist.github.com/2841832
によれば
> Mutex lock/unlock 25 ns
18 ：: >>13
重いけどそれくらいならいけると思う
できるならスレッドごとにリソースもって
最後に合体させたほうが速い
19 ：: 申し訳ありません，並列化ですが，解決しました．
/Qpar-threshold(並列化のしきい値)の値を100から20ぐらいまで下げたら5スレッドで実行されました．
ただ，ものすごく，計算が遅くなってしまって，なおかつ不必要なところまで並列化されてしまったようです．
このループだけ並列化したいっていうような指定ってできるのでしょうか？
20 ：: >>17
Mutexってスレッド数によると思うんだけどな。
シングルコアならオンキャッシュで対応できるけど、
マルチコアだったりマルチCPUだったらメモリ参照と大差ないと思う。
21 ：: 答え教えてもらって、闇雲にやるのが今風なの？
22 ：: それって、単純ループがスレッド化されただけじゃねえの？
23 ：: 実行環境に寄って自動で最適化して欲しいよね。
ちょっと違うけどjitみたいに自分でプロファイルとって実行処理罹る所を重点的に最適化とかさ。
4coreの環境と64coreの環境といちいち最適化するのめんどくさい。
24 ：: core数増えたから、早くなるってわけでもないでしょうに
25 ：: 効率が悪かろうと並列化したいループには !DEC$ PARALLEL ALWAYS
※ 依存性に目をつぶれという指示ではない
> 64core の対応
３日かかる計算を１時間に押し込みたいなら、やる価値はある。
１分の処理が１秒になることを期待するなら、最適化する時間のほうが長い。
そもそも、大体の 64core での性能問題は 4core では小さくて見えないだけ。
スケールするとかしないとかはそういう話。
26 ：: 速くなってくれないと高額な多コア買った意味無いんだが。
27 ：: それは、プログラム作ったベンダーに言え。
場合によっては、どれくらい高速化するかの見積もりくらい出してくれるだろ。
28 ：: 分散処理できるように考えるほうが難しいのに
道具によってはできることとできないことがあるでしょ
29 ：: 多コア化すれば、将来は、割込優先スレッド用コア、時分割スレッド用コア、OS用コアに別れて、それぞれのコアが空き時間でどうでもしてくれスレッドを処理するようになる気がする。
そうしないとスケジューリングに費やすコストが無駄だ。

30 ：: あまり賢そうに見えないな
31 ：: gpuが標準的になった時点で、非対称プログラミングが当たり前になるから、コア間に使い分け、役割分担が発生するのは必然じゃないかな。もっともどのコアがどの役割をやるかは、スケジューラが決めることになるけど。
32 ：: 標準的な入出力は動くコア決めたほうがいいかもしれんけど
プロセス、スレッドはどのコアで動こうが関係無いような
どうせ、暇な？コアに割り当てられるだろうから
33 ：: linuxだとこういう指定が出来るようだ
ttp://linuxjm.sourceforge.jp/html/LDP_man-pages/man2/sched_setaffinity.2.html
34 ：: それぐらいは WindowsNT 4.0 からあるが。
SetProcessAffinityMask
http://msdn.microsoft.com/ja-jp/library/cc429334.aspx
35 ：: コア数とかうるさい割にapiのことは言わんのね？
36 ：: pスレッドについて教えてください。

関係性のない処理を行う２つのスレッドＡ、Ｂを同時に動かし始めたいのですが、
・スレッドＡの待ち状態にpthread_cond_wait(&cond, &mutex1);
・スレッドＢの待ち状態にpthread_cond_wait(&cond, &mutex2);
として（condは同じで、mutexが異なる）、これらを動かし始めるために別スレッドで
pthread_cond_broadcast(&cond);
をコールしたのですが、思ったとおりに動いてくれません。
なにがいけないのでしょう？
（pthread_cond_wait()の使い方を間違えている？）
37 ：: 馬鹿には無理
38 ：: >>36
broadcast を受ける側のスレッドは、 broadcast するときに wait していなければいけない
broadcast したときに wait しているスレッドがいなければ、無駄撃ちになる
通常 cond が mutex と一緒に使われるのは、ターゲットが wait に入る一瞬前に broadcast を撃って運悪く外れたりするような事態を回避し、確実に当たるようにするため
思ったとおりに動いてくれないというのなら、あなたの使い方には何か誤りがあって、そういった問題を防ぎ切れていないのだろう
39 ：: >>38
素朴に待っていると思っていたスレッドが、実は待っていないせいで
シグナルがすり抜けていたということですね
このての、「関数を素朴に並べただけでは思いどおりに動作しない」問題の対応方法には
それぞれに決まった「お作法」「イディオム」がありそうな気がしますが、どうなんでしょう？

ともかく、ありがとうございました
40 ：: >>39
pthreadの粒度が小さい場合、threadの実行順序がぐだぐだになるから要注意。
結論としては、充分長い処理でもない限りcond_waitは使えない。
41 ：: >>40
頭で考えたアルゴリズムを実験するときに「安全装置」を省略したせいで
かんたんなこーどなのにはまるなんてありそうですね・・・・
自分が使いたい本番コードは、各スレッドの処理に十分なマスがあるので
素朴なつくりでもそれなりに動いたかもしれませんが、
再現性のないトラブルが発生する前にそういう問題を認識できてよかったです
ありがとうございました
42 ：: >>41
去年の暮れ辺りに悩んでいたのが、mutexでスレッドプールを管理していたツールなんだよね。
mutexは相手がロックしていれば待つけど、相手がスケジュールはずされてロックしてくれていないと
自分が待たずにロックしちゃうことに。
メインスレッドでmutex_unlock(); mutex_lock()のように書いているのにunlockしたあと
lockするところまで実行できないなんてちょっと想像しにくいぞ。
# 詳細不明だけど、unlockした時点でプールスレッドがスケジュールされてメインスレッドがスケジュールからはずされるっぽい。
43 ：: いつでもどんな時にでも
スケジュールから外されても動かされても
大丈夫なように作るのが鉄則
44 ：: そうそう。
だから、Web上のサンプルは当てにならない。
45 ：: そもそも並列化したいのは高速に処理したいからじゃん？
サンプルにかならずあるsleep()を消すと、途端にまともに動かなくなる
まともに動かなくなるならまだいいけど、「ときどき動作がおかしい」これ最悪
46 ：: て言うかサンプルってそういうもんだし。
そもそも >>42 が
> mutexは相手がロックしていれば待つけど、相手がスケジュールはずされてロックしてくれていないと
> 自分が待たずにロックしちゃうことに。
って書いてるけど、それ以外にどんな動作を期待してるのか、よくよわからん。
47 ：: マトが止まっていないとシグナルがすり抜けちゃうなんて最初はわかんないでしょ
そんなことより、マトがトマるだって・・・・・！喜ｗ
48 ：: ﾀﾞﾚﾓｲﾅｲ・・・・・・ﾀﾞｼﾞｬﾚｵｿﾙﾍﾞｼ・・・・・

素朴なＱなんですが、マルチＣＰＵのマシンで、
①ひとつのプロセスに属するスレッドは、全部同じＣＰＵ（プロセスがいる）で動く
②ひとつひとつのスレッドが独立してＣＰＵを渡り歩いているように見えるのは、
　スレッド単体ではなく、それの属するプロセスが渡り歩いているため

こういう理解は正しいですか？
49 ：: スレッドの割り当てとかはOSが決めてることだからね
OSの挙動に影響しないようなことを考えながらやりませう
マルチCPUじゃなく
単一CPUの時のスレッド等の挙動を考えてみませう
50 ：: 同じプロセッサ内のコアを移動するならまだしも、別のプロセッサに移動してしまったら、
せっかく溜め込んだキャッシュがおじゃんになってしまうのではないでしょうか？
51 ：: 逝ってるなマルチコアはCPU毎に命令データキャッシュ持ってるでしょ
52 ：: でも分岐したらダメなのでは？
53 ：: よく考えたら、分岐するんだったらＣＰＵ移らなくてもダメだった
ﾄﾞﾋﾟｭｯ
54 ：: 命令の先読みとかやってるの知ってる？
同じ領域を読み込む場合に早くなるってのがキャッシなのでは？
HDDキャッシュとかも同じでしょ
55 ：: 別のプロセッサに移動してしまったらキャッシュとかおじゃんになってしまうかもしれないが、
ひとつのプロセッサに多数のスレッドが集中して別のプロセッサを遊ばせておくくらいならいくつかのスレッドを移した方がいい場合もある
OSの裁量次第
56 ：: キャッシュ知らんでも
スレッド系のプログラム作るのには関係無いような
速度ウンタラは動いてから考えればいい話でしょ
57 ：: 初心者の質問です
new;した領域 p があって
スレッドAは条件によってdelete p;をする
スレッドBはpを参照する
この時に
変数 blReference, blDeletingを使って
Aの処理中 delete部分
while( blReference ){ Sleep(1); }
blDeleting= true;
delete p;
p = NULL;
blDeleting = false;
Bの処理中参照部分
while( blDeleting ){ Sleep(1); }
blReference = true;
char* cp = (char*)p:
//以下参照
blReference = false;
っていうのは安全でしょうか？
58 ：: >>57
先ず基本的にblReference, blDeletingとも、きちんと扱えるようにしないとダメ。
要は、OSの用意しているクリティカルセクションなどの機構を使う必要がある。
つーか、マルチスレッドプログラミングの基本なんだが、大丈夫なんか?
それと、cpにNULLが代入されること自体は問題ないの?
59 ：: weak_ptr使えハゲと言うしかないレベル
60 ：: weak_ptrってboost?
マルチスレッドを考慮されていたの?
61 ：: >>58
volatileしておけば、
まあいいんじゃない
sleep で待つのは効率はよくなさそうだけど
62 ：: volatile使ったとしてもコンパイラによっては安全だとは言えないんだよ
63 ：: 安全って、思いたい理由の方に興味があるんだけど
64 ：: むしろ安全だといえるコンパイラを知りたい
65 ：: volatile使っても結果変わらない事の方が多い気がする
66 ：: そりゃそうだ
67 ：: 安全だと思うと、コンピュータがそれを理解して動いてくれると思いたいのかな
68 ：: volatileしてダメだったケースに遭遇したことないなあ。
まあboolでの同期・排他は簡単なケースにしか使ってなくて、
まじめなのはcritical sectionとかmutexで排他・同期するから
気がついてないだけかもしれないけど。
69 ：: >>57
>// スレッドA
>while( blReference ){ Sleep(1); } // 1
>blDeleting= true; // 3
>// スレッドB
>while( blDeleting ){ Sleep(1); } // 2
>blReference = true; // 4
スレッドの処理が時間的に番号の順で行われる場合がある。
つまり、この処理はスレッド間の排他にはなっていない。
おとなしくクリティカルセクションを使ってロックした方がいい。
70 ：: >>69
InterlockedExchangePointerは？
71 ：: 質問ですが、Windows APIのSetEvent()やWaitForSingleObject()って、
内部で適切にメモリバリアを行うことが保証されていますか？
例えば、下記のケースにおいて、_WriteBarrier()や_ReadBarrier()は冗長？
（メインスレッド側）
　bTerminate = true;　　// volatile bool型
　_WriteBarrier();
　SetEvent(hEvent); // スレッドを起床させる
（ワーカースレッド側）
　WaitForSingleObject(hEvent);　　// 起床されるまで待つ
　_ReadBarrier();
　if (bTerminate) { .... } // メインスレッドから通知されたbTerminateに基づく処理
72 ：: も一個、volatile bool a, b; があるとして、
　a = c;
　b = d;
の代入順序は、a, bがたとえatomicな型でvolatileだからといって
プロセッサのアウトオブオーダー実行のレベルでは実施される順序が保たれる保証はない、
よって、上記代入を行ったコア以外のコアからaやbを代入順序依存で参照する場合は
メモリバリアが　必　須　、
という理解で合っていますか
73 ：: >>71
http://msdn.microsoft.com/en-us/library/ms686355%28VS.85%29.aspx
> The following synchronization functions use the appropriate barriers to ensure memory ordering:
> ・Functions that enter or leave critical sections
> ・Functions that signal synchronization objects
> ・Wait functions
> ・Interlocked functions
>>72
はい
74 ：: >>64
javacやcscじゃね
75 ：: メモリバリアってのはgcc特有の表現で
atomicな処理とは関係ないんだけど
76 ：: >>73
㌧クス
SetEvent()は2番目（・Functions that signal synchronization objects）、
WaitForSingleObject()は3番目（・Wait functions）ってことでおkそうですね
>>75
メモリバリアはアウトオブオーダー実行するアーキテクチャに共通する概念であってGCC固有というわけではないですにょ
とかいろいろあるが説明がﾏﾝﾄﾞｸｾ、
77 ：: ただの最適化抑止のおまじないみたいなもんだよ
78 ：: >>77
ちょっそれvolatileの方ｗｗｗｗｗ
まあ>73の通り、Windows API内部でよろしくやってくれるので普通はメモリバリアの方は意識しなくて良いっぽい
おそらくUNIXのシステムコールも同様でよろしくやってくれるから知る人ぞ知る知識になってしまうのだろう…
79 ：: マルチコア時代の並列プログラミング
～ロックとメモリオーダリング～
http://www.nminoru.jp/~nminoru/data/b2con2006_nminoru.pdf
80 ：: gccのvolatileってのは、ちょっと特殊なんだよ
81 ：: >>77,78
真相はもっと複雑怪奇だったりする
http://yamasa.hatenablog.jp/entries/2009/07/20
http://msdn.microsoft.com/ja-jp/library/bb310595%28VS.85%29.aspx
つまり、VC++2005以降である限り、volatileを使うとメモリバリアも面倒をみてくれるらしい…
82 ：: ここらへんの話は
　・（インラインでない）関数呼び出しの副作用を恐れてコンパイラが最適化を自粛
　・volatileによって明示的に最適化が抑制
　・システムコール内でメモリバリアの面倒をみてくれる
　・ハードウェアがコア間でキャッシュのコヒーレンスをとってくれる
といった事情が絡み合った結果、運よく問題を生じないケースも多々あるので
コードをバリバリ書いているような人でもきちんと理解していないことがある（あった）
83 ：: アトミック変数とか作って、ド素人に誤解釈されたらどうすんだろ、この人
84 ：: >>81
> つまり、VC++2005以降である限り、volatileを使うとメモリバリアも面倒をみてくれるらしい…
そこで面倒を見てくれるのは「release/aquireメモリバリアとしてのみ」であることに注意。
http://yamasa.hatenablog.jp/entry/20090816/1250446250
こっちのSequential consistencyの性質は、VC++2005以降のvolatileでも持っていない。
85 ：: >>83
ドシロウトがなんでスレッド使った開発に加わるんだよ
86 ：: なんで排他の話ばっか出てくるんだ。
スレッド間で書き換えしまくるような変数なんて殆ど無いだろ。
それはともかく、C++向けのクロスプラとフォームなスレッドキューって無いものか。
87 ：: >>86
>なんで排他の話ばっか出てくるんだ。
マルチスレッドで問題になるところと言うか、排他を最近覚えた奴が
使いたくてしょうがないんだろ。
88 ：: >>86
スレッドの実装が違うだろう、LinuxとUNIXなら同じだが
89 ：: >>85
じゃあ、うわっつらの言葉だけ知ってる甘ちゃん系ではどう？
90 ：: >>88
boostとか抽象化レイヤー用意すればできるだろ。
しかし、仕様の安定したスレッドキューがない。
もう、自作スレッドキューを保守するのは嫌だお
91 ：: >>90
皮かぶせりゃいいだろうけど、
そこまでして、
そこまでしても
92 ：: おまえら何回C++におけるatomicとvolatileの話を繰り返せば気がすむの
93 ：: それしかネタがないからさ
94 ：: >>92
スレッドキューの話しだせ
95 ：: だって手法なんて先駆者が出し尽くしただろ
96 ：: スレッドキューって何だ？
スレッドセーフなキューってことか？
それともGCDみたいなタスクキューのことか？
97 ：: タスクキューのことだよ。
てかスレッドセーフなキューってなんだよ。それだったら
別にキューに限定せずスレッドセーフなコンテナの話でいいだろ。
98 ：: java.util.concurrent.BlockingQueueのことだろ
99 ：: 同期処理を間違いなく設計するための、何か良い手法やツールはないですかね？
ペーペーのビギナーだというのもあるのですが、
複数のmutexを混在させなければいけない時にぼんやり書いたコードでデッドロックを発生させたり、
waitに到達していないのにシグナル発射する可能性のあるコードを書いてしまって、
そのデバッグで無駄に体力を消耗しています
100 ：: 馬鹿には無理

100～のスレッドの続きを読む

プログラミングのお題スレ Part14
シェルスクリプト総合その32
【Delphi互換!?】FreePascal/Lazarus その2【GPL】
構造化ウェブプログラミング言語Dart2
C++/TemplateMetaProgramming
nim
ふらっと C#,C♯,C＃（初心者用） Part147
いもうとデスクトップを実際に作ってみないか？3
逆コンパイラCodeReverseを作る
【知識】俺のためのプログラム覚え書き【共有】
--------------------
【Switch】マリオカート8デラックス LAP187
【妻夫木聡】オレンジデイズ【柴咲コウ】
【バーチャルYoutuber】にじさんじ有ンチスレ8238【新人応援しないスレ】
【Ash tale】アッシュテイル-風の大陸-【アシュテ】晒しスレ Part15
【バーチャルYoutuber】にじさんじ有ンチスレ9620【れなおばvsクソマロ】
【羽柴】武家の臣下への賜姓について【松平】
【悲報】中高生が選んだ「令和の教科書に載りそうな有名人」にとんでもない人物がランクインｗｗ
真野の旦那がスペインで酷い目に合っている件。チームは2部で断トツ最下位。しかも旦那はレギュラー剥奪。
【明田川ガイジは】アニメ・声優CDの売り上げを見守るスレ 45【黒木真一郎の再来】
■FF14β守秘義務を守らない奴を晒すスレvol.1■
【SKYLINE】BNR32･BCNR33･BNR34 Part2【GT-R】
【SE】結婚障害【PG】
■不倫■　岡田准一　と　宮崎あおい　■純愛■
【GENESIS】トニー・バンクスを応援するスレ【お局様】
別館★羽生結弦＆オタオチスレ9958
萌えと哀しみの落日ジャンル 8.5年目
Visual Studio 2005 Part 27
うたわれるもの総合 part334
ネオジオのカセットって何であんなに高かったの？
【青葉ｾﾝﾀｰ】もしもしﾎｯﾄﾗｲﾝ宮城PART4【東北支店】
TOP カテ一覧スレ一覧 100～終まで 2ch元削除依頼

マルチスレッドプログラミング相談室 その9

マルチスレッドプログラミング相談室その9