プロファイリングとチューニング (Gauche ユーザリファレンス)

3.6 プロファイリングとチューニング

自分のスクリプトのスピードが十分に出ないというときには、性能を改善するポイントとして考えられる点がいくつかあります。

どんなときでも、実行時間を食いつぶしているコード部分を見つけるというのを先ず最初にやるのがよいでしょう。Gauche にはこの作業を補助する基本的なツールが2つあります。組込のサンプリングプロファイラ(これについては次の節で説明します)を使えば各手続きでどれほどの時間がかかり、その手続きが何回呼ばれたかを表示できます。gauche.time モジュール (gauche.time - 時間の計測) ではコードの中の特定の部分の実行にかかる時間を測定するためのAPIが提供されています。

最適化というのは特殊化ということでもあります。もっともよく使われる実行のパターンを探して、そこを効率よく実行する専用のパスを設けることです。Gauche 自身も例外ではありません。したがって、Gaucheが効率よく実行できるパターンがいくつかありますし、また一方では効率よく実行できないパターンもあります。次の節では、パフォーマンスに関するヒントでは Gauche が効率良く実行できるパターンにコードをあわせるチョットしたコツを教えましょう。

3.6.1 プロファイラを使う

0.8.4 から Gauche は組込みのプロファイラを備えています。これは現時点ではまだ実験的なもので、Linux 上でしかテストしていません。すべてのプラットフォームで利用できるわけではありませんし、シングルスレッドのアプリケーションでしか動きません。

非対話環境でこのプロファイラを使うには、gosh のコマンドラインオプションとして -ptimeを指定してください。

% gosh -ptime your-script.scm

your-script.scm の実行完了後、Gauche は各関数についてその呼び出し回数および消費時間を示した表を印字します。この表は総消費時間の順でソートされています。

Profiler statistics (total 1457 samples, 14.57 seconds)
                                                    num    time/    total
Name                                                calls  call(ms) samples
---------------------------------------------------+------+-------+-----------
combinations*                                       237351  0.0142   337( 23%)
(lset-difference #f)                               1281837  0.0020   256( 17%)
(make-anchor make-anchor)                          3950793  0.0005   198( 13%)
member                                             4627246  0.0004   190( 13%)
filter                                              273238  0.0030    81(  5%)
every                                              1315131  0.0004    59(  4%)
(lset-difference #f #f)                            1281837  0.0004    54(  3%)
(make-entry make-entry)                             730916  0.0005    40(  2%)
(clear? #f)                                         730884  0.0005    33(  2%)
(initialize #f)                                     599292  0.0005    32(  2%)
fold                                                237307  0.0013    30(  2%)
acons                                               806406  0.0004    29(  1%)
clear?                                               33294  0.0084    28(  1%)
(combinations* #f)                                  805504  0.0002    15(  1%)
(make-exit make-exit)                               730884  0.0002    15(  1%)
lset-difference                                     237318  0.0006    15(  1%)
reverse!                                            475900  0.0001     6(  0%)
(fold <top> <top> <list>)                           237323  0.0003     6(  0%)
procedure?                                          238723  0.0002     4(  0%)
pair?                                               237307  0.0001     3(  0%)
 :
 :

時間プロファイラは統計的標本化をおこなっていることに注意してください。プロファイラは10ミリ秒ごとにプロセスに割込んで、その時点で実行されている関数を記録します。ナノ秒オーダの関数呼出しごとの個別の実行時間に比べると、このサンプリングレートはかなり粗いものです。しかしながら、プログラムの実行時間が長ければ、各関数ごとの標本分布は関数ごとの消費時間をほぼ反映しているだろうと期待できます。

数字はあくまで近似にすぎないことを心にとめておいてください。ひとつの関数あたりの標本数はプログラムが扱うデータが違えば、すぐに変化してしまうことがあります。また、今のところGCにかかる時間はGCがトリガされた関数の実行時間に算入されてしまっていることに注意して下さい。これによって、あまり重要でない関数がリストの上位に浮かびあがってくることがあります。一般的なパターンを知るには、プログラムをいろいろなデータで走らせてみると良いでしょう。

一方、関数呼び出し回数のカウントは正確なものです。これは Gauche は実際の呼出しごとにカウントしているからです。

Schemeでは基本的にすべての関数は無名なので、プロファイル結果の’name’ フィールドはヒントにすぎません。トップレベルで束縛されている関数については通常それが最初に束縛されたグローバル変数名が印字されます。内部関数については関数の入れ子構造を反映して名前のリストが印字されます。メソッドは、名前と特定化子のリストとして印字されます。

プロファイラはそれ自身にオーバヘッドがあります。通常は、処理時間が 20-30% 増加します。プロファイラを選択的にオンにしたい場合や、停止しないサーバプログラムを走らせていて、そのサーバを停止することなく、統計を取りたいような場合には、プログラムからプロファイラ APIを呼ぶことができます。詳細についてはプロファイラAPI を参照してください。

3.6.2 パフォーマンスに関するヒント

「論より run 」これがパフォーマンスチューニングの第一法則です。 Scheme のような高級言語では、何がパフォーマンスに強い影響を与えるかはことのほかその実装に大きく依存し、ある処理系ではとても安価な操作が別の処理系ではとても高価になり得ます。 Gauche にもそのようなパフォーマンスに関する実装特有の特徴があり、それらのうちのいくつかを知っておくことは、ベンチマークの結果のどこに着目すべきかを知るうえで助けになるでしょう。

「ソースコードの2割が実行時間の8割を消費する」というのも古くから言われています。実際の実行時間に大した影響を及ぼさないところを下手にいじくってプログラムをわかりづらくすることは避けましょう。これからいくつかのヒントを述べますが、これらのことを四六時中気にしてプログラミングしなければならないということではありません。むしろ、出来るだけ明瞭でわかりやすいプログラムを心がけ、ループの一番深いところ (もっとも時間を消費するところ)でこれらのトリックを使うのが良いでしょう。

Ports: SRFI-18 (スレッド) の仕様を満たすために Gauche のすべての入出力基本関数はポートをロックします。このオーバーヘッドは小単位(例えばバイト毎)の入出力を行なうアプリケーションでは無視できないでしょう。入出力基本関数は通常呼びだし毎にポートをロックし、そこからの下位レベルの入出力はロックのオーバーヘッドの影響を受けずに行なわれます。ですから read やread-uvector などのより大きな単位で入出力を行なう基本関数では問題となることが少なくなります。 (注意：これらの基本関数が常にポートをロックしつづけることを保証するものではないことに注意してください。また、ポートのロックは競合がほとんど発生しない場合に最適化されています。ポートへのアクセスが複数のスレッドで競合する可能性がある場合は、アプリケーション側でmutexを明示的に用いて競合を避けてください。)

ポートロックが実際に問題となった場合、二つばかり対処策が考えられます。 (1) より大きな単位で入出力を行なう。(2) with-port-locking (ポートとスレッド参照)を使ってより広範囲でポートをロックする。

文字列: 多バイト文字列の取扱いのため、Gauche では文字列の変更とインデックスによるアクセスが特に高価な操作となります。これは意図的な設計です。 Gauche ではこの二つの操作を避けたプログラミングを推奨しています。文字列の中の文字を順にアクセスするには (インデックスを使わずに)文字列ポート(文字列ポート参照)を使うとより明瞭かつ効率的なプログラムとなり、一方サーチして部分文字列をとり出すといった操作には、多彩な高レベル関数が用意されています。 (例えば文字列を扱うその他の手続き、正規表現、 srfi.13 - 文字列ライブラリ等を参照。) バイト列を表現するのに文字列を使っていたなら、代わりにユニフォームベクタ(ユニフォームベクタ参照)を使いましょう。

深い再帰: Gauche の仮想機械(VM)は効率的なローカルフレーム割り当てのためにスタックを使っています。再帰が深くなって(プログラムにもよりますが、大体数百回から千回) スタックがオーバーフローするとスタックの内容をヒープに退避するというオーバーヘッドが生じます。あるデータ量を越えたところでパフォーマンスの低下が見られたならば、深い再帰がないか調べてみて下さい。

Generic functions: Generic function の持つ動的な性質のため、これらの呼び出しは通常の手続き呼び出しより遅くなります。実行時のディスパッチのオーバヘッドだけでなく、 VM コードへのコンパイル時にたいして最適化が行えないためです。パフォーマンスのために Generic function の利用をどんな場合にも避けるという必要はありませんが、もしある一つの関数が実行時間の大部分を占めていて、その関数が Generic function を内部で呼び出しているならそれを使わないように変更してみる価値はあるでしょう。

組込み関数の再定義: Gauche のコンパイラはいくつかの組込み関数を(それらが再定義されていなければ) インライン展開します。基本関数を再定義するのは時には便利ですが、限られた範囲にとどめておいた方がよいでしょう。やり方は、再定義をどこか別のモジュールに集めておき、どうしても再定義バージョンが必要なときに限ってそのモジュール use するというようにしておけばよいでしょう。

クロージャの作成: クロージャを作成するとそれが持つ環境がヒープにコピーされます。オーバーヘッドは小さいですが、何百万回も呼ばれるようなループの中で作成されれば無視できなくなるでしょう。そんな疑いがあればその関数を逆アセンブルしてみましょう。 Gauche のコンパイラはクロージャの簡単な解析を行ない生成をなるべく避けるようになっています。そのような場合局所関数の本体はインライン展開されています。逆アセンブルのコードに CLOSURE命令が含まれていれば、残念ながらクロージャが生成されます。

これらのヒント集は完全でないし、Gauche の改良とともに変わっていくでしょう。ですから、固定された特徴だとは思わないで下さい。このヒント集は今後、折を見て実装に対応させて更新してゆきます。

• プロファイラを使う:
• パフォーマンスに関するヒント: