Gauche:Schemeコードのファイナライザ

GCのfinalizer中からSchemeコードを呼びたい、という議論。

実は可能かも

当初は下の「元の議論」にあるように「困難」という結論だったのだけれども、どうしてもfinalizerからSchemeコードが呼ばれるケースが出てきてしまった。具体的には、virtual portのサポートを追加したら、GCされるポートから Schemeで定義したflushメソッドやcloseメソッドが呼ばれる可能性が出てきたからだ。

で、改めてBoehm GCのコードを読んでみた。いくつかgood news。

GC_JAVA_FINALIZATIONがdefineされている場合、no_orderの finalizerが付いているオブジェクトは、finalize対象になった後で改めてmarkされる。従ってfinalizer中で対象オブジェクトの参照を root setに追加することでresurrectionが可能。
- 但し、finalizer呼び出し後にそのオブジェクトからfinalizerは外されるので、resurrectしたオブジェクトでもfinalizerは2度は呼ばれない。
finalizerそのものはアロケータのロックの外で走るので、その中からGC_mallocに再入することは可能そう。finalizerのキュー操作はちゃんとロックがかかってるので、finalizer実行中にキューが変化しても大丈夫だろう。
finalizerを呼べるタイミングでコールバックしてもらうことは可能。

さて、これだけでfinalizerからSchemeコードを走らせることは可能かというと、唯一微妙なのは、VMの状態かな。Schemeコードが走ると、VM中のスタックフレームを移動する場合がある。その時点で Cのスタックフレームの方からVMのスタックフレームへの参照が存在するとまずい。今はVMループ中でScm_ConsとかはVMレジスタの退避無しで呼んでいるので、こいつをレジスタ退避で保護するのと、Cのfinalizerでフラグを立てておいてVMループの先頭でフラグチェックしてScheme finalizerを走らせるのとどっちが速いだろうか。

どうせシグナルのチェックはやっているので、フラグをビットマスクでやればチェックのコストは変わらないか。だがフラグ方式だと、フラグを立てた後、VMループに戻る前にスレッドが待ちに入ると、キューイングされたfinalizerが実行されない可能性はあるな。

finalizer特有の問題と、Schemeコードがfinalizerから呼ばれる問題。

akrさんからreferされてた。

一般的にfinalizerからできることは何か、という議論と、 finalizerからScheme処理系へ再入することの問題は分けて議論したほうが良いのではと思った。例に出ているcryptの問題は、Cで書いてても起こる (Scheme等のレイヤが入ることで見えにくくなる可能性はあるにせよ)。確かこのへんはHans Boehmが去年の論文でいろいろな落し穴を書いてたはず。これだ。

Hans Boehm: "Destructors, Finalizers, and Synchronization", POPL 2003, pp.262-272. リンクのあるページ。

基本的にfinalizerは（シングルスレッドアプリでも）別スレッドで走るようなものなので、排他制御不可欠ってことなんだが、完璧に透過的にやろうとすると、何にせよロックを握ったままアロケータを呼ぶってことが不可能になる。さすがにそれは縛りがきつすぎるので、言語によらず finalizerを書く側に気をつけてもらうしかない。

それとは別に、Schemeレイヤ特有の問題として、任意の時点からVMに再入可能かって話がある。これはシグナル処理と同様、finalizerを呼ぶ必要があるというコールバックの中でフラグを立てておいて、VMループの安全な箇所でキューイングされていたfinalizerを呼ぶことで解決できる。 (以前はfinalize対象になったオブジェクトはsweepされちゃうのでこれができないと思っていたのだが、上記のようにGC_JAVA_FINALIZATIONを使うと一回分延命されるので助かることがわかったのだ。)

自前のキューで失敗

(2004/11/23 04:42:58 PST) VMに自前のキューを持って置いて、BoehmのGCのfinalizer中で Schemeへのコールバックが必要になった場合にそれをenqueueして、 VM loopのsafe pointでチェックして実行する、というのを実装してみたんだが、だめだった。というのは、enqueueの中でアロケータを呼ぶと、そこで残りの(GCレベルの)finalizerが再び呼ばれる。その中で再びSchemeへのコールバックが必要になると、enqueueへ再入してしまうのだ。キュー長さを固定にすれば再入は避けられるが、一回に呼ばれるfinalizerの数の上限は予測できない (バースト的に大量のfinalizerが呼ばれることがある) ので固定長は無理だろう。

GCレベルで一回finalizerをキューイングしているので、それを利用させてもらうしかなさそう。

GC_finalize_on_demandをTRUEにしておけば、GCレベルのfinalizerは自動的には呼ばれなくなる。
GC_finalizer_notifierを登録しておくと、finalizerキューが空で無い場合、アロケータ中からコールバックしてくれる。ここでVMにフラグを立てる。
VM loop中のsafe pointでフラグをチェックして、立っていたら GC_invoke_finalizers() を呼ぶ。

この方法の欠点

Schemeレベルのファイナライザをトランポリンで実行できない (効率が若干悪い?)
VM loopに入るか、自分からGC_invoke_finalizers()を呼ばない限りいかなるfinalizerも実行されない。 libgaucheをS式処理ライブラリとして使っているような場合 (Scm_Eval()や Scm_Apply()を呼ばない場合) に注意が必要。

自前のキューを持つことに対する利点

GCのfinalizer queueは全スレッドで共通。finalizer_notifierはその時点でGCを走らせているスレッドで呼ばれる。もしそのスレッドが何らかの待ち状態に入ってしまった場合、自前のVMキューだとそのスレッドが走り出すまでfinalizerは実行されない。一方、共通キューだと、次のGCのタイミングで再びfinalizer_notifierが別スレッドで呼ばれて、キューに入っているfinalizerが実行される可能性がある。

元の議論

(記録のために残す)

(2004/09/15 23:56:20 PDT) ねるWiki:ねる Scm_RegisterFinalizerをschemeからも使いたいです．from Gauche:WishList

Shiro: これはそう簡単ではないんですよ。

まず、いくつかの前提：

(1) finalizeされかかっているオブジェクトは死にかかった状態で、それを生きている状態に戻すことはできない。
(2) CレベルのfinalizerはGC中から呼ばれるため、そこからメモリアロケーションルーチンを呼ぶことはできない。Schemeコードを走らせるといつアロケーションが起こるかわからないので、finalizer中からSchemeコードを走らせることはできない。
(3) オブジェクトの循環参照がある場合、finalizerを安全に走らせる順序をgcが自動的に決定することはできない。Boehm GCにはいくつかオプションがあるが、Gaucheではfinalizerが走る順序は問わないことにしてある。

(2)から、Schemeでのfinalizerを走らせるには、finalizerされそうになったオブジェクトをgc後まで保存しておいて、gcが終わった後で一気に走らせる必要がありますが、それは(1)から不可能です。

また、(3)から、finalizeされるオブジェクトが保持しているポインタの先のオブジェクトは既に回収されてしまっている可能性があります。従ってそのオブジェクトをSchemeレベルに見せるわけにはいきません。 (これは、CでScm_RegisterFinalizerを使う場合も重要な注意点です。気軽に使えるメカニズムではありません)。

Boehm GCはJavaのランタイムの実装にも使われてるので、 Javaのファイナライザのセマンティクスを実現する方法は無くはないと思うのですが、Gaucheのランタイムは循環参照がありまくりなので果してうまくできるかどうか。また、たとえ出来たとしても、 Schemeレベルで循環参照を明示的に断ち切らないといけなかったりすると、却って面倒になりそうです。

で、どんな場面でfinalizerが必要なんでしょうか。もし良ければ別ページを作って議論しましょう。

ねるWiki:ねる: むむ。Guileにあるのを見つけたので簡単に考えていましたが、なかなか根深い問題があるのですね。

使いたい場面ですが、weak referenceを使ったコネクションプールを作るのに使いたかったのです。コネクションプールなので、以下のような動作をさせたいわけです。

モジュールからの要求に応じてコネクションをはりつつ、logにだす
すでにあるコネクションを渡す
すべてのモジュールがコネクションを使わなくなったら接続をきりつつ、logにだす

コネクション(port)はgcされる際に自動的にcloseされるので主な動作には問題がないのですが、finalizerがないと「logに出力」機能が実現できずに、すこし不便だなぁと思ったものですからこのWishを書きました。

どなたか？: mark が終ったところで finalizer を呼び出せればいいんですかね． finalizer 中で memory allocation が起こったら例外発生って事にして．それができるぐらいなら世話は無いっていう意見もありそうですが．できたとしても finalizer のチェックと sweep で二回の scan が必要になる....

ねるWiki:ねる: ふとおもったのですが，ぼくの想定している使用方法ではgc対象objectの中身を触ってfinalizeしたいわけではなくて，ただ単にあるobjectがgcされましたよ，ってのにhookしたいだけないんですよね．gc中にどこかにキューイングしておいて後から適当なタイミングで呼び出すhookを設定できたら十分でしょうか．そのhookにはgc対象objectは渡さずに，hook設定時に別のobjectをわたしておくと．

こんな中途半端な機能は普通は必要とされないですかね...

Shiro(2004/09/17 01:44:11 PDT): いや、それいいかもしれません。finalizerが欲しいという要求の多くは、finalizeされるオブジェクトそのものよりも、そのオブジェクトが握っているリソースに関心がある場合だと思います。あるオブジェクトがfinalizeされた後で呼ばれるクロージャを登録できるようになっていれば、オブジェクトそのものへの参照を持たずに、必要なリソースの情報だけ握っておけば後処理が可能です。

考え得る問題点は、

クロージャのスコープに該当オブジェクトへの参照が入ってしまうと該当オブジェクトは決してGCされなくなる。次のようなコードはついうっかり書いてしまいそうだ。(sentinel closureのスコープにxへの参照が入っているので、closureがgcされない限りxはgcされない)。
```
(let ((x (make-some-object resource)))
  (add-object-gc-sentinel! x (lambda () (do-some-cleanup resource))))
```
finalizeされるオブジェクトそのものへの参照を持っていなくても、握ったリソースからの参照が循環してfinalizerされるオブジェクトへの参照をどこかに保持している場合。このような場合も、結局finalizeされるオブジェクトは gcされなくなる。

使いこなすのが難しい機能になりそうですが、そもそも生のfinalizerの方がより使いこなすのが難しく、それに比べればずっと素直かもしれません。

ねるWiki:ねる: ああ、なるほど。たしかにうまくやればリソースの解放にも使えそうですね。自分で書けるかな...

Tag: GC