文字の集合を取り扱う、文字集合(キャラクタセット)のクラスです。 Gaucheは文字集合オブジェクトのサポートと、 ある文字がその集合に属するかどうかを調べる手続きを言語組み込みで持っています。
コレクションプロトコル (gauche.collection
- コレクションフレームワーク参照) を実装しているので、
gauche.collection
で提供される標準のコレクションメソッドが使えます。
<char-set>
のインスタンスは文字に関数のように適用することができ、
その文字が文字集合に属するかどうかを判定する述語として機能します。
下記のchar-set-contains?
を参照してください。
文字集合に関する他の操作、例えば集合演算などは、SRFI-14モジュール
(scheme.charset
- R7RS文字集合参照) で提供されています。
• 文字集合リテラル: | ||
• 定義済み文字集合: | ||
• 文字集合の操作: |
#[char-set-spec]
¶この構文で、リテラル文字集合を記述することができます。 char-set-specには集合に含める文字を列挙します。 次の特殊なシーケンスを含めることができます。
x-y
文字xと文字y
の間の文字全て。xとyも含みます。
xはyよりも内部文字コードで比較して小さくなければなりません。
^
カレットがchar-set-specの最初に来た場合、以降に示される文字集合の 補集合がこの文字集合となります。
\xN;
UnicodeコードポイントがN(16進数表記)の文字。
\s
空白文字(space, newline, tab, form feed, vertical tab, carriage return).
文字集合char-set:ascii-whitespace
の要素。
\S
空白でない文字。(\s
の補集合)
\d
10進数の数字。
文字集合char-set:ascii-digit
の要素。
\D
\d
の補集合
\w
単語を構成する文字の集合(#[A-Za-z0-9_]
)。
文字集合char-set:ascii-word
の要素。
\W
\W
の補集合
\\
バックスラッシュ文字
\-
マイナス文字
\^
カレット文字
[:alnum:] …
POSIX風文字集合表記。サポートされる名前については下の表を参照してください。 名前は全て小文字でなければなりません。この表記の文字集合はASCII範囲のみを含みます。
[:^alnum:] …
[:alnum:]
等の補集合です。
[:ALNUM:] …
POSIX風文字集合表記のGauche拡張。名前は全て大文字でなければなりません。 この表記の文字集合はUnicode全範囲を対象とします。 サポートされる名前については下の表を参照してください。
[:^ALNUM:] …
[:ALNUM:]
等の補集合です。
POSIX風文字集合表記で認識される名前は次のとおりです。
:alpha: | ASCIIアルファベット。char-set:ascii-letter , #[A-Za-z] |
:alnum: | ASCIIアルファベットと数字。char-set:ascii-letter+digits , #[0-9A-Za-z] . |
:blank: | ASCIIブランク文字。char-set:ascii-blank , tab and space. |
:cntrl: | ASCII制御文字。char-set:ascii-control , U+0000 to U+001f and U+007f. |
:digit: | ASCII数字。char-set:ascii-digit , #[0-9] . |
:graph: | ASCIIグラフィック文字。char-set:ascii-graphic . |
:lower: | ASCII小文字アルファベット。char-set:ascii-lower-case , #[a-z] . |
:print: | ASCII印字可能文字。char-set:ascii-printing . |
:punct: | ASCII句読点。char-set:ascii-punctuation . |
:space: | ASCII空白文字。char-set:ascii-whitespace . |
:upper: | ASCII大文字アルファベット。char-set:ascii-upper-case , #[A-Z] . |
:word: | ASCII単語構成文字(POSIXではありません)。 char-set:ascii-word , #[0-9A-Za-z_] . |
:xdigit: | 16進数の数字。char-set:hex-digit , #[0-9a-fA-F] . |
:ascii: | ASCII文字 (POSIXではありません). char-set:ascii . |
:ALPHA: | Unicode通常文字。char-set:letter . |
:ALNUM: | Unicode通常文字と数字。char-set:letter+digits . |
:BLANK: | Unicodeブランク文字。char-set:blank . |
:CNTRL: | Unicode制御文字。char-set:iso-control . |
:DIGIT: | Unicode数字。char-set:digit . |
:GRAPH: | Unicodeグラフィック文字。char-set:graphic . |
:LOWER: | Unicode小文字。char-set:lower-case , #[a-z] . |
:PRINT: | Unicode印字可能文字。char-set:printing . |
:PUNCT: | Unicode句読点。char-set:punctuation . |
:SPACE: | Unicode空白文字。char-set:whitespace . |
:UPPER: | Unicode大文字。char-set:upper-case , #[A-Z] . |
:WORD: | Unicode単語構成文字。char-set:word . |
:XDIGIT: | 16進数の数字。(:xdigit: と同じ). |
いくつか例を示します。
#[aeiou] ; 母音文字’a’, ’e’, ’i’, ’o’, ’u’の集合 #[a-zA-Z] ; アルファベット #[[:alpha:]] ; アルファベット (POSIX表記) #[\\\-] ; バックスラッシュとマイナス文字 #[] ; 空の文字集合 #[ぁ-ん] ; 平仮名の集合 #[\x0d;\x0a;\x3000;] ; リターン, 改行, 全角空白
リテラル文字集合は他のリテラルデータ同様、変更不可です。 変更しようとした場合はエラーが通知されます。
互換性への注:
以前は、\xNN
(2桁固定の16進数、終端のセミコロン無し) を文字と認識していました。
例えば#[\x0d\x0a]
はリターン文字と改行文字集合を意味していました。
互換性のため、終端のセミコロンが見当たらない場合は古い構文もサポートされます。
しかし曖昧な場合もあります。#[\x0a;]
は新しい構文では
改行文字のみのセットですが、古い構文では改行文字とセミコロンになります。
リーダのモードをlegacy
にセットすると、常に古い構文で認識されます。
リーダのモードをwarn-legacy
にセットすると、
デフォルトと同じように振る舞いますが、古い構文を見つけた場合は警告が出力されます。
詳しくはリーダー字句モードを参照してください。
古い構文と新しい構文の両方で動作するコードが必要な場合は、\u
エスケープを
使ってください。
定義済みの文字集合がいくつか提供されています。
R7RS文字集合ライブラリで定義されているものも含まれます(scheme.charset
- R7RS文字集合参照)。
これらの文字集合は変更不可です。
[R7RS charset]
文字 (UnicodeカテゴリLu
、Ll
、Lt
、Lm
、Lo
)。
[R7RS charset]
小文字、大文字、タイトルケース文字
(それぞれ、UnicodeカテゴリLl
、Lu
、Lt
)。
[R7RS charset]
数字 (UnicodeカテゴリNd
)。
これには非ASCIIの数字もたくさん含まれています。
ASCIIの数字(#[0-9]
)だけが欲しい時はchar-set:ascii-digit
を
使ってください。
[R7RS charset]
16進数表記に使われる文字、つまり#[0-9A-Fa-f]
。
これにはASCII外の文字は含まれません。
[R7RS charset]
char-set:letter
とchar-set:digit
の和集合です。
[R7RS charset] 何らかのグリフを持っている文字。通常文字、数字、句読点、シンボルの和集合です。
[R7RS charset]
char-set:graphic
とchar-set:whitespace
の和集合です。
[R7RS charset]
空白文字およびブランク文字です。
空白文字char-set:whitespace
は、
#\tab
、#\newline
、#\u000B
(vertical tab)、
#\page
、#\return
、および
一般カテゴリZs
、Zl
、Zp
の文字です。
一方、ブランク文字char-set:blank
は、
#\tab
と一般カテゴリZs
の文字です。
char-set:whitespace
は、Schemeのリーダが空白扱いにする文字の集合と一致します。
[R7RS charset]
制御文字 (Unicode一般カテゴリCc
)。
[R7RS charset]
句読点 (Unicode一般カテゴリ
Pc
, Pd
, Ps
, Pe
, Pi
, Pf
, Po
)。
[R7RS charset]
シンボル文字 (Unicode一般カテゴリ
Sm
, Sc
, Sk
, So
)。
[R7RS charset] すべてのASCII文字 (U+0000 to U+007f)。
[R7RS charset] 空の文字集合。
[R7RS charset] すべての文字を含む文字集合。
単語を構成する文字。今のところ、これはchar-set:ascii-word
、
つまり#[0-9A-Za-z_]
と同じです。
ただ、将来はUnicodeの全域に意味を拡張するかもしれません。
ASCIIの範囲内だけを扱いたい場合はchar-set:ascii-word
を使ってください。
これらはそれぞれ、ascii-
を除いた名前の文字集合とchar-set:ascii
と
の積集合です。
文字集合リテラルおよび正規表現リテラルにおける
\d
、\s
、\w
はそれぞれ
char-set:ascii-digit
、
char-set:ascii-whitespace
、char-set:ascii-word
に
対応します (Unicode版ではなく)。
また、[:alpha:]
などのPOSIX文字クラス表記もこちらのASCII版の方に対応します。
なお、char-set:ascii-title-case
とchar-set:ascii-hex-digit
は
ありません。ASCIIの範囲内にtitlecaseにあたる文字はなく、
またchar-set:hex-digit
はそれ自体ASCII範囲に限定されています。
それぞれ、対応するUniocdeの一般カテゴリに属する文字の集合です。
例えばchar-set:Lu
は一般カテゴリLu
の文字の集合です。
各文字集合は、その文字で始まるUnicodeの一般カテゴリのすべての文字の集合です。
例えばchar-set:L
は、char-set:Lu
、
char-set:Ll
、char-set:Lt
、
char-set:Lm
、char-set:Lo
の和集合です。
char-set:LC
は大文字小文字の区別のある文字の集合、つまり
char-set:Lt
、char-set:Ll
、char-set:Lu
の和集合です。
包括的な文字集合操作については、scheme.charset
- R7RS文字集合も参照してください。
[R7RS charset] objが文字集合であれば真の値を返します。
char-setが変更不可の文字集合であれば#t
を、変更可能な文字集合であれば
#f
を返します。
[R7RS charset] 文字集合char-setが文字charを含んでいれば真の値を返します。
(char-set-contains? #[a-z] #\y) ⇒ #t (char-set-contains? #[a-z] #\3) ⇒ #f (char-set-contains? #[^ABC] #\A) ⇒ #f (char-set-contains? #[^ABC] #\D) ⇒ #t (char-set-contains? #[あ-お] #\う) ⇒ #t (char-set-contains? #[あ-お] #\ぷ) ⇒ #f
文字集合オブジェクトは文字に適用されると、
(char-set-contains? char-set char)
のように振る舞います。
(#[a-z] #\a) ⇒ #t (#[a-z] #\A) ⇒ #f (use gauche.collection) (filter #[a-z] "CharSet") ⇒ (#\h #\a #\r #\e #\t)
[R7RS charset] 文字char … からなる文字集合を作成して返します。
(char-set #\a #\b #\c) ⇒ #[a-c] (char-set #\あ #\い #\う) ⇒ #[あいう]
[R7RS charset] 文字集合に含まれる文字数を返します。
gosh> (char-set-size #[]) 0 gosh> (char-set-size #[[:alnum:]]) 62
[R7RS charset] char-setのコピーを作って返します。