1 | <?php |
||
13 | class JaCompoundGroupTokenizer implements Tokenizer { |
||
14 | |||
15 | private $compound = [ |
||
16 | "あっ", |
||
17 | "あり", |
||
18 | "ある", |
||
19 | "い", |
||
20 | "いう", |
||
21 | "いる", |
||
22 | "う", |
||
23 | "うち", |
||
24 | "お", |
||
25 | "および", |
||
26 | "おり", |
||
27 | "か", |
||
28 | "かつて", |
||
29 | "から", |
||
30 | "が", |
||
31 | "き", |
||
32 | "ここ", |
||
33 | "こと", |
||
34 | "この", |
||
35 | "これ", |
||
36 | "これら", |
||
37 | "さ", |
||
38 | "さらに", |
||
39 | "し", |
||
40 | "しかし", |
||
41 | "する", |
||
42 | "ず", |
||
43 | "せ", |
||
44 | "せる", |
||
45 | "そして", |
||
46 | "その", |
||
47 | "その他", |
||
48 | "その後", |
||
49 | "それ", |
||
50 | "それぞれ", |
||
51 | "た", |
||
52 | "ただし", |
||
53 | "たち", |
||
54 | "ため", |
||
55 | "たり", |
||
56 | "だ", |
||
57 | "だっ", |
||
58 | "つ", |
||
59 | "て", |
||
60 | "で", |
||
61 | "でき", |
||
62 | "できる", |
||
63 | "です", |
||
64 | "では", |
||
65 | "でも", |
||
66 | "と", |
||
67 | "という", |
||
68 | "といった", |
||
69 | "とき", |
||
70 | "ところ", |
||
71 | "として", |
||
72 | "とともに", |
||
73 | "とも", |
||
74 | "と共に", |
||
75 | "な", |
||
76 | "ない", |
||
77 | "なお", |
||
78 | "なかっ", |
||
79 | "ながら", |
||
80 | "なく", |
||
81 | "なっ", |
||
82 | "など", |
||
83 | "なら", |
||
84 | "なり", |
||
85 | "なる", |
||
86 | "に", |
||
87 | "において", |
||
88 | "における", |
||
89 | "について", |
||
90 | "にて", |
||
91 | "によって", |
||
92 | "により", |
||
93 | "による", |
||
94 | "に対して", |
||
95 | "に対する", |
||
96 | "に関する", |
||
97 | "の", |
||
98 | "ので", |
||
99 | "のみ", |
||
100 | "は", |
||
101 | "ば", |
||
102 | "へ", |
||
103 | "ほか", |
||
104 | "ほとんど", |
||
105 | "ほど", |
||
106 | "ます", |
||
107 | "また", |
||
108 | "または", |
||
109 | "まで", |
||
110 | "も", |
||
111 | "もの", |
||
112 | "ものの", |
||
113 | "や", |
||
114 | "よう", |
||
115 | "より", |
||
116 | "ら", |
||
117 | "られ", |
||
118 | "られる", |
||
119 | "れ", |
||
120 | "れる", |
||
121 | "を", |
||
122 | "ん", |
||
123 | "及び", |
||
124 | "特に", |
||
125 | "、", |
||
126 | "。", |
||
127 | "「", |
||
128 | "」" |
||
129 | ]; |
||
130 | |||
131 | /** |
||
132 | * @var Tokenizer |
||
133 | */ |
||
134 | private $tokenizer; |
||
135 | |||
136 | /** |
||
137 | * @since 0.1 |
||
138 | * |
||
139 | * @param Tokenizer $tokenizer |
||
140 | */ |
||
141 | public function __construct( Tokenizer $tokenizer = null ) { |
||
144 | |||
145 | /** |
||
146 | * @since 0.1 |
||
147 | * |
||
148 | * {@inheritDoc} |
||
149 | */ |
||
150 | public function setOption( $name, $value ) { |
||
155 | |||
156 | /** |
||
157 | * @since 0.1 |
||
158 | * |
||
159 | * {@inheritDoc} |
||
160 | */ |
||
161 | public function isWordTokenizer() { |
||
164 | |||
165 | /** |
||
166 | * @since 0.1 |
||
167 | * |
||
168 | * {@inheritDoc} |
||
169 | */ |
||
170 | public function tokenize( $string ) { |
||
197 | |||
198 | /** |
||
199 | * @see MediaWiki LanguageJa::segmentByWord |
||
200 | * |
||
201 | * @since 0.1 |
||
202 | * |
||
203 | * {@inheritDoc} |
||
204 | */ |
||
205 | public function splitByCharacterGroup( $string ) { |
||
220 | |||
221 | private function insertSpace( $string, $pattern ) { |
||
224 | |||
225 | } |
||
226 |