<div>Hi guys, a question has arisen re: input validation</div>
<div> </div>
<div>I should prefix this by stating we are on 1.4, not 2.0.</div>
<div> </div>
<div>Let&#39;s say I want to pass &quot;グ&quot; in my input.  For those of you who can&#39;t read that, it&#39;s a Japanese Katakana with Unicode value 30B0</div>
<div> <a href="http://www.fileformat.info/info/unicode/char/30b0/index.htm">http://www.fileformat.info/info/unicode/char/30b0/index.htm</a></div>
<div> </div>
<div>I want to allow this in my input, so I need to create a regex that will permit it.  What I&#39;m not sure about is:</div>
<div>1) what canonicalize is going to do to that string, and </div>
<div>2) if there&#39;s a locale-aware way of identifying characters in a regex.</div>
<div> </div>
<div>I can see this potentially showing up as </div>
<div>\u30b0, where I would need to permit \ characters, </div>
<div>\u30b0, where the slash is encoded, though I doubt this.</div>
<div>グ</div>
<div> </div>
<div>the latter can lead to two possibilities</div>
<div>1) my regex would need to allow a range of Unicode values</div>
<div>2) a character class (\p{Alpha} and such) would seamlessly match &#39;letters&#39; of any langauge.</div>
<div> </div>
<div>The confusion on my end is due to lack of knowledge on characters outside the typical US character set.  Can anyone shed some light on this issue, as to the expected canonicalization and recommended whitelist regex?</div>

<div> </div>