TOP カテ一覧 スレ一覧 100〜終まで 2ch元 削除依頼
Windows 8用Aero Glass総合 Part2
おい!あふを語ろうぜ! Ver.42
【祝】TeraPadを語るスレpart1【ソフトウェア板】
【専ブラ】3月3日以降の2ch専用ブラウザ対応情報
TCPMP CorePlayer BetaPlayer 04
Last Pass(ラストパス) part1
キーカスタマイズソフト 2
プレステ3エミュについて語ろうpart1【PS3】
CUEtools 【リッピング】 CUERipper
ffmpegならこちらへ 4
490 :
>>489
お、調度良い所に
ゆっくり、AquesTalkや、Harukaはちゃんと1人を『ヒトリ』と読むね、あえて教育するなら

(^|[^\d])1人([^一-龠々]|$)
$1ヒトリ$2
(^|[^〇一七万三九二五億兆八六十千四百])一人([^一-龠々]|$)
$1ヒトリ$2
この2つがあればいいんじゃない?

1人で外出
101人の
21人
何一人でほっつき歩いているんだ
↑問題ないね

491 :
万一人がいても大丈夫
万一人間が
第一人手不足でも
↑Harukaで読む場合、これらが厄介だね
『だいいち〜、まんいち〜、だいたい〜』って文頭に付く言葉を『副詞』と言うんだけど
その場合は
(^万一|[^一-龠]万一|第一)(人)
$1?$2
と、してやると良い、実は『遅延』も生じず、『読み上げ』もしない記号というのが有るから、それを『区切り記号』として活用してみてはどうか、この場合適当に?としてみた
『』の括弧や、句読点は遅延が生じちゃうからね

百万一人が
万一?人が
万一?人がいても大丈夫
万一?人間が
第一?人手不足でも

ポイントは、AquesTalkや、HARUKAの基本辞書に頼りつつ、それらをいたずらに加工せず、一般辞書では難しいところだけ正規表現加工することだね
そうすれば正規表現辞書は最小限で済むよ

その他
(^一|[^一-龠々]一)(人間[^一-龠々]|人間$)
$1?$2

俺は一?人間として
一人間隔が空いている

492 :
『区切り記号』が ? になってしまった(汗
『きごう』で変換すると、色んな記号が出てくるから、好きなの使って
『 ' 』はHarukaだと『一重引用符』って呼んじゃうからね

493 :
強に関して、強スマッシュ、増強セメント、強角膜、強光学特性、に強くなりたいなら
この場合は『強』という『接頭辞』が付くから『二字熟語』に成り得る感じを否定すると良いね、前後否定すると
(^|[^\d〇一七三九二五倔八六列剛力勇勉十口四堅増富屈年康御心最末根牽理百盛精腰至補雄鞍頑])強([^ー〜ぁ-ん々仕健兵制剛力勇勢化半卒取吟味固国圧堅壮大奪姦将
度弁弓引弩弱張心悪情意慢慾打拍振攻敵暴梁権欲毅気火烈熱猛盗盛直硬禦縮者肩胸腰膜蔵虜行襲要言記訴誘調談請諫識豪貝賊迫運邦酸金陣雨電震面靭靱音項顔風飯]|$)
$1キョウ$2

だけど、じゃあ『強震度』は?『強』+『震度』だが、棒読みちゃんの場合だと、『強震』+『度』と判定してるね
『二字熟語』として『強震』の『震』の字を否定してしまっているから、否定した文字列の前に『震度』を足していけばいいかな
(^|[^\d〇一七三九二五倔八六列剛力勇勉十口四堅増富屈年康御心最末根牽理百盛精腰至補雄鞍頑])強([膜]|震度|[^ぁ-ん々仕健兵制剛力勇勢化半卒取吟味固国圧堅壮大奪姦将
度弁弓引弩弱張心悪情意慢慾打拍振攻敵暴梁権欲毅気火烈熱猛盗盛直硬禦縮者肩胸腰膜蔵虜行襲要言記訴誘調談請諫識豪貝賊迫運邦酸金陣雨電震面靭靱音項顔風飯]|$)

強震度、角膜強膜縁、もいけるようになった、こんな感じで一つ辞書を作れば、後は見つける度に足してくだけで済む様になる
これ一つで『強○○』という『強』を『接頭辞』として使う形をほぼカバー出来る様になったが、あくまで一例ね

494 :
後方の『ひらがな』を否定してるのは、『送り仮名付きの訓読み』の誤読を防ぎたいから、
『送り仮名』に関する正規表現を作るなら『キョウ』と読む正規表現よりも優先順位を高くして作るといい
『強かな』だと、『したたかな』になり得るが、『強から』や、『強や○○』だと『キョウ』で間違いないはず、そう思ったら

〜鞍頑])強(から|じゃ|かが[^ぁ-ん]|[とだでなにのはへもやを]|[膜]|震度|[^ぁ-ん々仕健〜

の様に『てにおは』等の『助詞』を足していってもいいし
後方に『ひらがな』が付く別個の正規表現を書いてもいいね(送り仮名を回避しつつ)
やり方は色々あるが、どれが一番軽く済むかわからない

『強』に関しては約7個の辞書でほぼ誤読が無くなったな、まあでも強は読み方が多いから手強いね
手ごわ(い)、したた(か)、あなが(ち)、こわ(い)、つよ(い)、根づよ(い)、し(いる)、キョウ、ゴウ

495 :
現代で常用されている二時熟語を漢字辞典サイトから抽出したものだが(Unicode順)こういった物を常用漢字の分だけIMEに常備してある
強『』
々仕健兵制剛力勇勢化半卒取吟味固国圧堅壮大奪姦将度弁弓引弩弱張心悪情意慢慾打拍振攻敵暴梁権欲毅気火烈熱猛盗盛直硬禦縮者肩胸腰膜蔵虜行襲要言記訴誘調談請諫識豪貝賊迫運邦酸金陣雨電震面靭靱音項顔風飯
『』強
〇一七三九二五倔八六列剛力勇勉十口四堅増富屈年康御心最末根牽理百盛精腰至補雄鞍頑
こんなもの登録して重くならねえのかよって思うかもしれないけど
漢字の単語同士が合体して誤読が生じる組み合わせは無限にあるので
それを一般辞書登録で行うと凄まじい量になるんだね、それするぐらいだったら、まあマシかな

496 :
漢字が難しいのは、二字熟語の『音読み』と、送り仮名が付く『訓読み』が有るところだね
正規表現辞書の優先順位としては
送り仮名が付く訓読み登録をする(漢字熟語に成り得る物を回避しつつ)
そしてその下に送り仮名が付かない、『強』単体の場合を登録、漢字によっては『強硬度』の様に『接頭辞』に成り得るものが有るからね
最後にデフォルトの辞書機能ではカバーされていない『二字熟語』の読みを登録(一般辞書登録で済ませようとすると更に誤読を誘発しかねないものを)
といった優先順位となるだろうか

三字熟語の場合は『接頭辞+二字熟語』『二字熟語+接尾辞』の様な場合と『韋駄天』の様にそれ単体での塾語に別れる
四時熟語は『二字熟語』+『二字熟語』の場合が殆どだからたいした事ない
正規表現の処理負担は大きいので四字熟語以上と、独立した三時熟語は、一般辞書で一括登録するといいだろう
それと『劉備』『玄徳』の様な、『それしかあり得ない、更に誤読を誘発する心配が無さそうな』二字熟語も一般辞書登録していけばいい
問題は二字熟語と、『二字熟語』+『接頭辞・接尾辞』の三字熟語と、送り仮名が付く訓読みの判別だね

『●×■い』という文が合ったとする
『●×』『■い』と読んで欲しいのに、偶然にも『×■』と言う漢字熟語が成立すると
『●』『×■』『い』と誤読するんだよね
実は棒読みちゃんやHarukaはそこまで馬鹿じゃないので、漢字熟語同士がくっついたり
後方のひらがなを送り仮名と誤認したりするのを切り分けてやる正規表現で
かなりの誤読が解消されるという事が分かっている
自分の正規表現辞書見たら4割くらいが切り分け正規表現だったよ、楽する為に編み出した技だけどね
でも賢い人は、ネットの文字を抽出、ビッグデータみたいなものを加工して一般辞書に大量一括登録で済ませちゃうんだろうなあ
何にしてもメインは一般辞書登録だよ
以上、クドくてごめんね

Adobe ソフトウェア総合★8
Basilisk Webブラウザ
うぐぅ、Kanonもソフトウェアだよね?2本目
【ニコ生】namareco namarokuについて語ろう Part29
【軽量】QupZillaスレ【Win,Linux,mac】
Google Chrome VS Microsoft Edge
専用ブラウザを助けるプロクシ作らね?13串目
AutoPagerize質問・要望スレ page:5
Susie&Susie Plug-in総合 Part2
New Moon (Pale Moon) XP向け非公式ビルドスレ 2
--------------------
スバルとマツダ、どうして差がついたのか Part.119
[=急=] なつかしの山陽電車 [阪急方面]
【げんぼう】日本原子力防護システム(株)
2018年秋スタート 新仮面ライダー ネタバレスレ part3
美人局疑惑の道端アンジェリカ「あたしは悪い夫に騙された可哀想な女なの(涙)」
【人種差別】羽賀淳一の悪行【ステマ】
チョンコやサヨクからパンクロックを奪い返せ
きっずの噂1696
ハーメルンについて語るスレ611
好きな人に急に冷めた 恋の終わり
ASKA・DADAレーベル Vol.390
ele blog70
京都橘高校吹奏楽部】オレンジの悪魔7確認テスト
【ドラマ】漫画『約束のネバーランド』海外実写ドラマ化 監督はロドニー・ロスマン氏で制作はFox21 [湛然★]
【BTC】ビットコイン情報交換スレッド1590【アフィ
【約束】斎藤耕一監督死去【旅の重さ】
和田卒でアンジュ葬式ムードなんだけど、道重卒のときって娘。はどんな感じだったの?
【バーチャルYoutuber】にじさんじ有ンチスレ16737【やよ〜】
【おはよう日本・土日祝】石橋亜紗さん その26【ららら♪ クラシック】
◇◆◇TES W:OBLIVION オブリビオン 280◇◆◇
TOP カテ一覧 スレ一覧 100〜終まで 2ch元 削除依頼