TOP カテ一覧 スレ一覧 100〜終まで 2ch元 削除依頼
Vivaldiブラウザ Part39
KbMedia Player Part9
☆ノートン★自動引き落とし詐欺★その2
新月 - P2P匿名掲示板その2
【不要ファイル】Glary Utilities 1 【駆除】
漫画用画像ビューア マンガミーヤ MangaMeeya 19
【PC用】PPSSPPのスレ2【PSPエミュ】
Adobe ソフトウェア総合★8
【シンプル】 O&O Defrag 3回目 【デフラグ】
IOBit Advanced SystemCareについて
51 :
神のお言葉に従いテストベッド環境に最新版tesseract-ocrをインストールして、250ページほどの
新書をまるごと一冊OCRしてみたのですが、どうもこちらの信心か功夫が足りないのか、正直
『かなり悪くはないがけして手放しで喜べる程良くはなかった』というのが正直な所。

以下、不慣れながらもスクリーンショットを挙げてみたので、見ながら解説。

オフィス用複合機のADFで300dpi・G4圧縮で保存したOCR元のtif画像
 https://imgur.com/FRIY8a9

以前jpgでスキャンしたものより的中率が向上したのとファイルサイズが小さくなるので、
以後ずっとtifで保存するようにしているのだが、元の紙面が経年劣化によるシミ・ソバカス
でクリーンな状態とは言いがたく(だからテキスト化するのだが)、ノイズが少なからず
乗ったままOCRかけるので、今後は別の手段を考えるべきかもしれない。

最新版から一つ前のtesseract-ocr4.0αでOCRした結果のスクリーンショット
 https://imgur.com/21b2PK4

[っ]直後の[は行のひらがな]は必ず[半濁音にする]的な後処理を加えてあるので、厳密には
スタンダードとは言えない。[ぁぃぅぇぉゎ]が混ざるのが地味にいらつく。

最新版から一つ前のtesseract-ocr4.0α+blacklist(小書きを禁止+後処理)
 https://imgur.com/6Yh4riW

後処理に加えて、blacklistで[小書きのひらがな]や[日本語の文章に出てこない記号]をはじく
ように事前処理してある。[3点リーダー]を正しく認識できないが、これが現段階の自身でできる
最善のチューニング状態。

【Adblock】Mozilla Firefox 広告除去/追跡防止 28
Google Chrome Extensions(拡張機能) Part22
【オープンソース】UltraDefrag【超高速デフラグ】
FileVisorを愛する仲間たち 5人目
□□■x-アプリ / SonicStage V / CP 68th■□□
GOM 関係 スレ Part1
V2Cをいじってみた
2ch.net専用ブラウザの開発者の皆さまへ ★19
Java+Swingによる2chブラウザ V2C_T102
Windows標準のデフラグソフトの完全版Diskeeper 8
--------------------
【AUD】豪ドルのレートに一喜一憂するスレ4586
消費税10%になったら、生活変えなあかん。
【社会現象】ポケモンカード超爆インパクト各地で売り切れ&行列ww
1000円カットの床屋
【市内☆北摂】大阪府の奥様 142【河内☆泉州】
自転車シェアリング業界を語る!
下水処理場で働く人の一日がこれ 俺も転職するは… [604460326]
◆坂本よしたか(坂本好隆) Sチェンジ・ザ・ワールド【CTW】被害者の会◆
上原さんと一緒に引退して欲しい選手
【宝塚】演出/作曲/振付/衣装について語れ 第51幕
【ぐ】GUを自由に語ろう ジーユー87【g.u.】
車線変更と同時にウィンカー奴が許せない
【ガセ厳禁】地方局飛び乗り・飛び降り Part107
私信 まるです。21
St.Louis Cardinals 8
【2年連続】流:経:大 ラグビー部86【ベスト8】
ゲーミングデスクトップbtoパソコン買いたいんだが
焼酎のつまみ2
【Perfume】のっち応援スレ299【たまんねぇなおい】
チータス 童貞
TOP カテ一覧 スレ一覧 100〜終まで 2ch元 削除依頼