TOP カテ一覧 スレ一覧 100〜終まで 2ch元 削除依頼
BookLive part33
Amazon Kindle 洋書スレ 2
Kindle セール情報 Part 107
【携帯】漫画家@デジタルメディア33【web】
Audible.co.jpスレ Part.8
【E-ink端末】Amazon Kindle 58【電子書籍リーダー】
日垣隆★135
[Kindle] 歴史関連の書籍について語るスレ Part.1
【E Ink端末】Amazon Kindle 59【電子書籍リーダー】
Kindle Unlimited 総合スレ 11

2013年、最強のOCRは?


1 :2013/07/31 〜 最終レス :2019/04/22
読取革命
e.typist
Adobe Acrobat
PDF Xchange Viewer
読んde!!ココ
ScanSnap Organizer
とか
電子化する大きなメリットとなる検索可能な自炊本にするためのOCR情報スレdeath

2 :
漫画厨しかいない板

3 :
読取革命の一択です
ありがとうございました。

4 :
読取革命ってルビを意図的に削除してない?
設定でもルビ関連の項目無いしさ
あれがなければNo1なんだが…
というか他のソフトが糞過ぎ
「言」を「ニニ口」とか認識しやがる
一文字の大きさにちゃんと切り分けてから認識してくれよ

5 :
検索pdfにすることを考えると、第二水準漢字に対応しているのが絶対条件だな。
自分は読取革命を使ってるけど、結果の編集をしてると、すぐに画像と認識結果
の位置がずれておかしな事になったり、画像を開いてファイル保存しようとすると、
ファイル名が空欄になっているので、上書き保存するのが面倒だったり、アンドゥ
が直前の操作しか対応していなかったりと、いろいろ不満があるけど、>>4さんの
言うとおり、他のソフトが糞すぎて、比較対象になるのは、e.Typistぐらいか。

6 :
10万とか超えるようなソフトでルビまできっちり認識してくれるOCRはないもんかのう。

7 :
日本語がローマ字じゃないことが諸悪の根源
皆さんの大嫌いな中国の文字とそれを崩した文字は
コンピューターには最も不適合な文字になるからな
漢字変換している時間は単なるハンディキャップ
戦後の中途半端な略字化とつまらない現担ぎで昔の
字体もしっかり残って更なる追い討ち
横文字が戦後左から右にならなかったら最悪だったな

8 :
jpegをまとめてOCRに変換できるフリーのソフトでおすすめあります?

9 :
JPEGをどのようにコンパイルすればOCRソフトになるのか俺も知りたい

10 :
>>9
え?

11 :
OCRに変換するとは書いてあるが
OCRソフトに変換するとは書いてないぜ?

12 :
ソフトウェアではなくハードウェアってことか
3Dプリンターを駆使しても難しそうだよ
http://e-words.jp/w/OCR.html

13 :


14 :
で、実際どうなの
今のところ読取革命が一番てことでいい?

15 :
>>14
他よりマシ

16 :
精度的にはRealReaderとかも何気にええで
連続処理が出来ない劣化品だが

17 :
サンクス

18 :
読取革命とe.typistの体験版比較したが、精度はe.typistの方が良さそうだった
ただ500ページ制限があるみたいだから、長編は一手間掛かりそうだ
e.typistはフリガナも認識できるみたいだから青空形式作成に役立つかと思ったけど、フリガナの精度はイマイチ。
あと両方とも「――」が上手く認識できない。
あくまでScansnapで読み込んだ小説の自炊本での比較だから、レイアウト複雑な本とかは分からんけどね。

19 :
OCRかけるつもりで吸う時は最高画質にしてやらないとやっぱり識字率下がる?
SS1500でエクセレントでやるとやたら時間がかかるんだが
それを補って余りある識字率ならエクセレントでやる意味があると思って聞いてみた

20 :
有名なのがこの2つだよね(読んdeココは犠牲になったのだ…)
e.Typist v.14.0 体験版(5日間試用)
http://mediadrive.jp/products/et/index11.html
読取革命Ver.15 体験版(10日間試用)
http://panasonic.co.jp/avc/pstc/products/yomikaku/demo.html
他にも無料で使えるOCRソフト
一発!OCR Pro7 体験版(10日間試用)←内部の処理は読取革命と一緒
http://www.justsystems.com/jp/download/trial/ocr/
RealReader Lite 8(14日間試用)←個人的に一番精度がいいと思う
http://data-digital.sakura.ne.jp/RealReaderLitePrice.html
ABBYY FineReader 11 (15日間試用)←英語のOCRはここが一番有名らしい
http://finereader.add-soft.jp/
その他
Evernote(画像を上げるとOCR処理してくれる)
Google Document(結構精度が高い。ただし横書きのみ)
Adobe Acrobat(高い。埋め込みPDF用)
Microsoft Word(一応OCR機能が付いている。それなりの精度)

21 :
>>19
どっかのブログで「スーパーファインとエクセレントはほとんど違いが無い」って言ってた

22 :
ttp://www.asahi.com/and_M/information/pressrelease/AUT201308300113.html
クラウドやモバイル連携に対応した活字OCRソフトウェア「e.Typist v.14.0」リリースのご案内
どうみても15.0の間違いだと思う……
2013年9月27日(金)発売だってさ。
8月29日移行の購入は無償バージョンアップ出来るみたい。
グダグダと体験版比較してたのが功を奏したわ。

23 :
8月29日以降というのは29日を含めるのか?
俺29日にアップグレードのダウンロード版買ったんだけど
前のバージョン持ってないからインストール出来ねーw
どうなんだコレ

24 :
ttp://mediadrive.jp/topics/2013/20130927et15.html
国内スタンダード活字OCRソフトウェア「e.Typist v.15.0」の販売開始
ttp://mediadrive.jp/campaign/201308/freeupg_et15.html
「e.Typist v.15.0」無償アップグレードキャンペーン
オフィシャルのキャンペーンページは<titile>が13.0になってるって……
29日からだから良いんじゃないの?
アップグレード版だけからアップグレード出来るのかは知らんけど。
俺は日本語・英語以外はいらないからNEO買うわ

25 :
おーありがとう
ダメもとで聞いてみるわw

26 :
>認識結果の文字をしおり(目次など見たいページにリンクを貼る機能)として設定し、PDFやEPUBファイル内に出力できるようになりました。設定したしおりは目次として活用できますので、ページ数の多い原稿を電子化する時などに便利です。
どゆこと?

27 :
プログラム言語が含まれる本だと
e.Typist(欧州言語対応)と e.Typist NEO(日英のみ)で違いがあるのだろうか
双方の体験版がほしいところだな

28 :
下のようなのは多言語版だと逆に精度落ちるのかね
----------------
「 ツンドク」という本棚を作って未読、読書中の本をつっこむsql
ReadStatus の条件を変えれば、未読と読書中を分けるのも可
BEGIN TRANSACTION;
DELETE FROM ShelfContent WHERE ShelfName = ' ツンドク';
DELETE FROM Shelf WHERE Name = ' ツンドク';
INSERT INTO Shelf
SELECT
STRFTIME('%Y-%m-%dT%H:%M:%f','now'),' ツンドク',
' ツンドク',STRFTIME('%Y-%m-%dT%H:%M:%f','now'),
' ツンドク','custom','false','true','false';
INSERT INTO ShelfContent
SELECT
' ツンドク',Content.ContentID,
STRFTIME('%Y-%m-%dT%H:%M:%f','now'),'false','false'
FROM Content
WHERE
ContentType = 6 AND Accessibility <= 1 AND ___ExpirationStatus <> 3 AND
content .___UserID <>'' AND SUBSTR(ContentID,1,18) <> 'file:///usr/local/' AND
IFNULL(content.___FileSize,0) > 0 AND
ReadStatus < 2
COMMIT TRANSACTION;

29 :
さすがにソフト内で認識言語の指定はできるでしょ

30 :
いや、ページごとに手作業でやるならともかく、
自動でやる場合は「欧文混在の日本語認識」みたいな
メッセージになるので、NEOと変換結果が異なると思われる。
そもそもこういうプログラミング系の本の需要こそ高いと思うので、
プログラム言語と認識して変換するOCRソフトがあってもよいはず

31 :
日本語と韓国語が混ざった本を e.Typist v.14.0で埋込PDFに自動変換したらできたけど
韓国語はローカルの文字コードをフォントで色づけして日本語のPDFファイルに
含めているだけなので検索用にはつかえないようだ
v15もUnicode対応はうたってないしな
しかしこれって普通の日本語文書でも一部を簡体字、繁体字、ハングルの
ローカル文字コードにされ検索不能になる危険性があるってことだよな
NEOのほうがいいのかな

32 :
帳票OCR Ver.7以外でラスター画像の一部を読み取って
そのファイルのファイル名にしてくれるフリーソフトはないですか?

33 :
そういやe.Typistは27日に発売だっけ
体験版はv14のままだったわ

34 :
この週末、無償アップグレード版が来たらレビューしようかと思ってたけど、まだ来ないわ>etypist15

35 :
今日FAXしようとしていた自分に来るのは相当先か

36 :
アップグレード来たけど、あんまり代わり映えしないな
PDFの画質も改善しないし

37 :
>>36
英文の本をマルチ言語で翻訳したら単語間のスペースが全てなくなる
英語固定にすると若干含まれているアクセント記号付きの文字がグチャグチャ
多言語対応と全くいえないバグだらけ、むしろ14の方がいいのかな

38 :
etypist15で行頭の認識結果文字列削除すると、文字カーソルが巨大化した後、
認識ウィンドウの文字に対するマウス操作効かなくなる。どう報告したものか…体験版で試してから購入するんだったorz
認識精度は個人的にあまり変わり映えなし。epub出力やPDFしおり出力云々のせいだと思うけどOCR作業ファイルの後方互換無くなった

39 :
全体的に下火な感じ 需要がそんなにないのかなー

40 :
一発!OCR Pro7というのもあるんだな
ジャストシステムから発売されているやつ

41 :
>>40
epub出力ないのかー
いらない
ルビつきのepubが普通に出力できるOCRは出ないのかな
マンガは自炊して処分できたけど、小説がEPUB化できないといつまで経っても捨てられない

42 :
e.typistでは駄目なの?
個人的にはルビまで修正の手が回らないから、ルビ出力はオフにしてるけど

43 :
ハードオフに行って、ジャンクのプリンタを買って読取革命Liteを手に入れるのが一番コストが安いな。
500円くらいで買えたもの。

44 :
OCRソフトだけは、俺が作ったほうが良い物がでける。
その自信がある。
てなことを思うほど
これほどイライラする類のソフトも無い。
俺ならまず、そのPCに存在する文書ファイルの語彙チェックから始めるな。

45 :
今のOCRソフトは手書き向けの精度向上にむけたアルゴリズムをアプデしてるからな
小説のような固定レイアウトで、文字も綺麗にスキャンされてる画像からOCRするのには向いてないんだね

46 :
>>44
同感だよな・・・
一番いいと言われている読取革命にしても、不具合多すぎるし。

47 :
>>46おめー絶対にわざと間違えてんだろ?
って突っ込みたくなることが多い。
95年初めてOCRに出会った頃と比べてほとんど進化してない。
新発売の洗濯洗剤のごとく
バージョンうpのたびに制度が向上とか
もっと凄くなってないとオカシイやろって思う。
ペロペロペロペロペロペロッって
認識が終わるのも腹が立つ
もっとじっくりやれよって
ベローォォォォォォ、ベロッーーーーーーーーーーーんっ?ペロッ
くらいでいいからさ
早く認識終わったって
間違いが多けりゃ意味ねえんだよ。

48 :
「つ」と「っ」の違いくらいはしっかり認識してほしいよな
文字の大きさを何で考慮しないんだろ
「間」「問」「聞」の間違いくらいなら大目に見るから

49 :
いくら日本語には半角全角かなカナ漢字数字アルファベットがあるといっても
漢字と漢字の間に一文字半角カナとか記号とかねえだろって思うんだよね。
単純に似た形の文字を持ってくるだけじゃなくて
人間の脳内補正みたく文脈から文字の種類を推定したり熟語のデータベースと照合したりそういうのでOCRの精度あげられないのかね。

50 :
http://vtns.wordpress.com/2011/02/22/ebook3/
数ヶ月程度で作った(らしい)画像認識でこんだけ絞り込めるんだから、OCRメーカーさんにはもっと頑張ってほしいところ
さすがに「言」が二二口とか洒落にならん

51 :
>>48
縦書きの漢数字なんかまともに認識してくれないしな。
個人的には読んでココが一番良かったな。
文字の種類によって色分けしてたり、改行コードがわかるようになってたから、
誤変換した後の修正がしやすかったし。
これで第二水準漢字に対応していてくれさえすれば良かったのに。

52 :
>>49 インスコするときに、
「このPC内の文書ファイルの単語をデータとして使用する」 はい、いいえ
させるとかしたらええと思う。
そのうちgoogleがっクラウド型OCR作ったら、他のメーカー壊滅やろね。
そういうの得意そうやし
ネット上単語データベース利用して、推測認識。
案外、「この文書の元ネタはこのページです。まるごとコピペした方が早いです。」とか言って来たりして。
イラつく例もう一つ
表認識で、数字が4,000、3,000、1,000と並んでるのに次のセルで「2、CO日。」とか認識しやがんのね。

53 :
e.typistのpdf出力の画質って設定で変えられるのね。
使えないと思ってたのが使えるようになったわ。
まったく、何でデフォルトが最低画質なんだか、、、

54 :
e.typist使ってるけど、ルビまでいい感じで読み取るけど?
そのまま青空形式でルビを書き込むようにしてる。

55 :
>>54
え、それほんと?
初耳
電子インクの電子書籍端末がいい感じで普及してきたのに、ルビつきのepubが簡単に自炊できるソフトがないことが最大のネックになってた

56 :
e.typist neoの出荷メール来た
読取と両方試用版試したけど決め手はルビ出力の可否
認識率は本文より低い感じだけど二重山カッコでくくってくれるので
底本参照の校正がはかどるのではないかと思いまして
とは言え認識率が100パーで無い限り底本突合せで間違い探しする訳で根気ないと無理ですねこれは
どうしても残したく且つ電書化の可能性が限りなく低そうな手持ちの本限定…って感じです

57 :
青空形式のルビ《 》もルビ開始位置の|も指定できるけど、本文でさえ校正が大変なのにルビまでは出来んわ

58 :
未だにsmartOCRをDLできる国外サイトいっぱいあるけど
あれって英数字だけだと月並み。
結局利用者は大概日本人か

59 :
OCRは、高圧縮pdfを吐かせるためで
誤認識は気にしない、だいたい認識してくれれば検索も役には立つ
と割り切って無修正で使っている

60 :
google docsが最強だろjk
しかも無料だし

61 :
>>61
上がるよ、フォトショで背景全部飛ばして文字の太さやらも調整する

62 :
>>61
ホントにホントに?

63 :
書籍は画像で保存していて、
OCRかけて検索可能PDFにするのは自分は諦めてるんだけど、
画像内の文字列をちょこっと選択して、
Google検索だけしたいとはよく思う。

64 :
ビューアでそんなの出てほしいな
手動で範囲選択してそこだけOCRかけてweb検索やら辞書検索やらする

65 :
読取革命のアクチベーションはどのバージョンからですか?

66 :
うちの文鳥は特別に可愛い
たぶん他のところのより可愛い
そうとしか思えないくらい可愛い

でもそう思っている飼い主ってけっこう多い?

67 :
読んde!!ココ パーソナル(エプソン版)

画像の読み込みは白黒でしか対応していないため、
モノクロビットマップに変換してやる必要がある。
※元ファイルを消してしまわないため、コピーを別ディレクトリに保存した方が安全。

とりあえず光学文字認識をしてしまい、あとは愛用のエディタを用い、
元ファイルの画面を参照しながら手作業で直していく。
自動文章認識機能に頼りきっていては、なめらかな文字認識ができないため、
きめ細かな修正はやはりオペレーター(ユーザー)が行うしか無いのだ。

Google翻訳で日本語から英語へ翻訳する際、長文のニュースサイト、
論文とかは翻訳にあたってのコツはいちいち使えませんよね。
そこで、Google翻訳ツールセットを用い、おかしな翻訳は
ユーザーが手作業で修正する。それと同じ。

68 :
パナソニックの体験版ずっと前に使ったらしく
テスト出来なかったので
とりあえず体験版で上手くいったんでe.Typist NEO買っちゃった。
パナのばか野郎

ちゃんと段落指定しないと文字間にスペースが入ったりするからめんどくさいけど
ルビもしっかり読み取るし
右クリックですぐ検索できて素敵なPDFライフ送ってます
スキャンしたjpgファイルのゴミの山が宝の山に化けたぞ!

69 :
2010年購入image scanner CanoScan 5600F付属の読取革命Lite v.1.09。
Web pageにあるJPEGなどの画像表示、つまりそのままテキスト文でcopy&paste
できないものをテキストデータに変換したい時がたまにある。
画面キャプチャ(snipping tool)によるclip boardを入力データとして読み
込んで、文字認識させてテキスト文にする。

最近5年ほどでOCR softwareの文字認識能力が格段に向上したというけど、
私の使っているものは読み間違えが多い。
画数の多い漢字は正確に認識しにくいが、英字などで"i"&"l"&"1", "o"&"0"
などは必ず間違っている。

70 :
etypistがえらい勢いで良くなってるな
読取はルビ読み取れないが eは読む

71 :
etypist15の発売日2013年やないか

72 :
☆ 日本の核武装は早急に必須です。☆
総務省の、『憲法改正国民投票法』、でググってみてください。
日本国民の皆様方、2016年7月の『第24回 参議院選挙』で、日本人の悲願である
改憲の成就が決まります。皆様方、必ず投票に自ら足を運んでください。お願い致します。

73 :
etypist、性能はいいんだが
読み込み時にいちいちウインドウがアクティブになるので
他の作業が出来なくなるのがうざい
別にアクティブになる必要ないだろ

74 :
OCRソフトで、原稿のフォントを指定すると
認識精度が上がる機能があればいいのにな
ゴシックと明朝、フトコロの大小だけでも
だいぶ精度が上がりそうなのに

75 :
活字なら文字の大きさも一定だし、フォントとか認識できれば、言偏が分解されたりせずに済みそうだよね

76 :
認識率98.66%?!たった2ヶ月で手書き日本語のOCRを開発したノンジャパニーズに話を聞いてきた
https://bita.jp/dml/reactive_int

77 :
体験版で精度をチェックしたいのに製品版と性能が違うのもあるらしいから困る

78 :
FineReader買ったけどいいね。

79 :
>>78
学習が日本語対応してないのが痛い

80 :
>>79
実質、英文のOCR専用でしょう
日本のOCRソフトで英文OCRやってもグダグダなのと同じだと思う
洋書を電子化するにはなかなか良いソフトだと思う

81 :
ホームページ見ると英語なら読取革命もABBYY社製エンジンだね
ちなみにe.typistはNuance社製

82 :
>>81
俺はhttp://monomania.sblo.jp/article/55737163.htmlで↓を読んでFineReaderを買うことにした。
>>読取革命は英語の部分はFine Readerという英語圏では最も信頼性が高いOCRを採用していますが、エンジンを上手く生かし切れていません。

83 :
eTypistは認識中にウィンドウがアクティブになるのを防げんのかね

84 :
>>83
確かに。読取革命とは対照的に、処理中はPCを
事実上専有されてしまい困るね。

googleのAPIを試してみたら、認識精度は相当良かった。
今は(たぶん)アプリがないので敷居は少し高いが、
将棋といい、今後はAIの方向性になっていくのかな。

85 :
パナソニックがすでにAIとかディープラーニングを投入した手書き文字
対応の帳票OCRソフトを発売しています

ttp://news.panasonic.com/jp/topics/148335.html

お値段もいいっすね。

・帳票OCR Ver.8 クライアント版:398,000円(税抜)

86 :
>>85
お値段張りますね。個人にはちょっと手が出ません。

個人的にはGoogle cloud visionで満足ですが、
誤認識のフィードバックや学習機能はないですね。

87 :
Google Cloud Vision OCR使って検索可能なpdf作るコマンド昔作ったけど、Googleがjsonの形式変えて後ろに余計なものつけたせいで使えなくなったw
直したいけどヒマないな…

https://github.com/dinosauria123/gcv2hocr

Linux用。Bash on Windowsでも使える。

88 :
>>87
素のWindows環境なので試せませんが、
検索可能PDFはいい考えですね。

高級言語を何も知らないので、標準のPowershellで
フロントエンド部分のスクリプトを作ってみたら、
Google Cloud Vision、結構いいかも。
文庫本一冊あたり数分でテキスト化できるようになった。

89 :
Google Cloud VisonのOCR, いいですよね。

古いカメラ好きで、戦前戦中期のカメラ広告のデータベースを作ろうとしてるのですが、
他のOCRよりかなり良くて重宝してます。

全てが読めるわけではないですが、ものによっては広告の見出しのロゴなども読み取れます。

ちなみにテスト中のサーバーはこちらです。
縦書きがひっくり返ったり、画像が出なかったりとまだうまくいかないのですがw

http://104.197.98.173/

スクリプトは公開されますか?興味ありますw

90 :
Google Cloud Visionを使ったOCRソフトが1480円だそうです。いいかも。

http://n.shop.vector.co.jp/service/catalogue/ppocr/

91 :
すまん、これTesseractベースらしいw

92 :
Googleドライブのサービスが終わることが決まったらしい

てことはOCR民に重宝されていたGoogleドライブを経由して上げたjpgから文字化するあのシステムも失われてしまうのだろうか

93 :
と思ったけど機能発展かなんかの流れで推移して仕組みが変わるだけでそういったシステムが無くなるわけではないのかな
よくわからんね

94 :
手書きOCRの記事をよく読むけど、手書きであの精度がでるなら、活字は100%近い精度が得られそうな気がするけど、どうなんだろうね?

95 :
記事のための

96 :
☆ 私たち日本人の、日本国憲法を改正しましょう。現在、
衆議員と参議院の両院で、改憲議員が3分の2を超えております。
『憲法改正国民投票法』、でググってみてください。国会の発議は
すでに可能です。平和は勝ち取るものです。お願い致します。☆☆

97 :
電子書籍のように無料で稼げる方法
グーグル検索⇒『稲本のメツイオウレフフレゼ

Z9GSY

98 :
Google Cloud Vision APIで透明テキストのPDF作ってみたんだけど、abbyy finereaderとか、e-typist、読み取り革命とか、捨ててもいいレベルですね。
何万も掛けて買って、精度の悪さにがっかりしていたのがバカバカしくなるレベル。
Google Cloud Vision APIのOCRはマジでおすすめ。

99 :
IDSP8

100 :
https://imgur.com/7FjSs7h.jpg


100〜のスレッドの続きを読む
Kindle セール情報 part19
BookLive part31
【KADOKAWA】BOOK☆WALKER 56冊目
【楽天】Kobo 総合 146冊目【コボ】
【漫画No.1】eBookJapan 31冊目【ebj】
【E-ink端末】Amazon Kindle 35【電子書籍リーダー】
【漫画No.1】eBookJapan 31冊目【ebj】
【NEC】BookLive!Reader Lideo【リディオ】
kindle セール情報 part132
【絶版】 マンガ図書館Z 第十五巻 【Jコミ】
--------------------
■ジャニーズ板雑談スレッド98■
【ダンメモ】ダンまち〜メモリア・フレーゼ〜 part273
SNS極楽浄土ムラカミ
【八王子】ドンキホーテ八王子駅前店で火事 店内に煙充満 お客様が一斉避難し混乱状態
【葉巻】葉巻の海外通販スレ【シガー】part16
アニメBD・DVDの売り上げを見守るスレ5874
システム手帳 総合34
【RT】第69回診療放射線技師国家試験 part2
高田健志 総合スレ
リスニングとスピーキングを学ぼう
【よみうりテレビ】★中村秀香★part2【す・またん!】
池上彰のニュースそうだったのか!! 2時間スペシャル★7
【賎しい】(●●)鼻穴を拡張して生物板に住みつく誰にも相手にされていない松戸の鼻穴馬鹿豚無職ニート
■綾瀬はるか とワンオクTaka[ONE OK ROCK]の噂★28
関帝のおみくじ
【囚人】Convict Conditioning【プリズナー】pt.4
【79.5MHz】NACK6総合【5】
☆★★第二期水戸黄門をマターリと語るスレ★★★
乃木恋でも掛橋の人気が下げ止まらない・・・ 一体何が起こっているんだ・・・
triangle
TOP カテ一覧 スレ一覧 100〜終まで 2ch元 削除依頼