TOP カテ一覧 スレ一覧 100〜終まで 2ch元 削除依頼
【エネルギー】核融合発電所を15年以内に実現することを目指すMITの新たな研究がスタート[03/12]
【宇宙】急接近する奇妙な彗星を発見、また太陽系の外から? 最接近は12月29日[09/17]
【宇宙開発】宇宙エレベーター「実験は半分成功」…静岡大[04/14]
脳に電気刺激を与えると高齢者のワーキングメモリが20代並みまで回復したという研究結果[04/10]
【環境】国内の再エネ比率は16.9%に向上、エネルギー自給率は7年ぶりに10%台を超える
【宇宙科学】天の川銀河の直径、これまでの10倍『100万光年』[6/30]
【AI】歌声の進化っぷりがすごい 日本マイクロソフト女子高生AI「りんな」が歌う新曲のハイレゾ音源が無料配信中[08/25]
【生物】大阪市 水道記念館で飼育のイタセンパラ"全滅"[07/05]
【出生率】人口爆発による食糧危機の可能性は小さくなっている[03/25]
超希薄燃焼と水噴射でガソリンエンジン熱効率52 %を達成 温度成層化によるノッキング抑制と冷却損失低減効果

【AI/画像処理/古文書】AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発[07/12]


1 :2019/07/12 〜 最終レス :2019/10/01
AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発(記事全文は、ソースをご覧ください。)
https://pc.watch.impress.co.jp/docs/news/1195499.html
2019年7月11日 12:12
PC Watch,Impress,インプレス,笠原 一輝

【科学(学問)ニュース+】

https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/001_l.jpg
(画像)くずし字で書かれた古文書を手に持つ情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏

 Googleは都内のオフィスにおいて、「Solve....with AI」というアジア太平洋地域の記者などを集めたイベントを開催し、Google Cloud Platform(GCP、Googleのパブリッククラウドサービス事業)などを通じて提供している各種のAIサービスやTensorFlowなどの機械学習(マシンラーニング)ベースのAIを開発するツールなどのソリューションや、その具体的な利用事例などを紹介した。

 このなかで、情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター特任研究員および国立情報学研究所のタリン・カラーヌワット氏は、日本語の古文書で一般的に使われている「くずし字」を自動で読み取って現代語に翻訳(正確には翻刻)するOCR「KuroNet」を開発し、Webブラウザ上で実行可能な機械学習ライブラリとなるTensorFlow.jsとしてくずし字の文字認識が可能になるようにしたと説明した。

【お詫びと訂正】本AIの開発にはGoogleの技術も用いられていますが、AI自体をGoogleが開発したと誤解を招く表現がありましたので、お詫びして訂正させていただきます。また、このプロジェクトの作業内容は正確には翻訳ではなく翻刻と呼ぶのが正しいので、その旨付記をいたしました。

・百数十年前までは皆が読めていた「くずし字」。今は人口の0.01%以下しか読めないという現実

https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/002_l.jpg
(画像)くずし字と現代語、確かに現代人からすると日本語なのに読めない

 7月10日にGoogleの東京オフィスで行なわれたイベントに登壇した情報・システム研究機構 データサイエンス共同利用基盤施設ROIS-DS人文学オープンデータ共同利用センター 特任研究員 および 国立情報学研究所 タリン・カラーヌワット氏は、「日本では1千年にわたりくずし字という筆記体の文字を使ってきた。しかし、現代の印刷システムではそれを使うことは難しく、20世紀に入って現代語へと変換が進められてきた。その結果、くずし字で書かれた数百万の古文書や古書が現存するが、それらは人口の0.01%以下の人しか読むことができない」という問題を指摘した。

https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/003_l.jpg
明治時代に印刷システムの要求から筆記体のくずし字から現代語への転換が図られた

 たとえば江戸時代の古典籍はくずし字と呼ばれる筆記体の日本語で書かれている。文法などは現代語と大きな違いはない(厳密に言うと主語が省略されることが多いなど微妙な違いはある)のだが、そもそも文字が識別できないので読めないという問題がある。

https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/004_l.jpg
(画像)数百万のくずし字で書かれた古文書があるのに人口の0.01%以下の人しか読めないという現実

 大学などで専門に歴史を研究している研究者であれば、まずはそのくずし字に関して勉強をして読めるようになる(つまり0.01%以下の1人になる)だろうが、民間の研究者が歴史について学び、研究したいと考えて、1次資料である古文書を読もうとしても、まずはこの「くずし字」が読めないというハードルがある。

■■以下、略

2 :
読めないようにしてきたんじゃないかね

3 :
タリン・カラーヌワット女史

タイ生まれ、若い時によんだあさきゆめみしを見て源氏物語にぞっこん
日本語学科を通して日本に留学、くずし字を勉強するも挫折するが
自分で書いてみれば習得できるのではと思いつき、実際に書くことで
くずし字を習得する

4 :
くずし字の変体仮名は似た字が多いけどちゃんと区別できてるならすごいな

5 :
>>3
ネトウヨホルホル?

6 :
何処で翻訳してくれるんだよ

7 :
>>5
パヨクって日本語しか話せないから日本から出て行けと言われたら自Rるしかないんだね

8 :
まあ 読めるようになるのはいいけど 一般人が閲覧できるように

しっかりなるかが課題だな 日本はそこが弱いし 隠す傾向が強いwwww

しっかりオープンソースでそうして欲しいねw

わたしからは以上だな ミカエル(悟ったもの)より。

9 :
直接英訳した方が早そうだな

10 :
>>2
権威主義の専門家が自己の読み間違えを理屈こねて正当化定着とかさせちゃったりしてきたからね。

11 :
>>3
ひたすら感謝だわ。ほんとありがとう。

崩し字読めないアマチュア勢も古文書から情報読み取れるようになるから、
色々面白い研究成果が生まれそう。

12 :
俺んちもそんな巻物があるんだけど解読できなくてなあ
とにかく在野の歴史マニア歓喜だろ

13 :
くずし字って英語の筆記体みたいなもんだろ

14 :
>>3
タイ人→源氏物語→くずし字
こりゃ大変だったろうな
ありがとう

15 :
>>1
一般公開されれば、いずれ神田の古書街が大にぎわいになるな

16 :
一回だけ、この研究員の得意技である松葉くずしをやってみたい。

17 :
棋士vs将棋ソフトみたいに磯田vs翻訳ソフトを

18 :
>>16
松葉くずしとか紅葉合わせとか、むかしのひとは性技を木の葉で例えるように
しとったんだねww

19 :
英語も筆記体見なくなったよな

20 :
>>3
素晴らしい。

21 :
変態少女

22 :
狂喜乱舞って久々に聞いた

23 :
すごいなAI。翻訳ツールが何を開発したのか気になる

24 :
昔の人はよく読めてたなってほんと思う

25 :
すごいけど日本語で外国人に先越されるなんて日本人なにやってんだよほんと

26 :
これは素晴らしい
文化勲章を差し上げたい

27 :
これは素晴らしい、でもこれは文字を解析しただけで翻訳と言えるのだろうか
次は本当の意味での翻訳だな

28 :
地味だけどこれは素晴らしい技術ですね
過去の資産を十分に生かせるようになる
焚書したり文字を捨てたりする国は滅ぶ

29 :
>>3
「あさきゆめみし」って少女漫画ですよね
それを読んで日本漫画オタになったタイ少女の成功物語
ぜひとも映画化してほしい

30 :
古文書片っ端から解読して青空文庫に上げてほしい。
で口語訳もAIでやってできるようにして。
で、それらの成果物の著作権とかはどうなるんかな。

31 :
>>3
タイ人なのにってより、文系なのにってところで感心するわ。

「好き」って大事だな。
俺も宇宙の研究やりたかった。

32 :
日本人研究者は日本語をAIで解読することを邪道と思ってたとか?
あるいは文系研究者はAIで何ができるかわかっていなかったとか
ありがちな話だけどどーなの

33 :
ネットの認証セキュリティで日本語のくずし字を記入するサイトがあるけれども
あれもやっぱり近い将来にAIに判読されそうだな

34 :
明治大正時代の外交文書なんか見てても
官僚が墨で自筆で書いたものは判読が結構厳しい
活字印刷は隔世の感があるね

35 :
>>32
どっちかいうと後者じゃないかなぁ

36 :
欲しい!
今欲しい!

37 :
これが正しいAIの使い方だな。
ただ、10年位英翻訳があのままなの見ると絶望だが

38 :
現代日本人が読めなくなったくずし字をタイ人が解決するって面白いなぁ
読めないから書くところから始めるとか
めっちゃ地味だけどほんとに好きなんだろうな
感謝

39 :
>>2
幕末のちゃんとした人が書いてるのはほぼ現代語で
一部のくずし字がわかれば普通に読めるぞ
特に薩長の文書は読みやすい
ここの役人が明治政府を作って現代語をつくったのがよくわかるわ

40 :
>>25
おまえは部屋から出ろ。

41 :
韓国は漢字を廃止したから過去の文献を読めないなんてのはウソだから
韓国人だって専門家は読める
また日本人だって専門家しか過去の文献は読めない

42 :
磯田道史がダメ出しの嵐

43 :
AIといっても、
大量の古文書の画像データを集めて、マッチングしたものを現代語に変換する、
そんな総当たり的なやり方なんでしょ?

44 :
ぶっちゃけ、本能寺で信ちゃんやったの、俺なんだよねwww
竜馬、すまん。暗殺の首謀者な、実は俺、的な大発見来るか??

45 :
そういえば、英語の筆記体も、知ってるのは日本人くらいらしいな。
ネイティブは筆記体でなんか書かないし、読めない。

46 :
>>40
部屋から出るとか出ないとかじゃなく、>>25の感想は普通だと思うよ。
開発者の名前を見て一瞬目が点になったもの。

47 :
解読する必要性を教えてくれ

48 :
これで戦国の世にタイムスリップしても一安心だ

49 :
>>45
看護学校に行った娘が筆記体を習わせられて文句言ってたけど
カルテに筆記体で書く年寄り先生もいるからじゃないの?って言ったら納得してた。

50 :
アホには翻訳後の翻訳が必要なんだが

51 :
「翻刻」っていう作業らしい

>>49
筆記体じゃなくそれぞれのミミズ字を習得する必要が・・

52 :
>>43
だから?

53 :
くずし字読む入門書買ったことあるけどすぐ挫折した
崩し方の幅がありすぎ

54 :
日本ファンのタイ人研究者さん、ありがとう。

55 :
マイルドな暗号通信に使えるかな

56 :
>>32
日本語は 漢字 ひらがな カタカナ English 0123...9 などから成る
英語は 0123...9 abc...z ABC...Z と少ない

そして現在の書かれた文字の認識は統計アルゴリズム、つまり数学によって実装されている
数学的には、分類する種類の数が大きいほど指数関数的にサンプルデータ必要です
つまり数が必要だったから現実的じゃなかった

57 :
文字を判読できるのと意味がわかるのはまた別だからな
今では使わない単語や別の意味で使っている単語があるから
現代語に翻訳する機能も必要

58 :
>>46
日本人向けなら読解書とか対応表とかあるだろうし、
古文の文法も中高でやらされるし、ある程度読むなら困らないんだろうな

59 :
ど素人の大量参入により
日本史学会壊滅w

60 :
>>45
イギリスに home stay したが、その人は筆記体で手紙くれたよ
イギリスのヨークの人

61 :
>>31
なにその文系なのにって
彼女に謝れ

62 :
アラビア語翻訳システム作ってくれよ

63 :
狂喜乱舞ってバカじゃねえか
日本の学界はなーーーんにもやってこなかったんだろ
なんでガイジンに先越されてんだ
ほんとうにバカの集まりだから学会なんて解体しろよ

64 :
>>31
初めて買ってもらったPCのおまけで
プログラミングの入門書がついてて、その方面も強くなったらしい
これって文系理系で分ける発想がそもそもなかったからこその成果だよね

65 :
グーグルドキュメントのOCR精度はここ数年で眼を見張るほど上がって行ってるからな
どんどん便利になるなあ

66 :
>>7 J( 'ー`)し「出ていけ。」

67 :
古文書って古民家に結構眠ってるけど状態悪いと引き取り手は無いし
修復するのに金も掛かるんで結局ゴミとして捨てられることが多い

68 :
しかし、考えてみると人間の分析能力ってすごいよな。
個人ごとに癖があって異なっている崩し字を昔の日本人は何の苦労もすることなく
スラスラ読めていたんだから。

69 :
これで古文書の研究者が失業するのか?
だとしたら大きな改善になるな

70 :
昔は読み書きできた人はごく一部の気がする

71 :
>百数十年前までは皆が読めていた「くずし字」。

識字率凄いな

>今は人口の0.01%以下しか読めないという現実

人数として十分じゃね?

72 :
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/001_l.jpg

だいぶ顔がくずれとるな。

73 :
>>31
> 文系なのに

頭固いなあ

74 :
破顔

75 :
>>70
江戸時代は89%超えだよ

76 :
>>70
誤タイプ

80%超えだよ

77 :
 >>70

それは朝鮮半島の話。
 日本ではすでに江戸時代に多くの人が読み書きできるようになっていた。

78 :
春画で試してみたい

79 :
マジすげぇ
読める人かなり希少だから今読める人の仕事奪わないし、解読する時間を研究に回せるし、マジすげぇ

80 :
>>18
「紅葉合わせ」って「貝合わせ」のこと??

81 :
素人目に圧倒的に凄い。だって読めないもん。
むしろ素人向きな気がする。

プロにとっては稀にある読み取りミスが鬱陶しいだろなぁ。
ちょっとでも誤りがあると全部チェックするしかないしかなりしんどい。
変に文脈・単語から修正とかすると意味が正反対になったりしそう。

82 :
>>32
日本人研究者は読めちゃうからイラン。苦手でも周りに読める人がいっぱいいる
困ってるのは一般人と外人で、だから外人が作ったってとこやろ

83 :
すげえな
ありがたい

84 :
>>82
そこが研究の敷居の高さになってるから、どれだけオープンにするかだね
日本語の文献史学はどんどんノンネイティブの人が参入して欲しい
万葉集とか古いのはネタが尽きて、研究進まんのよ

85 :
唯一座学分野でこれだけは母親に負けてるわ。
あの糞ババア草書書けるからな。

86 :
女手のひらがな自体草書で崩した書体の表音文字化に過ぎんからな。

87 :
崩し字と只単に字が汚い場合の区別もつきそうだなw

88 :
古文書解読習得アプリって、これまでも出ていたよね。

89 :
タリン・カラーヌワット女史じゃねえよ!

90 :
手書きハングルも読みにくい。

91 :
>>1
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/002_l.jpg
まちがっとるやんけ

×おとなにことを
○おとなふことを

92 :
磯田先生も愛用

93 :
なんでも鑑定団ご推薦だといいが

94 :
>>3
タイ語って読み書きするのがかなり難しいんだよね
文字の発音に法則はあるけど、「結局スペルを丸ごと覚えた方が早い」
とまで言われる

タイ人って特に女性は物凄く勉強するからなあ
そしてハイテクの使いこなしもかなり強い

95 :
昔の知識層は達筆すぎてなぁ
全く歯が立たん

96 :
>>61
たぶんお前が思ってる意味で>>31は発言していないぞ
ps://news.yahoo.co.jp/byline/enokieisuke/20190418-00122843/
時間があったら読んでみてくれ
日本の文系研究に対する姿勢について>>31は語ったんだと思う

97 :
ちょいちょい間違えてるな
https://www.nihu.jp/ja/publication/nihu_magazine/037
https://pc.watch.impress.co.jp/img/pcw/docs/1195/499/002_l.jpg

1行目 給は → 給ける 
6行目 更し  → 更衣
7行目 みやづか人 → みやづかへ
7〜8行目 うちみを → うらみを
9行目 いよく →いよいよ

98 :
>>97
画像間違えた
https://www.nihu.jp/sites/default/files/Tarin_photo2.jpg

99 :
この一人の名前見て
ぬわーーっっ!!
を思い出した人は結構いるはず

100 :
更科日記みたいな…でもないか


100〜のスレッドの続きを読む
【養殖技術】近大、ウナギ完全養殖に挑戦=人工ふ化成功、1000尾以上成長[11/01]
【医学】肉を半分に減らさないと地球に「破滅的被害」[01/25]
【新型コロナ】爆発的拡大「オーバーシュート」警戒 都市部の増加踏まえ、政府専門家会議が新見解
【歯科診療】「治療費100万円!」歯科インプラントで事故続出!痛み3年も…国民生活センター[03/23]
【話題】反日か、学問の自由か…「科研費6億円」大論争 大学教授「もらっているのは“反日”の研究者ばかり」[05/16]
【新型コロナ】日本製のBCGワクチンが新型コロナウイルスに対する免疫になっていた可能性
【歴史/医学】731部隊研究の権威が語る「731部隊長石井四郎はなぜ人体実験を」[18/1/21]
【医学】水虫の治療薬が胆道がん細胞の増殖を抑制、慶應義塾大学が発見[05/06]
【新型コロナ】大阪大など開発の新型コロナワクチン、7月にも治験開始へ…国内初 [しじみ★]
【天文家】山形のアマ天文家・板垣公一さん 米天文台観測協力者に 「超新星」発見、国内最多の実績 /山形 2020/02/20
--------------------
【みんなを】松本寛也 1【楽しませたい】
【老人・シニア】高齢ドライバーに関しての議論 part 1
くるねこ83
【コテも】みんなが本音で雑談するスレ【名無しも】
【朝鮮日報】「米国は韓国に原潜技術を渡さないだろう」ワシントンの専門家、討論会で明かす 韓国国内の専門家ら「独自建造可能」[10/30]
銭湯の男湯に入る小さい女の子を語ろう!15
本家以外の武田家を語ろう!
二人のイニシャル ★20
CRシュタインズゲート【ニューギン】
TDR謎解きプログラム
テレキャスターのピックアップについて Part4
楽天ブロードバンドLTE エントリープラス 3
【葬儀】葬祭関係職員室【火葬】
【韓国】女性実業家を監禁・暴行した高利貸し一党[11/07]
【東方地霊殿】古明地こいし萌えスレ【緑髪】
中川翔子さんに出会えて幸せだった67【シベリア】
【北海道地震】札幌市のススキノでネオン復活。「元気出る」との一方で「節電の意味がない」ど自粛を求める声も
【香取じゃない方】西遊記が面白すぎる件
【汚物】痛い変数名・関数名【破廉恥】
デフラグやレジストリの掃除・最適化は不要
TOP カテ一覧 スレ一覧 100〜終まで 2ch元 削除依頼