見出し画像

「OCR文字起こし」でありがちな誤認識

《※あくまで個人的な備忘録です。順番はテキトーです》

人⇔入
己(おのれ)⇔已(い)⇔巳(み)
本⇔木⇔水(※明朝体は横棒が薄いので文字がカスレがち)
千⇔干
上⇔土⇔士
未⇔末
抹⇔沫
抱⇔泡
白⇔自
全⇔金
中⇔申
貝⇔員⇔屓
伸⇔押⇔狎(なれる・あなどる)
問⇔間⇔聞⇔開⇔閨(ねや)
困⇔因
旬⇔句
師⇔帥
烏⇔鳥⇔島
嗚⇔鳴
鴫⇔鴨
猫⇔描
狐⇔孤
埋⇔理⇔狸
崎⇔畸
味⇔昧
栽⇔裁
柏⇔拍
枝⇔技⇔伎
侯⇔候
根⇔恨
掘⇔堀
提⇔堤
貼⇔帖
紫⇔柴
栗⇔粟
緑⇔縁
租⇔祖
簿⇔薄
管⇔菅
盤⇔磐
衝⇔働⇔慟
漫⇔慢
浚⇔俊
待⇔侍⇔恃⇔持
住⇔往
惧⇔倶
冶⇔治⇔怡(よろこぶ)
連⇔運
璧⇔壁
崇⇔祟
祇(ギ)⇔祗(シ)
擅(セン・ほしいまま)⇔壇(ダン)
昴(すばる)⇔昂(たかぶる)
藪⇔籔(※意味・読みは同じ「やぶ」だけど別字)
洌(きよい・さむい)⇔冽(さむい・つめたい)(※意味は近いが別字)
涸(かれる)⇔凅(こおる)
日(にち)⇔曰(いわく)

柿(かき・総画数9・Unicode:67FF)
⇔杮(こけら・総画数8・Unicode:676E)

𠮟(印刷標準字体)⇔叱(異体字)
(※本来は別字だが、正字・俗字の関係として扱う場合があるのでややこしい)
吞(印刷標準字体)⇔呑(異体字)
来(新字)⇔來(旧字)
塚(新字)⇔塚(旧字)
凜(親字)⇔凛(異体字)

ソ⇔ン⇔シ⇔ツ
し(ひらがな)⇔レ(カタカナ)
つ(ひらがな)⇔フ(カタカナ)
づ(ひらがな)⇔ブ(カタカナ)
へ(ひらがな)⇔ヘ(カタカナ)
べ(ひらがな)⇔ベ(カタカナ)
ぺ(ひらがな)⇔ペ(カタカナ)
は⇔ほ
ば⇔ぱ、び⇔ぴ、ぶ⇔ぷ、べ⇔ぺ、ぼ⇔ぽ
バ⇔パ、ビ⇔ピ、ブ⇔プ、ベ⇔ペ、ボ⇔ポ
り(ひらがな)⇔リ(カタカナ)
と(ひらがな)⇔ヒ(カタカナ)⇔匕(漢字:あいくち)
え(ひらがな)⇔之(漢字:これ)
エ(カタカナ)⇔工(漢字:こう)
オ(カタカナ)⇔才(漢字:さい)
カ(カタカナ)⇔力(漢字:ちから)
タ(カタカナ)⇔夕(漢字:ゆう)
ト(カタカナ)⇔卜(漢字:うらない)
ロ(カタカナ)⇔口(漢字:くち)
ニ(カタカナ)⇔二(漢数字:2)

一(漢数字:いち)
⇔ー(記号:音引き)
⇔—(記号:ダーシ)

rn(アール・エヌ)⇔m(エム)
l(エル:小文字)⇔I(アイ:大文字)⇔1(算用数字:イチ)

この記事が気に入ったらサポートをしてみませんか?