2018年8月28日火曜日

画像から文字を認識してさらに翻訳!

youtubeや洋ゲー、漫画でちょっと出てくる外国語をぱっと翻訳できれば便利だと思いませんか?
気になった文を手打ちで写すのは面倒です。
これをgoogleのを画像認識を使って翻訳できるようにします。
若干手作業も入るので半自動って感じです。
APIと既存のソフトの組み合わせでこんなに便利になります!

準備として
①今回、WinShotというフリーのスクリーンショットを活用します。
保存先のフォルダの監視できればいいので、他のスクリーンショットソフトでもいいですがWinShotは優秀なのでお勧め。 矩形範囲指定かつPNGが保存できるようにしてください。
前回のノリでGoogle Play Consoleで「Google Cloud Translation API」を有効にします。
③さらに「Cloud Vision API」も有効します。

※②と③のサービスは有料です。洋ゲーで使いまくらなければ無料分で納まるかと思います。料金体系を理解して使用してください。便利なサービスなのでお金を払うのに値すると思う。
毎度のことですがAPIキーが他人の手にわたらないように!



以下、今回のコードの仕様
・「http://localhost/ocr_trs.php」をブラウザに入力して使用を開始します。
・ブラウザでコードのPHPを起動して、スクリーンショットを取ると自動で翻訳します。
・スクリーンショットで画像が保存されるたびにその画像を翻訳します。
・WinShotはショートカットキーで矩形範囲指定が行えるようにする。
そして読ませたい文字の部分を少し広めに囲って拡張子PNGで保存します。
コードはPNG対応になっています。文字がぼやっとするのが嫌なのでPNGにしています。
・認識した原文と翻訳後を表示する。
(画像認識結果がいまいちな場合は編集できるように原文をコピペできるように表示する)
・言語の指定をする必要が無いように言語検出を行う。 (その分、料金が発生することに注意)
・検出した言語→日本語の翻訳を行います。(日本語⇒日本語はエラーになってしまう)
・読みやすいようにピリオド以外の改行を無くした後、ピリオドで改行を行う


C:\xampp\htdocs直下に以下の2つのコードを保存してください。
1つ目
このコードはスクリーンショットソフトがPNGファイルを保存するフォルダを監視し続けます。
そして新規ファイルが保存されたらそのファイル名を返します。
どうもPHPではphpファイル直下のファイルしか画像表示できないようなので、「test.PNG」というファイル名を直下にコピーしています。
フォルダパスは自分の環境に合わせてください。




注釈として、
このコードは2つ目のコードから呼ばれます。
5行目で最初のフォルダの状況を保存し、12行目の最新のフォルダの状況を取得。
15行目で差分をとり、その差分があれば28行目でそのファイル名を返します。
※固定の名前でコピーしているのだからファイル名を返す必要はないのかも。。。
11行目で1秒毎に監視しています。頻度を早くするとレスポンスが少し良くなると思います。
20行目コピーを行うときに待ちなしで行うと失敗することがあるのでちょっとだけまっています
22行目表示用にコピーを行います。


2つ目
①は自分のAPIキー。
新規に画像が保存されたらそのファイルを画像認識のAPIに投げます。
次に画像認識結果のテキスト部分を翻訳のAPIに投げるという単純な構造です。





注釈として
24行目、①の部分に自身のAPIキーを入力します。
25行目、PHPで長時間待つために必要
31行目から35行目。言語の検出を行わない場合は$langをその言語に入力してこれらをコメントアウトしてください。
57行目 ファイル名を表示してますが邪魔ならコメントアウト
65行目 文字認識を指定しています。
68行目 画像データをbase64という文字列に変換しています。
93行目 改行を一度なくしたあと、94行目でピリオドを改行に変換しています。
98行目 翻訳結果のピリオドを「。」に変換しています。
110行目から javascriptからajax通信を使いphpから新規のスクリーンショットのファイル名を取得しています。


////////////////////////////////////////////////////////////////////////////////////
以下はいくつかの使用例です。
「第3のギデオン」という漫画のビッグ・モータの墓の文言です。

文字が石碑風になっているので認識がいまいちな。
原文(青字)をコピペして少し修正しグーグル翻訳を書けます。(フランス革命の話なのでフランス語で)


これで伝えたいことがだいたいわかると思います。


youtubeのゲーム実況で出てきた英文です。

まぁだいたいの意味がわかればいいでしょう。飾った文字じゃないのでちゃんと認識してます。 ※ファイル名表示邪魔かも。

タイ語です。
ピリオドがないので区切りがいまいちかも。
話の流れと合わせて、なんとか予想できるのでまぁ理解の助けになります。

//////////////////////////////////////////////////////////////////////////////////////////
画像認識はgoogle driveからもできるらしいけど、こっちの方が10秒もかからないしスムーズにできると思います。
画像で提示されたシリアルコードを手で写すのがメンドクサイときのも画像認識は使えます。

0 件のコメント:

コメントを投稿