カタログ写真のようなテキストが多数入っている画像からのテキスト起こしを比較してみました。
openai 精度よし、しかし遅い、もしくは無反応、タイムオーバーになりやすい
Gemini ハルシネーションが多い
Claude 精度よし、ハルシネーションが少ないが、取得文字数はopenaiより少ない、スピードは速い
そもそも画像のテキストのフォントが、ドット数の少ないような文字なので、AIも大変かもね。
それぞれのPython関数を作ったので、今後はまたなにかに使えるかな。
ちなみに、Pythonで使えるOCRのモジュールも使ってみたけど、これはひどかったです。
テキスト起こしは、もうOCRではなく、AIですね。
なかなか楽しかった。
WEBプログム、WEBデザインなどの制作については、以下を御覧ください。
WEBプログム、WEBデザインなどの制作