Cloud Vision APIを使って画像から文字を抽出してみる

記事内に広告を含みます

この記事には広告を含む場合があります。

記事内で紹介する商品を購入することで、当サイトに売り上げの一部が還元されることがあります。

こんにちは！たぬきうどんです！

私は2018年に非IT業界から未経験でエンジニアに転職し、現在までエンジニアとして働いています。

この記事では、Google Cloud Platformが提供する画像認識サービスであるCloud Vision APIを使用して、画像から文字の抽出を試した結果について述べています。

Cloud Vision APIを触ってみたい！と思っている方はぜひ御覧ください！

Cloud Vision APIとは？
使ってみる
1. 光学式文字認識（OCR）を使ってみる
おわりに

Cloud Vision APIとは？

Cloud Vision APIはGoogle Cloud Platformが提供する機械学習サービスで、Cloud Vision APIはこのプロダクトの１つです。

Cloud Vision APIは以下の機能を提供しています。

光学式文字認識（OCR）を使用した高密度・手書きを含めたテキスト検出
自然のランドマークや人工建造物を画像から検出するランドマーク検出
商品のロゴを検出するロゴ検出
画像の特性を検出する画像プロパティ機能
一般的な物体、場所、活動、動物の種類、商品などを識別するラベル検出
画像内の複数のオブジェクトを検出して抽出できるオブジェクトローカライズ
クロップヒントの検出
画像に対するウェブ参照を検出するウェブエンティティとページの検出
アダルトコンテンツや暴力的コンテンツなど、画像に含まれる不適切なコンテンツを検出するセーフサーチ
画像に含まれる複数の人物の顔を検出する顔検出

参考機能リスト | Cloud Vision API | Google CloudGoogle Cloud

使ってみる

今回は光学式文字認識（OCR）を試してみます。

Cloud Vision APIを利用するには、Google Cloud Platform（GCP）の設定が必要です。

設定の方法については、GCPのドキュメントを参照してください。

また、Cloud Vision APIへのリクエストなどは、Node + TypeScriptでプログラムを実行しています。

以下に示すのはそのプログラムです。

TypeScript

import vision from "@google-cloud/vision";

const main = async () => {
  const client = new vision.ImageAnnotatorClient();

  const [result] = await client.textDetection("./img/skill-sharing.png");
  const detections = result.fullTextAnnotation;

  if (detections !== null && detections !== undefined) {
    console.log(detections.text);
  }
};

main();

上記プログラムを使用する場合はライブラリのインストールを行ってください。