概要
Google が開発したマルチモーダル生成 AI モデル Google Gemini(以降、Gemini) をご存じでしょうか?
Gemini は Google が開発した人工知能モデルであり、テキスト・画像・音声・動画を入力として受け取り、テキストと画像を生成することができる生成 AI となります。
Gemini が発表される間瀬までは OpenAI 社の ChatGPT が一人勝ちしており、その中でも有料プランの GPT-4 が生成 AI として主力の生成 AI でしたが、Gemini は多くの指標で GPT-4 の性能をうわ待っているとされ、ChatGPT を超える生成 AI として大変注目を浴びています。
Gemini は 2023 年 12 月に発表された非常に新しいサービスでありまして、そこまでサービスが普及していなかったり、システム内にうまく組み込めていない企業や開発者も多いかと思います。
そんな中、Google が Gemini をうまく使いこなせるようにクックブックを提供していたため、今回はこちらについてご紹介したいと思います。
今回ご紹介する OSS は、Google が開発したマルチモーダル生成 AI モデル Google Gemini をうまく使いこなすためのクックブック「Gemini API Cookbook」になります。
こちらのクックブックでは、Gemini の使い方の例であったり API の説明、その他使い方の説明、公式ドキュメントが公開されています。
それでは早速詳細についてみていきましょう!
目次
特徴
Gemini は API を公開しており、REST API として動作しています。
REST API としてサポートしているのは現在主力のプログラミング言語をカバーしていました。
利用手順
利用方法としては以下のようにするよう、指示がありましたのでこちらに従いましょう!
- Google AI Studio にアクセスします
- ご自身の Google アカウントでログインします
- Gemini を使用するための API Key を作成します
- Python 言語であればこちらのクイックスタートを利用するか、もしくは REST API の場合はこちら のクイックスタートを利用するかで、始められます
使用感
今回はいくつかの言語での API リファレンスが公開されているので、そちらを確認したいと思います。
各言語で使い方の様子が紹介されていますが、さすが Google というだけあってとてもシンプルかつ丁寧に使い方が紹介されていました。
各言語いずれでも Gemini を簡単に使用することができるということなので、気になった方は以下のクックブックの公式ドキュメントを参照してみてください。
Python
Node.js
Dart (Flutter)
Android
Swift
Go
まとめ
今回は、Google が開発したマルチモーダル生成 AI モデル Google Gemini をうまく使いこなすためのクックブック「Gemini API Cookbook」についてご紹介いたしました。
Gemini は今後大流行する可能性があるとても有望な生成 AI かと思います。
今のうちに Gemini について触れてみながら勉強し、知見をひろげてみてはいかがでしょうか。