概要

みなさま ChatGPT を日々活用していますでしょうか？

ChatGPT は高度な AI 技術によって、人間のように自然な会話ができる AI チャットサービスです。

2022 年 11 月に公開されてから、革新的なサービスとして注目を集め、生成した文章の素晴らしさや人間にもある回答が大きな話題となっています。

そんな ChatGPT ですが、今やいろいろな Web アプリ化だったりデスクトップアプリ化、はたまた他の Web サービスと組み合わせた新しいサービスが開発され続け、これまでのチャットサービスを覆す勢いで広まっています。

今回も ChatGPT に関連するサービスについてご紹介しようと思っているのですが、これまでご紹介した Web アプリとは少し違い、テキストによるチャット以外にもできることがあります！

今回ご紹介する OSS は、ChatGPT とテキストベースでのやり取りだけでなく、音声でのやり取りも可能になった「SpeechGPT」になります。

ChatGPT の公式 Web アプリ版では基本的にテキストベースでしかやり取りできないですが、こちらの「SpeechGPT」では音声入力・音声出力ともに可能となっています！

これまでなかなか見なかった機能なので、音声入力をしたかった方にとっては朗報かもしれませんね。

それでは早速詳細について見ていきましょう！

特徴

「SpeechGPT」ですが、以下の特徴が挙げられています。

「SpeechGPT」を利用するには以下のデモページにアクセスするか、ローカル環境にリポジトリをクローンして動かす方法、または Vercel 上に展開、Docker を利用した方法などがあります。

以下のリンクからデモページにアクセスすることができます。

本リポジトリをクローンします

  git clone https://github.com/hahahumble/speechgpt.git
  cd speechgpt

以下のリンクをたどることで Vercel 上に「SpeechGPT」を展開することが可能です。

Docker コンテナを起動させます

  docker run -d -p 8080:8080 --name speechgpt hahahumble/speechgpt

ChatGPT を利用するための OpenAI API キーを設定する
- [設定] に移動し、[チャット] セクションに移動する
- OpenAI API キーを設定する
- OpenAI API キーを持っていない場合は、OpenAI API キーを取得する方法に関するこのチュートリアルがあるのでこちらを参照
Azure Speech Services のセットアップ（任意）
- [設定] に移動し、[合成] セクションに移動する
- 音声合成サービスを Azure TTS に変更する
- Azure リージョンと Azure アクセスキーを設定する
Amazon Polly のセットアップ（任意）
- [設定] に移動し、[合成] セクションに移動する
- 音声合成サービスを Amazon Polly に変更する
- AWS リージョン、AWS アクセスキー ID、およびシークレットアクセスキーを設定する (アクセスキーには AmazonPollyFullAccess ポリシーが必要）
- AWS アクセスキーがない場合は、AWS で IAM ユーザーを作成する方法に関するこのチュートリアルを参照

早速私もこちらの「SpeechGPT」を触ってみました！

これまでの ChatGPT の利用方法と同じようにチャット形式で AI に回答を求めることもできますし、音声入力からも AI に回答を求めることが実際にできました！

また、AI からの回答を音声から受け取るように設定しておくことで、実際に AI がしゃべって回答してくれました！

個人的にこれまで夢見ていた AI 執事のような感じでこれから使えそうだなと思い、非常にワクワクしました。

ただ少し気になった点として、以下の 3 点を挙げさせていただきました。

音声合成の結果がまだまだロボットチック
- 少し音声合成感が強い印象、テキスト側の回答には人間風味があるため少しチグハグ感が出た気がした
ソースコードを返却してくれるがハイライトしれくれないので少し見にくい
- 背景が白、ソースコードも黒文字のシンプル描写だったので、なかなか見ずらい印象
ChatGPT にはあった、実際にチャットを打っているような描写がない
- テキストベースの回答が一気に出てくる、ChatGPT のような一文字一文字テキストを打っている描写ではなかった