音声での対話を行える ChatGPT Webアプリ!「SpeechGPT」
概要
みなさま ChatGPT を日々活用していますでしょうか?
ChatGPT は高度な AI 技術によって、人間のように自然な会話ができる AI チャットサービスです。
2022 年 11 月に公開されてから、革新的なサービスとして注目を集め、生成した文章の素晴らしさや人間にもある回答が大きな話題となっています。
そんな ChatGPT ですが、今やいろいろな Web アプリ化だったりデスクトップアプリ化、はたまた他の Web サービスと組み合わせた新しいサービスが開発され続け、これまでのチャットサービスを覆す勢いで広まっています。
今回も ChatGPT に関連するサービスについてご紹介しようと思っているのですが、これまでご紹介した Web アプリとは少し違い、テキストによるチャット以外にもできることがあります!
今回ご紹介する OSS は、ChatGPT とテキストベースでのやり取りだけでなく、音声でのやり取りも可能になった「SpeechGPT」になります。
ChatGPT の公式 Web アプリ版では基本的にテキストベースでしかやり取りできないですが、こちらの「SpeechGPT」では音声入力・音声出力ともに可能となっています!
これまでなかなか見なかった機能なので、音声入力をしたかった方にとっては朗報かもしれませんね。
それでは早速詳細について見ていきましょう!
目次
特徴
「SpeechGPT」ですが、以下の特徴が挙げられています。
- オープンソースで無料
- 誰でも無料で使用可能、変更可能
- プライバシー優先
- すべてのデータはローカルに保存される
- モバイルフレンドリー
- モバイルデバイスでアクセスして使用できるように設計
- 多言語対応
- 100 以上の言語に対応
- Speech Recognition
- 音声合成
利用手順
「SpeechGPT」を利用するには以下のデモページにアクセスするか、ローカル環境にリポジトリをクローンして動かす方法、または Vercel 上に展開、Docker を利用した方法などがあります。
起動方法
デモページから利用する方法
以下のリンクからデモページにアクセスすることができます。
ローカル環境で利用する方法
本リポジトリをクローンします
git clone https://github.com/hahahumble/speechgpt.git cd speechgpt
yarn
を使用して必要な Node モジュール群をインストールしますyarn
ローカル環境でデバックしながら動作させるときは以下のコマンドを実行します
yarn dev
製品版としてビルドする場合は以下のコマンドを実行します
yarn build
Vercel 上で利用する方法
以下のリンクをたどることで Vercel 上に 「SpeechGPT」を展開することが可能です。
Docker で利用する方法
Docker イメージを取得します
docker pull hahahumble/speechgpt
Docker コンテナを起動させます
docker run -d -p 8080:8080 --name speechgpt hahahumble/speechgpt
http://localhost:8080/
にアクセスすることで 「SpeechGPT」を利用可能となります
起動後のチュートリアル
ChatGPT を利用するための OpenAI API キーを設定する
- [設定] に移動し、[チャット] セクションに移動する
- OpenAI API キーを設定する
- OpenAI API キーを持っていない場合は、OpenAI API キーを取得する方法に関するこのチュートリアルがあるのでこちらを参照
Azure Speech Services のセットアップ(任意)
- [設定] に移動し、[合成] セクションに移動する
- 音声合成サービスを Azure TTS に変更する
- Azure リージョンと Azure アクセス キーを設定する
Amazon Polly のセットアップ(任意)
使用感
早速私もこちらの「SpeechGPT」を触ってみました!
これまでの ChatGPT の利用方法と同じようにチャット形式で AI に回答を求めることもできますし、音声入力からも AI に回答を求めることが実際にできました!
また、AI からの回答を音声から受け取るように設定しておくことで、実際に AI がしゃべって回答してくれました!
個人的にこれまで夢見ていた AI 執事のような感じでこれから使えそうだなと思い、非常にワクワクしました。
ただ少し気になった点として、以下の 3 点を挙げさせていただきました。
- 音声合成の結果がまだまだロボットチック
- 少し音声合成感が強い印象、テキスト側の回答には人間風味があるため少しチグハグ感が出た気がした
- ソースコードを返却してくれるがハイライトしれくれないので少し見にくい
- 背景が白、ソースコードも黒文字のシンプル描写だったので、なかなか見ずらい印象
- ChatGPT にはあった、実際にチャットを打っているような描写がない
- テキストベースの回答が一気に出てくる、ChatGPT のような一文字一文字テキストを打っている描写ではなかった
現時点では上記の点が気になったなという感じですが、絶賛開発中ということもあり、これからどんどん機能改良されると思います。
今後の「SpeechGPT」に期待ですね!
まとめ
今回は、ChatGPT とテキストベースでのやり取りだけでなく、音声でのやり取りも可能になった OSS「SpeechGPT」についてご紹介しました。
これまで基本的にはテキストベースのチャット形式のサービスしかなかった ChatGPT ですが、今回なんと音声認識・音声合成を兼ね備えた Web サービスが登場しました!
これまで音声で ChatGPT とやり取りしたかった方々にとっては朗報ではないかと思います!
個人的に利用してみたところ、まだまだ改善店や課題などは大いにあるかなと思ったのですが、機能自体は一通りそろっているため普段使いすることは十分かと思います。
実際に ChatGPT と音声による対話を楽しみたい方や音声認識機能を利用したサービスを利用してみたい方は、一度こちらの「SpeechGPT」を使用されてみることをお勧めします!
十分すぎる機能が搭載されていますので、驚くこと間違いなしです。