ソフトウェア開発者のための OSS、まとめてみました!

ソフトウェア開発を行なっている自分が、個人的に面白いと思ったプログラムの最新技術や、オープンソースソフトウェア(OSS)をまとめています!

MENU

音声での対話を行える ChatGPT Webアプリ!「SpeechGPT」

概要

みなさま ChatGPT を日々活用していますでしょうか?

ChatGPT は高度な AI 技術によって、人間のように自然な会話ができる AI チャットサービスです。

2022 年 11 月に公開されてから、革新的なサービスとして注目を集め、生成した文章の素晴らしさや人間にもある回答が大きな話題となっています。

aismiley.co.jp

そんな ChatGPT ですが、今やいろいろな Web アプリ化だったりデスクトップアプリ化、はたまた他の Web サービスと組み合わせた新しいサービスが開発され続け、これまでのチャットサービスを覆す勢いで広まっています。

今回も ChatGPT に関連するサービスについてご紹介しようと思っているのですが、これまでご紹介した Web アプリとは少し違い、テキストによるチャット以外にもできることがあります!

今回ご紹介する OSS は、ChatGPT とテキストベースでのやり取りだけでなく、音声でのやり取りも可能になった「SpeechGPT」になります。

ChatGPT の公式 Web アプリ版では基本的にテキストベースでしかやり取りできないですが、こちらの「SpeechGPT」では音声入力・音声出力ともに可能となっています!

これまでなかなか見なかった機能なので、音声入力をしたかった方にとっては朗報かもしれませんね。

それでは早速詳細について見ていきましょう!

目次

特徴

SpeechGPT」ですが、以下の特徴が挙げられています。

  • オープンソースで無料
    • 誰でも無料で使用可能、変更可能
  • プライバシー優先
    • すべてのデータはローカルに保存される
  • モバイルフレンドリー
    • モバイルデバイスでアクセスして使用できるように設計
  • 多言語対応
  • 100 以上の言語に対応
  • Speech Recognition
  • 音声合成
    • 組み込みの音声合成に加えて、Amazon Polly および Azure Speech Services を統合した音声出力

利用手順

SpeechGPT」を利用するには以下のデモページにアクセスするか、ローカル環境にリポジトリをクローンして動かす方法、または Vercel 上に展開、Docker を利用した方法などがあります。

起動方法

デモページから利用する方法

以下のリンクからデモページにアクセスすることができます。

speechgpt.app

ローカル環境で利用する方法

  1. リポジトリをクローンします

      git clone https://github.com/hahahumble/speechgpt.git
      cd speechgpt
    
  2. yarn を使用して必要な Node モジュール群をインストールします

      yarn
    
  3. ローカル環境でデバックしながら動作させるときは以下のコマンドを実行します

      yarn dev
    
  4. 製品版としてビルドする場合は以下のコマンドを実行します

      yarn build
    

Vercel 上で利用する方法

以下のリンクをたどることで Vercel 上に 「SpeechGPT」を展開することが可能です。

vercel.com

Docker で利用する方法

  1. Docker イメージを取得します

      docker pull hahahumble/speechgpt
    
  2. Docker コンテナを起動させます

      docker run -d -p 8080:8080 --name speechgpt hahahumble/speechgpt
    
  3. http://localhost:8080/ にアクセスすることで 「SpeechGPT」を利用可能となります

起動後のチュートリアル

  1. ChatGPT を利用するための OpenAI API キーを設定する

  2. Azure Speech Services のセットアップ(任意)

    • [設定] に移動し、[合成] セクションに移動する
    • 音声合成サービスを Azure TTS に変更する
    • Azure リージョンと Azure アクセス キーを設定する
  3. Amazon Polly のセットアップ(任意)

使用感

早速私もこちらの「SpeechGPT」を触ってみました!

これまでの ChatGPT の利用方法と同じようにチャット形式で AI に回答を求めることもできますし、音声入力からも AI に回答を求めることが実際にできました!

また、AI からの回答を音声から受け取るように設定しておくことで、実際に AI がしゃべって回答してくれました!

個人的にこれまで夢見ていた AI 執事のような感じでこれから使えそうだなと思い、非常にワクワクしました。

ただ少し気になった点として、以下の 3 点を挙げさせていただきました。

  • 音声合成の結果がまだまだロボットチック
    • 少し音声合成感が強い印象、テキスト側の回答には人間風味があるため少しチグハグ感が出た気がした
  • ソースコードを返却してくれるがハイライトしれくれないので少し見にくい
    • 背景が白、ソースコードも黒文字のシンプル描写だったので、なかなか見ずらい印象
  • ChatGPT にはあった、実際にチャットを打っているような描写がない
    • テキストベースの回答が一気に出てくる、ChatGPT のような一文字一文字テキストを打っている描写ではなかった

現時点では上記の点が気になったなという感じですが、絶賛開発中ということもあり、これからどんどん機能改良されると思います。

今後の「SpeechGPT」に期待ですね!

まとめ

今回は、ChatGPT とテキストベースでのやり取りだけでなく、音声でのやり取りも可能になった OSSSpeechGPT」についてご紹介しました。

これまで基本的にはテキストベースのチャット形式のサービスしかなかった ChatGPT ですが、今回なんと音声認識音声合成を兼ね備えた Web サービスが登場しました!

これまで音声で ChatGPT とやり取りしたかった方々にとっては朗報ではないかと思います!

個人的に利用してみたところ、まだまだ改善店や課題などは大いにあるかなと思ったのですが、機能自体は一通りそろっているため普段使いすることは十分かと思います。

実際に ChatGPT と音声による対話を楽しみたい方や音声認識機能を利用したサービスを利用してみたい方は、一度こちらの「SpeechGPT」を使用されてみることをお勧めします!

十分すぎる機能が搭載されていますので、驚くこと間違いなしです。

ライセンス

MIT License

リンク

speechgpt.app

github.com