概要
今回は、テキストドキュメント、画像、および埋め込みの大量の非構造化データセットを視覚化およびプログラム的に操作するためのプラットフォーム「Atlas」という OSS についてご紹介します。
こちらの「Atlas」を利用すると、標準の noSQL ドキュメントエンジンのようにデータを保存および操作することが可能です。
また「Atlas」は Python による API 呼び出しを介することでプロジェクトデータを追加したり更新、読み込み、削除することができます。
上記のように検索したい情報をマップのように視覚化してブラウザ上に表示させることができるようです!
それでは詳細について見ていきましょう!
目次
特徴
特徴としては以下のような記載がありました。
- 構造化されていないテキスト、画像、埋め込みの数百万点のデータセットを保存、更新、整理
- Web ブラウザーからデータセットを視覚的に操作
- データセットに対してセマンティック検索とベクトル操作を実行
- テキストと埋め込みの大規模なデータセットを視覚化、対話、コラボレーション、共有
- データセットを共同でクリーニング、タグ付け、ラベル付け
- セマンティック検索を利用した高可用性アプリを構築
- AI モデル トレインの潜在空間を理解し、デバッグ
- ・・・
まだまだ特徴としては語りつくせないほどあるようなので、詳細はドキュメントを参照いただければと思います!
利用手順
利用方法については以下のようになります。
Nomic クライアントをインストール
pip install nomic
Nomic アカウントにログイン・新規作成
nomic login
指示に従ってトークンを取得。取得後、再度コンソール上でトークンを使用して Nomic にログイン
nomic login [token]
ログイン後は Atlas が使用できるようになるので、以下のようなスクリプトを作成して実際に動作確認を実施
from nomic import atlas import numpy as np num_embeddings = 10000 embeddings = np.random.rand(num_embeddings, 256) response = atlas.map_embeddings(embeddings=embeddings) print(response)
使用感
早速自分のほうでもこちらの「Atlas」についていくつか試してみました!
いろいろな情報についていくつか動かしてみましたが、整理されたデータが視覚化されるのはとても気持ち良いですね!
以下は Stable Diffusion についてのマップですが、大量の情報がラベル付けされて整理されている様子がうかがえます。
大量すぎてとても細かいですが、ここまでラベル付けすることができるんですね!
まとめ
今回は、テキストドキュメント、画像、および埋め込みの大量の非構造化データセットを視覚化およびプログラム的に操作するためのプラットフォーム「Atlas」という OSS をご紹介しました。
データサイエンティストなどの方々にと手はデータの収集などが大変かと思いますので、ぜひ一度こちらの「Atlas」を使用してデータ収集・ラベリングなど活用してみてはいかがでしょうか。
ライセンス
特に見当たりませんでした。