LLM 用にエンタープライズ データを準備するツールを提供する Unstructed が 2,500 万ドルを調達
OpenAI の GPT-4 などの大規模言語モデル (LLM) は、ますます多くの AI アプリケーションの構成要素となっています。 しかし、一部の企業は、自社データや独自データにアクセスできないため、それらの導入に消極的です。
この種のデータはファイアウォールの内側に存在する傾向があり、LLM によって盗聴できない形式で提供されることを考えると、必ずしも解決するのは簡単な問題ではありません。 しかし、比較的新しい新興企業 Unstructed.io は、LLM が理解して活用できる方法でエンタープライズ データを抽出してステージングするプラットフォームを使用して障害を取り除こうとしています。
ブライアン レイモンド、マット ロビンソン、クラッグ ウルフの 3 人は、企業顧客向けの自然言語処理 (NLP) ソリューションの構築と展開に重点を置いた Primer AI での共同勤務を経て、2022 年に Unstructord を共同設立しました。
「Primer では、NLP データ (PDF、電子メール、PPTX、XML など) を含む生の顧客ファイルを取り込んで前処理し、それをクリーンで厳選されたファイルに変換して、すぐに使用できるようにする際にボトルネックに何度も遭遇しました。機械学習モデルまたはパイプラインです」と Unstructurald の CEO を務める Raymond 氏は電子メールのインタビューで TechCrunch に語った。 「データ統合会社やインテリジェント文書処理会社はどれもこの問題の解決に貢献できなかったので、私たちは会社を設立してこの問題に正面から取り組むことにしました。」
実際、データの処理と準備は、AI 開発ワークフローの中で時間のかかるステップになる傾向があります。 ある調査によると、データ サイエンティストは分析のためのデータの準備と管理に時間の 80% 近くを費やしています。 その結果、別の世論調査によれば、企業が生成するデータのほとんど(約 3 分の 2)が未使用のままになっています。
「組織は毎日膨大な量の非構造化データを生成しており、LLM と組み合わせることで生産性を大幅に向上させることができます。 問題は、このデータが分散していることです」とレイモンド氏は続けました。 「NLP コミュニティにおける汚い秘密は、データ サイエンティストが今日でも手作業で 1 回限りのデータ コネクタと前処理パイプラインを完全に手動で構築しなければならないことです。 非構造化は、LLM 向けの自然言語データの接続、変換、ステージングのための包括的なソリューションを提供します。」
Un Structured は、Web ページから広告やその他の不要なオブジェクトを削除したり、テキストを連結したり、スキャンしたページで光学式文字認識を実行したりするツールなど、LLM 取り込み用にエンタープライズ データをクリーンアップおよび変換するのに役立つツールを多数提供します。 同社は特定の種類の PDF 用の処理パイプラインを開発しています。 SEC 提出用を含む HTML および Word ドキュメント。 そして何よりも、アメリカ陸軍士官の評価レポート。
ドキュメントを処理するために、Un Structured は独自の「ファイル変換」NLP モデルをゼロからトレーニングし、他のモデルのコレクションを組み立てて、生のファイルからテキストと約 20 個の個別の要素 (タイトル、ヘッダー、フッターなど) を抽出しました。 さまざまなコネクタ (合計約 15 個) が、顧客関係管理ソフトウェアなどの既存のデータ ソースからドキュメントを取り込みます。
「舞台裏では、複雑さを抽象化するためにさまざまなテクノロジーを使用しています」とレイモンド氏は言います。 「たとえば、古い PDF や画像については、コンピューター ビジョン モデルを使用しています。 また、他のファイル タイプについては、NLP モデル、Python スクリプト、正規表現を賢く組み合わせて使用しています。」
ダウンストリームでは、Unstructed は、LLM アプリを作成するためのフレームワークである LangChain などのプロバイダーや、Weaviate や MongoDB の Atlas Vector Search などのベクトル データベースと統合します。
以前は、Unstructurald の唯一の製品は、これらのデータ処理ツールのオープンソース スイートでした。 レイモンド氏によると、これは約70万回ダウンロードされ、100社以上で使用されているという。 しかし、開発コストを賄うため、そして投資家を安心させるために、同社は PowerPoint や JPG を含む 25 の異なるファイル形式にデータを変換する商用 API を立ち上げようとしている。
「私たちは政府機関と協力しており、非常に短期間で数百万の収益を上げています。 。 。 。 当社はAIに焦点を当てているため、広範な景気減速の影響を受けない市場セクターに焦点を当てています」とレイモンド氏は述べた。