
重要なポイント
AI では高品質のトレーニング データが不足しており、差し迫ったデータ ボトルネックが生じています。
集中型スクレイピングは、訴訟、コストの上昇、スケーラビリティの制限に直面します。
Crypto と Web3 は、インセンティブ付きで透明性があり、ユーザーが所有するデータ パイプラインという新しいモデルを提供します。
世界はデータのボトルネックに陥りつつあります。AIモデルはますます大規模化、高速化、そして強力になっていますが、その機能に欠かせないリソースが一つあります。それは、高品質でラベル付けされたデータです。そして、そのデータが枯渇しつつあります。
グランドビューリサーチによると2024年の世界のデータ収集およびラベリング市場規模は37億7,000万ドルで、2030年までに171億ドルに急上昇し、年平均成長率28.4%で成長すると予想されています。
グローバル・グロース・インサイトからの別のレポート2024年の数字はさらに高くなり45億2000万ドルとなり、2033年までに330億ドルに達すると予測している。
一方、より広範なビッグデータ分析市場は、2025 年の 820 億ドルから 2032 年までに 4,020 億ドルに成長すると予測されています。
これは、増大する問題を解決するために競争している業界全体です。現代の AI システムは、現在の Web が現実的に提供できるよりも多くのトレーニング データを必要とします。
スクレーピングの裁判
さらに悪いことに、中央集権型AI企業に対する訴訟が山積している。
今年初め、RedditはAnthropicを訴えた。同社はRedditから10万回以上スクレイピングし、許可なくユーザーのコンテンツから「数百億ドル」の利益を得たと主張した。
そして、これは氷山の一角に過ぎません。ニューヨーク・タイムズからアーティスト、出版社、プラットフォームに至るまで、無断スクレイピングに対する法的反発は日増しに強まり、激しさを増しています。
供給問題
これは単なる法的問題ではなく、供給の問題です。高品質なデータセットの多くは、有料コンテンツとして企業に保管されているか、ラベル付けや拡張が難しい断片化された形式で存在しています。
公開ウェブスクレイピングは短期的なハックであり、長期的には通用しません。人間によるデータラベリングは依然として有効ですが、コストが高く、時間がかかり、次世代AIシステムに必要なレベルまで拡張するのは困難です。
では、どうすればこの問題を解決できるでしょうか?その答えは、意外なところから得られるかもしれません。それは暗号通貨です。
Web3が答えを持っている
Web3 はすでに、デジタル インフラストラクチャが根本的に異なる方法で構築できることを示しています。
暗号通貨をデータ収集に適用すると、モデルは大きく変わります。企業が秘密裏にインターネットからデータをスクレイピングするのではなく、ユーザーが自発的に直接データを提供し、その対価を得るのです。
このモデルは既に動き始めています。例えば、分散型AI向けのデータクラウドであるOORTでは、ユーザーはOORT DataHubと呼ばれるdAppを通じてデータを提供できます。
モデルはシンプルです。オプトインしてデータを提供し、報酬を獲得するだけです。スクレイピングや推測は一切不要で、ユーザーはAIサプライチェーンの積極的な参加者になるだけです。
これは双方にとってメリットがあります。AI開発者はより優れたデータを手に入れ、ユーザーは報酬を得ることができます。
暗号通貨は構造をもたらす
暗号通貨は混沌としたシステムに構造をもたらします。トークンインセンティブを活用すれば、貢献者やキュレーターに公平な報酬を与えることができます。また、オンチェーンの来歴情報によって、すべてのデータポイントの出所を検証できます。
また、プライバシー ツールを使用すると、ユーザーは自分のデータがどのように、いつ使用されるかを制御できます。これは、中央集権型 AI 企業の「最初に収集し、後で解決する」という手法とはまったく異なります。
ブロックチェーンに裏付けられた出所は、特にデータの透明性とモデルの整合性に関する懸念が高まる中で、AI のトレーニング方法に対する信頼を回復するのにも役立ちます。
この変化が重要なのは、AI のボトルネックがもはやコンピューティングだけではなく、トレーニング データにあるためです。
次の波のモデルでは、Reddit や Wikipedia から収集したテキストをさらに追加するだけでは十分ではありません。
医療記録、法的決定、運転記録、ジムでのトレーニング、スピーチのサンプルなど、ニッチで構造化された現実世界のデータセットが必要になります。
これらのほとんどは削り取ることはできず、自発的に提供する必要があります。
暗号通貨の優位性
暗号ネイティブなインフラはそれを可能にします。しかも高速です。開発者にとって、これはAI×暗号製品の新たな波が到来することを意味します。
投資家にとって、これは真の価値がモデルの規模だけで決まるのではなく、最もクリーンでスケーラブルなデータ パイプラインを制御できる者が価値を生み出すというシグナルです。
ユーザーにとっては、商品であることをやめ、報酬を受け取るチャンスです。
データルネッサンス
分散型 AI の成長は、現代のデータルネッサンス、つまり権力、アクセス、所有権の変化のように感じられます。
印刷機が情報の管理主体を変えたように、Web3 は知性の原材料そのもの、つまりデータの管理主体を変える可能性があります。
分散型でインセンティブのあるデータ市場を構築するプラットフォームに注目しましょう。ユーザーが報酬と引き換えにモデルをトレーニングできるツール、ニッチなユースケース向けの新しいデータセットに資金を提供するDAO、そして日常的なアプリにデータ貢献を統合する大規模プラットフォームなどです。