Llama 3.3 70B : Llama 3.1 405Bに匹敵するパフォーマンス
Metaが最近発表したモデルLlama 3.3 70Bは、オープンソースモデル市場に戦略的に位置しています。Metaは、このモデルが4050億のパラメータを持つLlama 3.1のパフォーマンスに匹敵する一方で、かなり低いコストを示していると主張しています。これは、予算を管理しながらAIを統合しようとする企業にとって大きな利点です。
迅速なシリーズの立ち上げ
Metaは、Llama 3.1を7月に導入し、次いでLlama 3.2を9月末に、そして最後にLlama 3.3を先週発表したことで、その出版ペースを緩めていません。Metaは、Llama 3.3 70Bモデルがテキストアプリケーションのために高品質で優れたパフォーマンスにアクセスできることを述べていますが、コストは依然として低いままです。
準備とトレーニングデータ
この最終版のために、Metaは約15000兆のトークンを公共から入手できるソースで事前トレーニングを行いました。微調整は公共の指示データセットと2500万以上の合成された例を取り入れました。研究者たちは、事前トレーニングに使用されたデータは2023年12月まで拡張されていると述べています。
アーキテクチャと開発
Llama 3.3 70BはTransformerタイプのアーキテクチャに基づいており、自己回帰モデルを使用しています。開発には、監視された微調整と人間のフィードバックによる強化学習(RLHF)が含まれていました。このモデルは128,000トークンのコンテキストウィンドウを提供し、多様なテキスト指示への利用を最適化しています。
パフォーマンスの比較
ベンチマークの結果は、Llama 3.3 70Bが最近発表されたAmazonのモデルNova Pro及びLlama 3.1 70Bと同等のパフォーマンスを提供することを示しています。さまざまなテストを通じて、Llama 3.3 70BはGemini Pro 1.5やGPT-4oなどの競合を上回る可能性があります。Llama 3.3 70Bは、コストが1/10で、Llama 3.1 405Bに匹敵するパフォーマンスを提供する点で際立っています。
多言語対応と商業アプリケーション
このモデルは、ドイツ語、スペイン語、フランス語、ヒンディー語、イタリア語、ポルトガル語、タイ語、英語の8言語をサポートしています。Llama 3.3は商業および研究目的に設計されており、チャットボットタイプのアシスタントとして機能したり、テキスト生成のタスクに使用することができます。Metaは、開発者がモデルの広範な言語能力を活かすことを奨励すると同時に、サポートされていない言語に対して微調整の重要性を強調しています。
インフラとリソース
トレーニングのためには、大規模なリソースが動員されました:3930万時間のGPU計算がH100-80GBハードウェア上で行われました。事前トレーニング、微調整、アノテーション、評価のインフラがMetaの生産エコシステムに統合されており、パフォーマンスの品質を最適化しています。
可能性と推奨事項
Metaは、Llama 3.3がコスト効果の高いパフォーマンスを提供し、一般的なワークステーションでのインフェレンスが可能であると強調しています。モデルは他の言語でテキストを生成することができますが、Metaは事前の調整なしに非公式な言語で会話することを推奨していません。
Llama 3.3 70Bに関するよくある質問
Llama 3.3 70BとLlama 3.1 405Bの主な違いは何ですか?
主な違いは、Llama 3.3 70BがLlama 3.1 405Bに類似したパフォーマンスを提供する一方で、より少ない財政的および計算資源を必要とする点です。
Llama 3.3 70Bは他のモデルに対してどのような財政的利点を提供しますか?
Llama 3.3 70Bモデルは、企業が大幅に低コストで先進的なAI技術にアクセスできるようにし、AIをより手に入れやすくします。
Llama 3.3 70Bはどのようにして少ないパラメータでそのようなパフォーマンスを達成しますか?
このパフォーマンスは、アルゴリズムの最適化とより大規模なデータのトレーニング、および高度なモデルアーキテクチャによって達成されます。
Llama 3.3 70Bはどの言語をサポートしていますか?
Llama 3.3 70Bは、ドイツ語、スペイン語、フランス語、ヒンディー語、イタリア語、ポルトガル語、タイ語、英語の8言語をサポートしています。
Llama 3.3 70Bはどのように事前トレーニングされていますか?
このモデルは、公共に利用可能なソースから約15,000兆のトークンと指示データセットで事前トレーニングされています。
Llama 3.3 70Bはどのようなアプリケーションに役立ちますか?
Llama 3.3 70Bは、多言語対話アプリケーション、チャットボット、商業および研究コンテキストにおけるさまざまなテキスト生成タスクに最適です。
Llama 3.3 70Bのコンテキストウィンドウのキャパシティはどのくらいですか?
このモデルは128,000トークンのコンテキストウィンドウを有しており、より長く複雑なテキストコンテキストを処理できます。
Llama 3.3 70Bはサポートされていない言語に対して推奨されますか?
他の言語でテキストを生成できるものの、Metaはこれらのサポートされていない言語に対して微調整と安全確認なしに利用することを推奨していません。
Llama 3.3 70Bのトレーニングに使用された技術インフラは何ですか?
事前トレーニングは、MetaのカスタムGPUクラスタで行われ、39.3百万時間のGPUがH100-80GBハードウェアを使用して行われました。
Llama 3.3 70Bは依然としてオープンソースモデルですか?
はい、Llama 3.3 70Bはオープンソースモデルであり、商業および研究のさまざまなアプリケーションを可能にするコミュニティライセンスを提供しています。