どのプラットフォームが最高のAIエージェントを構築していますか? ChatGPT、Claude、Geminiなどをテストします

初級編1/9/2025, 7:43:03 AM
この記事では、5つの主要なAIプラットフォーム(ChatGPT、Google Gemini、HuggingChat、Claude、Mistral AI)を比較・テストし、AIエージェントの作成における使用の容易さと結果の品質を評価しています。

5つの主要プラットフォームを実際に比較することにより、将来の日常シナリオのAIエージェントをホストするのに最適なものがわかります。

DecryptがAIを使用して作成したイメージ

AIエージェントを使用すれば、ドキュメントのライブラリで情報を検索したり、コードを作成したり、Webをスクレイピングしたり、複雑なデータの洞察や鋭い分析を得たり、さらにはさまざまなタスクに特化したエージェントを持つ仮想オフィスを作成し、それらを自分の専門のデジタル従業員のように手を組ませて協力させることができます。

だから、これを行うのはどれくらい難しいですか?たとえば、普通の人が自分自身のAI金融アドバイザーを構築したい場合、どのプラットフォームが最適ですか?APIなし、奇妙なコーディングなし、Githubなし―ユーザーが高度な技術スキルを持っていなくても、最高のAI企業がAIエージェントをどれだけうまく作成しているかを見たかっただけです。

もちろん、あなたが支払うものはそれだけの価値があります。この場合、我々は、素人がエージェントを設定するのがどれだけ簡単かと、それぞれが提供する結果の質との間に相関があるかを見たかったのです。

私たちの実験では、ChatGPT、Claude、Huggingface、Mistral AI、およびGeminiの5つの大物を互いに対抗させました。各プラットフォームには、同じ基本的な指示が与えられ、財務アドバイザーを作成するようになっています。

このテストでは、エージェントがアウトオブザボックスの機能に焦点を当てました。つまり、共通のシナリオを処理することができるかどうか、この場合は、$25,000の投資を$30,000の債務に対してバランスを取るのを助けることができるかどうかを確認しました。また、トレーディングチャートの分析能力も確認しました。エージェントの生産性を高める追加ツールは使用せず、最もシンプルなアプローチを取りました。

要点:私たちが発見したこととモデルの順位付け方法

プラットフォームのランキング

1) OpenAIのGPT(8.5/10)

  • セットアップの簡単さ: 4/5
  • Results Quality: 4.5/5

ChatGPTは最もバランスの取れたプラットフォームであり、ガイド付きと手動の両方のオプションを備えた高度なエージェントの作成を提供し、完全な初心者とやや経験のあるユーザーのニーズを満たすために設計されています。

最近のインターフェースの更新では、一部の機能がメニューに埋もれてしまっていますが、このプラットフォームは複雑なユーザー要件を機能的なエージェントに変換することに優れています。私たちは、優れた文脈意識と構造化された問題解決能力を示す金融アドバイザーを構築することで、このモデルをテストしました。それにより、債務管理や投資配分に関する詳細で一貫した戦略を提供することができました。

2) Google Gemini(7/10)

  • セットアップの簡単さ:4/5
  • 結果の品質:3/5

Geminiは洗練された直感的なインターフェースと優れたエラーハンドリングで際立っています。最適な結果を得るためにより詳細なプロンプトが必要ですが、指示の文字通りの解釈により、一貫性のある予測可能な結果が得られます。

ゲートのコンサルティングアプローチは、推奨前に文脈収集を重視した金融アドバイスを強調しており、プロの実践を反映しています。しかし、ゼロショットの応答では過度に保守的な場合があります。

3)ハギングチャット(6.5 / 10)

  • セットアップの簡単さ: 2/5
  • 結果の品質:4.5/5

オープンソースプラットフォームは、比類のないカスタマイズとモデル選択オプションを提供しています。これは、細かい制御を求める人にとって素晴らしいものですが、シンプルさを求める人にはあまり向いていません。 (LinuxシステムとmacOSシステムを比較するようなものです)。洗練されたタイムホライズンフレームワークと実用的なツール統合により、高度な機能が示されています。

追加機能を持たない純粋なエージェントを構築しました。ベースLLMとしてNvidiaのNemomotronを使用し、出力品質でChatGPTに匹敵する十分な性能を発揮しました。オープンソースキャンプにとって悪くない結果です。

4) Claude (5.5/10)

  • セットアップの簡単さ:2.5 / 5
  • Results Quality: 3/5

Anthropicのプラットフォームは特定のニッチで優れており、特に包括的なコンテキスト処理とコード解釈を必要とするタスクに優れています。そのミニマリストなインターフェースは洗練された機能を隠していますが、「オプションの」指示フィールドはユーザーを混乱させる可能性があります。

弊社のエージェントは非常に保守的で曖昧なアドバイスをしたが、堅固なリスク意識と戦略的思考を示しました。潜在力を最大限に引き出すためには、もっと注意深い促しを必要としますが、類似の条件を仮定する前提を無効にするような促しをテストに適応することは不公平であると言えるでしょう。

5) Mistral AI (5/10)

  • セットアップの簡単さ: 2.5/5
  • 結果の品質:2.5 / 5

フランスのプラットフォームは、ユニークな例ベースの学習と深いカスタマイズオプションを提供しています。ただし、開発者中心のインターフェースと時折の言語切り替えの問題により、非技術的なユーザーにとっては障壁となっています。また、異なるモデルに対して画像の分析やコードの処理などの異なるタスクを行うために、エージェントの設定を変更する必要もあります。これは理想的ではありません。

財務アドバイザーはインタラクションデザインで将来性を示しましたが、基本的な数学的検証に苦労し、最悪のアウトプットを提供しました。これはアウトプットが悪かったということではありませんが、ゼロショットテストでは最も満足できるものではありませんでした。

深堀り

前回のランキングを考慮すると、完璧な解決策はなく、すべてのプラットフォームにはそれぞれ長所と短所があります。献身的な取り組みと慎重なプロンプトのカスタマイズにより、1つのプラットフォームからの結果は異なり、時には群を抜いています。最終的に、すべてのLLMにはそれぞれ独自のプロンプトスタイルがあります。

ランキングの背後にある根拠をもっと知りたい場合は、私たちのエージェントとの経験や結果について、もっと詳しく見てみましょう。すべてのエージェントは同じシステムプロンプト、追加のパラメータや機能はなく、同じ基本的な質問「25,000ドルを投資する予定で、30,000ドルの借金があります。ファイナンシャルプランを作成してください」と尋ねました。

OpenAI

ChatGPTのインターフェースは最近リニューアルされ、実際にはより複雑になりました。GPTの作成オプションは今ではメニューの奥に隠れていますが、見つけると、2つのパスが提供されます。AIがエージェントの構築を手伝う対話型のセットアップと、正確に欲しいものを知っている人のための手動構成です。

OpenAIのGPTプラットフォームは、能力のスイスアーミーナイフです。コードを読み、ウェブを検索し、画像の生成と解析を行います。AIによる設定プロセスは、特に新参者に適していますが、細かい制御を求めるパワーユーザーにとっては制限が感じられるかもしれません。(たとえば、モデルにより具体的または詳細にするよう促すと、全体のシステムプロンプトが変わり、結果が悪くなることがあります。)

実際にエージェントを使用する場合、ChatGPTは非常にわかりやすく、インターフェースもシンプルで理解しやすいです。

エージェントはネイティブで文書を読んで画像を理解することができ、これにより他のプラットフォームに対して優位性を提供します。

基本のプロンプトで作成できるエージェントの品質について話しましょう。当社のファイナンシャルアドバイザーの名前はMoneyGPTは非常に印象的であり、構造化された問題解決のマスタークラスを提供してくれました。

それは厳密な割り当てを超えて、「高金利の借金に$20,000」や詳細なポートフォリオの分割を示すだけでなく、エージェントは洗練された財務的推論を示しました。それは単なるリストではなく、即座の必要性と長期的な考慮を考慮に入れた一貫した戦略である5段階のロードマップを提供しました。

エージェントの強みは、詳細と文脈のバランスを取る能力にありました。具体的な投資(S&P 500の40%、債券の30%)を推奨する一方で、「高利回りの債務の返済は、投資への確定利益のようなものです」とその対応の理論を説明しました。この文脈の認識は、長期計画にも及び、定期的なレビューサイクルと変化する状況に基づく適応戦略を提案しました。

しかし、この情報の豊富さは、一度にあまりにも多くの詳細をユーザーに提供するという潜在的な弱点を明らかにしました。技術的には包括的ですが、特定の配分、投資戦略、モニタリング計画の迅速な提供は、金融初心者にとって困難であるかもしれません。

完全な計画を読むことができますここ、そして、それをクリックして使用できますこのリンク. 私たちはそれを真剣にお勧めします。

Google

全体的に、GoogleのGeminiエージェント作成プラットフォームが美のコンテストで勝利し、エージェントの作成がほとんど簡単すぎると感じる直感的なインターフェースを持っています。システムは指示を文字通りに受け取り、混乱を避けるのに役立ち、クリーンなUIはAI開発の脅威要素を取り除きます。

ただし、それをうまく活用するには、もう少し詳しいプロンプトが必要です。何事も当たり前とは考えず、短いプロンプトでは低品質な応答しか得られません。

エンジンの下には、Googleのパワフルなウェブ検索統合、コード解析、およびChatGPTの提供と競争する画像処理機能がありますが、主にMicrosoftの技術に依存しています。

GeminiのUIは、実際にユーザーエクスペリエンスを理解している人々によって設計されたように感じられます。インターフェースは明確なラベルでユーザーをガイドし、すべてが1つの画面に表示されます。

この洗練されたアプローチは、特に初心者にとって魅力的ですが、経験豊富なユーザーはより詳細な制御を求めるかもしれません。

私たちはエージェントを呼びましたMoneyGemそして、財務計画を求めました。その対話的なアプローチは、Googleの独自の問題解決方法論を示していました。単純な答えを出す代わりに、「どのような借金ですか?」や「利子はいくらですか?」といった質問で始め、財務アドバイスがすべてに適しているわけではないという理解を示しました。

その勧告を提供する前に文脈を収集することに重点を置くことは、専門的なファイナンシャルプランニングの実践と一致していますが、即座の回答を求めるユーザーには不満を与えるかもしれません。

ゼロショットの回答は役に立ちませんでした。エージェントは基本的に、ユーザーを十分に知らないため、適切な財務アドバイスを提供することができないと述べました。仮定を行わせ、ほとんどのシナリオに適合する可能性のある計画を提供するように求めた後、エージェントは具体的な投資を考慮するための具体的な提案をせずに、非常に保守的な計画の草案を作成しました。

しかし、MoneyGemは、税負担を軽減するために、401(k)やRoth IRAなどの税制上の優遇措置のある口座を最大化することを推奨して回答を締めくくりました。ナイス。

クリックすることができますここMoneyGemとのやり取りを読んで、モデルをクリックして自分で試してみてくださいこのリンク.

ミストラル AI

ミストラルのエージェント構成プロセスへのアプローチは、シンプルさからは少し遠いものです。エージェント作成ツールは開発者コンソールに隠されており、初心者を怖がらせるかもしれませんが、いじくり好きな人々には喜ばれる深いカスタマイズオプションがあります。

そのエージェントのビルディングインターフェースはLeChat(チャットボットインターフェース)の一部ではありませんが、エージェントが作成されるとそこに表示されます。

私たちが実際に気に入っているのは、エージェントの振る舞いや応答スタイルを形作る例をツールに与える能力です。他のプラットフォームでは現在これを提供していない点です。また、不思議なバグがあります。エージェントを作成している最中にUIが突然フランス語に切り替わったことがあります。おそらく会社がフランスのためかもしれません。それにもかかわらず、英語やスペイン語に戻すことができませんでした。

エージェントが作成されたら、ユーザーは通常のチャットボットインターフェースでそれを呼び出して使用する必要があります。ユーザーはLe Plateformeを終了し、Le Chatに移動する必要がありますが、これは最も直感的な方法ではありません。ただし、エージェントの使用方法は非常にわかりやすく、他のAIチャットボットと同じように感じます。

私たちはエージェントを構築し、それをgateと名付けましたル・マネーMistralのフランスのルーツを尊重するために

合計 35,000 ドルは利用可能な資金を 10,000 ドル上回っていますが、これは、一部の言語モデルが数値の正確さよりも概念の正確性を優先するときに示す基本的な間違いです。

ただし、最高のパフォーマンスを発揮するLLMは大幅に改善されており、少なくともMistralほど頻繁にはこのタスクで失敗しないことに注意する必要があります。

それ以外については、その計画は実際には詳細ではありませんが、インタラクションをより流暢にするためのフォローアップの質問を提供する唯一のものであり、ユーザーのニーズをよりよく理解するのに役立つことができました。

LeMoneyの完全な計画が利用可能ですここエージェントはテスト用に利用可能ですここ.

Anthropic

クロードのプロジェクトは、エージェント作成プラットフォームというよりも、洗練されたタスク実行システムのようなものです。インターフェースは最小限で、ほとんど過剰であり、直感的ではないと感じます。

このミニマリストのインターフェースは、一部のユーザーを戸惑わせるかもしれません。プラットフォームは、見た目は最小限のセットアップを提示しており、「任意の」指示フィールドがあるものの、どこか重要でありながら重要でないように感じます。指示が任意とラベル付けされている場合、AIエージェントは何をすべきかをどのように知るのでしょうか?

そのミニマリストなインターフェースは奇妙ですが、AnthropicはUIの選択肢でそのセンスで知られているわけではありません。モデルを構成するためのウィンドウは、それをプロンプトするために使用するものです。その能力は主にテキストコードの解釈に焦点を当てており、それ以外のことは何もありません。Web検索や画像処理、生成などはAnthropicが競合他社に任せる洒落たものです。

私たちのエージェント、MoneyClaudeという名前のエージェントは、Anthropicが許可しないため、一般のテストには利用できません。 それは、技術的に正確ながらも曖昧な回答で、非常に保守的な立場を取りました。例えば、「負債の削減と必要な貯蓄の間でバランスの取れたアプローチを維持する」といったものです。

追加情報を要求しましたが、それがない場合でも、さらなる対話を必要とせずに非常に一般的な戦略を提供することを確認しました。これはGoogleのアプローチよりも最適なようです。

ここをクリックして読んでくださいフルプラン.

Hugging Face

オープンソースのリポジトリは、パワーユーザーの楽園であり、初心者にとっては潜在的な悪夢です。ユーザーが好みの言語モデルを選択できる唯一のプラットフォームであり、エージェントの基盤に対して前例のない制御を提供しています。

また、ユーザーは数十種類の異なるツールをエージェントと統合することができますが、同時に3つしかアクティブ化することができません。この制限により、特定のユースケースごとにどの機能が最も重要かを慎重に考慮する必要がありますが、これは他のどのモデルも提供できないものです。

それはすべてのインターフェイスの中で最もカスタマイズ可能なエクスペリエンスですが、調整するためのたくさんのつまみがあります。その結果、このプラットフォームは競合他社よりも強力で特化したエージェントを作成できますが、それは自分が何をしているかを正確に知っている人の手にのみよるものです。

ユーザーはゲートでエージェントを試すことができますハギングチャット—手放しでパワーユーザーの夢です。エージェントを作成したら、使用方法は非常に簡単です。インターフェースには、エージェントの名前、説明、写真が表示される大きなカードが表示されます。また、ユーザーはカードからエージェントのリンクを共有したり、設定を調整したりすることもできます。

Putting our HuggingMoney’sテストによるエージェントの表示は、時間軸の枠組みで取り組んでおり、金融計画心理学のより洗練された理解を示しています。それは「短期(0-24ヶ月)、中期(24-60ヶ月)、長期(60ヶ月以上)」に分けられており、専門的な金融計画の実践を反映しています。

エージェントは、「$0-$5,000を流動性の高い低リスクの資産に割り当てることを提案しました。同時に、「$1,000-$1,500を毎月積極的に返済することを維持することを提案しました。」これは、一見すると、キャッシュフロー管理に対する微妙な理解の兆候です。

もう一つの興味深い特徴は、実践的なツールと理論的なアドバイスの統合でした。単に提案するだけではなく、50/30/20ルール,それは特定の予算アプリを推奨し、税金の最適化を強調することをお勧めしました-高レベルの戦略と日々の実行の橋を作ること。主な欠点は?それは明確化を求めることなく債務の利子率についての仮定を含んでいます。

有益な助言を提供するために、多くのことを当然のこととして受け入れる傾向があります。どんな場合でも返信を提供するという衝動は、促すことで修正できますが、考慮すべきことです。

HuggingMoneyの完全な計画を読むことができますここまた、クリックして試すこともできます。このリンク.

免責事項:

  1. この記事は[から転載されています解読する]. すべての著作権は元の著者に帰属します [Jose Antonio Lanz]. If there are objections to this reprint, please contact the gate Learnチームが迅速に対応します。
  2. 責任の免責事項:この記事で表現されている意見や見解は、著者個人のものであり、投資アドバイスを構成するものではありません。
  3. Gate.ioのLearnチームは記事を他の言語に翻訳しました。翻訳された記事のコピー、配布、または盗用は、特に言及されていない限り禁止されています。
今すぐ始める
登録して、
$100
のボーナスを獲得しよう!
It seems that you are attempting to access our services from a Restricted Location where Gate is unable to provide services. We apologize for any inconvenience this may cause. Currently, the Restricted Locations include but not limited to: the United States of America, Canada, Cambodia, Thailand, Cuba, Iran, North Korea and so on. For more information regarding the Restricted Locations, please refer to the User Agreement. Should you have any other questions, please contact our Customer Support Team.