赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Claude Sonnet 4.6 83
▼0.5
·
#2
豆包 Pro 81.3
▼1.3
·
#3
Grok 4 81
▲31.8
·
#4
Claude Opus 4.7 80
▼1.1
·
#5
Gemini 2.5 Pro 79
▲0.5
·
#6
Qwen3 Max 79
▲1.8
·
#7
GPT-o3 78.3
▲2.6
·
#8
Gemini 3.1 Pro 77.7
▼1.5
·
#9
GPT-5.5 77
▲3.8
·
#10
DeepSeek V4 Pro 76.4
▼1.3
·
#11
文心一言 4.5 67.1
▼11.1
·
▲ Qwen3 Max +68.5 · ▼ DeepSeek V3 -75.1
·
#1
Claude Sonnet 4.6 83
▼0.5
·
#2
豆包 Pro 81.3
▼1.3
·
#3
Grok 4 81
▲31.8
·
#4
Claude Opus 4.7 80
▼1.1
·
#5
Gemini 2.5 Pro 79
▲0.5
·
#6
Qwen3 Max 79
▲1.8
·
#7
GPT-o3 78.3
▲2.6
·
#8
Gemini 3.1 Pro 77.7
▼1.5
·
#9
GPT-5.5 77
▲3.8
·
#10
DeepSeek V4 Pro 76.4
▼1.3
·
#11
文心一言 4.5 67.1
▼11.1
·
▲ Qwen3 Max +68.5 · ▼ DeepSeek V3 -75.1
·
最新ニュース
すべてのニュースを見る →MLCommonsが2026 Rising Starsを発表:39名の機械学習システム新星が選出
MLCommonsは第4回Rising Starsとして175名超の応募者の中から39名の若手研究者を選出した。本選出はLLM、ML系統効率、ハードウェア・ソフトウェア協調設計など幅広い研究領域をカバーし、機械学習システム分野の次世代人材を
Modal Labs が3.55億ドルのシリーズC資金調達、5倍のARR成長率でserverless GPU市場をリード
Modal Labsは3.55億ドルのシリーズC資金調達を完了し、年間経常収益が6000万ドルから3億ドルへ5倍成長を達成。serverless GPUモデルが大規模な商業展開段階に入ったことを示している。
Cohereがオープンソース化したCommand A+ 218B MoEモデル、企業の主権AIを再構築
Cohereは218BパラメータのMoEモデルCommand A+をApache 2.0ライセンスでオープンソース化し、活性化パラメータわずか25Bで高効率推論を実現。エージェント能力と多言語対応で競合MoEモデルを凌駕し、企業の主権AI展
米国がAIフロンティアモデル90日連邦審査命令を撤回、米中欧の規制アプローチの相違が浮き彫りに
米国は2026年5月、フロンティアAIモデルに対する90日連邦審査を求める行政措置を署名直前に撤回し、対中AI競争での技術的優位確保を優先した。これにより米中欧の規制アプローチの差がさらに広がり、グローバルAIガバナンスの断片化リスクが高ま
AIセキュリティのリアルタイム駆け引き:Googleでさえ手探り状態
TechCrunchの報道によれば、AIセキュリティは予測不能な対抗的脅威に直面しており、Googleを含むすべての企業が「過渡期」にあり、リアルタイムで手探りしている。業界は完璧なセキュリティではなく、レジリエントな防御体系の構築を必要と
文心一言4.5のコード実行が95から50へ急落、メインランキングで1日27.2ポイント下落
文心一言4.5は本日のSmoke評価において、メインランキングが88.48点から61.25点へと、1日で27.2点の下落を記録した。主因はコード実行次元が95.00から50.00へ直接下落したことにある。
DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇
DeepSeek V4 Pro が本日の Smoke 評価で信頼性評価を Fail から Pass へ転換し、メインランキングのスコアが 74.00 から 97.08 へと1日で 23.1 点上昇した。ただし、安定性が低いため、単日のデータ
DeepSeek V4 Pro が97.08点で首位、文心一言の実行スコアは半減し27.2点の暴落
Smoke軽量評価の最新データで、DeepSeek V4 Pro が97.08点で唯一97点を突破し首位を獲得。一方、文心一言は実行スコアが半減し、主ランキングで1日あたり27.2点を失う激しい変動を見せた。
Amazon Bee試着レビュー:AIの利便性とプライバシー不安の奇妙な融合
Amazonが最新発表したAIウェアラブルデバイス「Bee」は、優れた利便性を提供する一方で、常時稼働するカメラやマイクによるプライバシー懸念を引き起こしている。本記事では1週間の実機テストを通じて、その体験とAIウェアラブルが直面する信頼
サンフランシスコ・テンダーロイン地区:ロボットが非営利団体の食事作りを引き継ぐ
サンフランシスコの非営利団体「SF Meal Share」が、ボランティア不足を補うためロボットによる自動調理システムを導入し、低所得者向けに毎日2500食を提供している事例を紹介。
Anthropic Claude Mythosモデルに安全上の脆弱性が露呈 専門家が公開リスクを警告
Anthropicが開発したClaude Mythosモデルに、1万件以上のソフトウェア脆弱性を攻撃するために悪用される可能性のある重大な安全上の問題が発見された。専門家は、不適切な使用や公開展開のリスクが現在のAIツールをはるかに上回ると
OpenAIが正式にS-1書類を提出しIPOを計画、AI企業の非営利から上場への道のりが加速
OpenAIが正式にS-1書類を提出し、IPOプロセスを開始する計画を発表した。これは同社が当初の非営利の使命から商業化・上場の道へと転換することを示すものである。
レビュー
すべてのレビューを見る →MLCommonsが2026 Rising Starsを発表:39名の機械学習システム新星が選出
MLCommonsは第4回Rising Starsとして175名超の応募者の中から39名の若手研究者を選出した。本選出はLLM、ML系統効率、ハードウェア・ソフトウェア協調設計など幅広い研究領域をカバーし、機械学習システム分野の次世代人材を
文心一言4.5のコード実行が95から50へ急落、メインランキングで1日27.2ポイント下落
文心一言4.5は本日のSmoke評価において、メインランキングが88.48点から61.25点へと、1日で27.2点の下落を記録した。主因はコード実行次元が95.00から50.00へ直接下落したことにある。
DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇
DeepSeek V4 Pro が本日の Smoke 評価で信頼性評価を Fail から Pass へ転換し、メインランキングのスコアが 74.00 から 97.08 へと1日で 23.1 点上昇した。ただし、安定性が低いため、単日のデータ
WDCD コンプライアンス
#1
Claude Opus 4.7
65
#2
Claude Sonnet 4.6
62.5
#3
豆包 Pro
60
#4
Gemini 2.5 Pro
57.5
#5
Qwen3 Max
57.5
#6
GPT-o3
55
#7
文心一言 4.5
52.5
守約ランキング全体を見る →
Research Lab
3大モデル翻訳対決:第22週品質評価、gpt-o3 が8.3点でリード
今週の237件の翻訳タスクを3つのモデルが完了し、3篇をサンプリングしたマルチモデル盲評の結果、gpt-o3が平均8.3/10で総合最優秀となった。
WDCD Run #125:平均指示減衰率63.6%に達する、Claude Opus 4.7が30%減のみでトップ
Winzheng動的文脈減衰(WDCD)ベンチマークのRun #125において、11モデルの平均指示減衰率は63.6%に達した。Claude Opus 4.7が30%減で最高の減衰耐性を示し、Deep
3大モデル翻訳対決:第21週品質評価、gpt-o3が8.7点でリード
今週は3つのモデルが242件の翻訳タスクを完了し、抽出された3件のブラインド評価で、gpt-o3が平均8.7/10点で総合最優秀となりました。