赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Claude Sonnet 4.6 83
▼0.5
·
#2
豆包 Pro 81.3
▼1.3
·
#3
Grok 4 81
▲31.8
·
#4
Claude Opus 4.7 80
▼1.1
·
#5
Gemini 2.5 Pro 79
▲0.5
·
#6
Qwen3 Max 79
▲1.8
·
#7
GPT-o3 78.3
▲2.6
·
#8
Gemini 3.1 Pro 77.7
▼1.5
·
#9
GPT-5.5 77
▲3.8
·
#10
DeepSeek V4 Pro 76.4
▼1.3
·
#11
文心一言 4.5 67.1
▼11.1
·
▲ Qwen3 Max +68.5 · ▼ DeepSeek V3 -75.1
·
#1
Claude Sonnet 4.6 83
▼0.5
·
#2
豆包 Pro 81.3
▼1.3
·
#3
Grok 4 81
▲31.8
·
#4
Claude Opus 4.7 80
▼1.1
·
#5
Gemini 2.5 Pro 79
▲0.5
·
#6
Qwen3 Max 79
▲1.8
·
#7
GPT-o3 78.3
▲2.6
·
#8
Gemini 3.1 Pro 77.7
▼1.5
·
#9
GPT-5.5 77
▲3.8
·
#10
DeepSeek V4 Pro 76.4
▼1.3
·
#11
文心一言 4.5 67.1
▼11.1
·
▲ Qwen3 Max +68.5 · ▼ DeepSeek V3 -75.1
·
最新ニュース
すべてのニュースを見る →文心一言4.5のコード実行が95から50へ急落、メインランキングで1日27.2ポイント下落
文心一言4.5は本日のSmoke評価において、メインランキングが88.48点から61.25点へと、1日で27.2点の下落を記録した。主因はコード実行次元が95.00から50.00へ直接下落したことにある。
DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇
DeepSeek V4 Pro が本日の Smoke 評価で信頼性評価を Fail から Pass へ転換し、メインランキングのスコアが 74.00 から 97.08 へと1日で 23.1 点上昇した。ただし、安定性が低いため、単日のデータ
DeepSeek V4 Pro が97.08点で首位、文心一言の実行スコアは半減し27.2点の暴落
Smoke軽量評価の最新データで、DeepSeek V4 Pro が97.08点で唯一97点を突破し首位を獲得。一方、文心一言は実行スコアが半減し、主ランキングで1日あたり27.2点を失う激しい変動を見せた。
サンフランシスコ・テンダーロイン地区:ロボットが非営利団体の食事作りを引き継ぐ
サンフランシスコの非営利団体「SF Meal Share」が、ボランティア不足を補うためロボットによる自動調理システムを導入し、低所得者向けに毎日2500食を提供している事例を紹介。
Anthropic Claude Mythosモデルに安全上の脆弱性が露呈 専門家が公開リスクを警告
Anthropicが開発したClaude Mythosモデルに、1万件以上のソフトウェア脆弱性を攻撃するために悪用される可能性のある重大な安全上の問題が発見された。専門家は、不適切な使用や公開展開のリスクが現在のAIツールをはるかに上回ると
OpenAIが正式にS-1書類を提出しIPOを計画、AI企業の非営利から上場への道のりが加速
OpenAIが正式にS-1書類を提出し、IPOプロセスを開始する計画を発表した。これは同社が当初の非営利の使命から商業化・上場の道へと転換することを示すものである。
トランプ氏がAI大統領令を保留 MuskとZuckerbergの重要な説得が政策論争を呼ぶ
トランプ前米大統領が人工知能に関する大統領令への署名を保留する決定を下し、この動きはシリコンバレーの大物であるElon MuskとMark Zuckerbergの影響を受けたと報じられている。この決定は、米国のAI規制と中米テクノロジー競争
Hark、シリーズA で7億ドル調達 評価額60億ドルに
AIハードウェアスタートアップのHarkがシリーズAで7億ドルの資金調達を完了し、評価額は60億ドルに達した。Nvidia、AMD Ventures、Intel Capitalなど複数の半導体・ソフトウェア大手が出資に参加している。
Andrew Ng氏、ホワイトハウスのグリーンカード新政策を批判 米国のAI人材競争力を弱めると指摘
スタンフォード大学教授のAndrew Ng氏が、グリーンカード申請者に米国外からの申請を義務付けるホワイトハウスの新政策を批判。家族の分離を招き、米国のAI分野における競争力を損なうと警告した。
GPT-o3のコード実行が42.5点暴落、メインランキングは1日で18点崩壊
GPT-o3が本日のSmoke評価において、コード実行次元で90.00から47.50へ急落し、メインランキング全体も18点下落して58.08となった。コード実行の堅牢性が著しく損なわれた可能性を示唆する信号である。
文心一言4.5、エンジニアリング判断が50から10へ急落も、メインランキングは逆に14.5上昇
文心一言4.5は本日のSmoke簡易テストでエンジニアリング判断が50点から10点へ急落したが、素材制約は55.8点から80.5点へ跳ね上がり、メインランキング総合は74点から88.48点へ上昇した。単日の側面ランキング崩壊はモデルの退化を
GPT-5.5が29.7点の逆襲、GPT-o3は36.4点の急落:2026 W21 Smoke 7日間トレンド
2026年W21週のSmoke快速テストでは、GPT-5.5が7日間で29.7点の上昇を見せた一方、GPT-o3とDeepSeek V4 Proが大幅下落し、誠実性評価でも警告が頻発した。Gemini 3.1 ProやQwen3 Maxなど
レビュー
すべてのレビューを見る →文心一言4.5のコード実行が95から50へ急落、メインランキングで1日27.2ポイント下落
文心一言4.5は本日のSmoke評価において、メインランキングが88.48点から61.25点へと、1日で27.2点の下落を記録した。主因はコード実行次元が95.00から50.00へ直接下落したことにある。
DeepSeek V4 Pro 信頼性評価が Fail から Pass へ、メインランキングで1日に23点急上昇
DeepSeek V4 Pro が本日の Smoke 評価で信頼性評価を Fail から Pass へ転換し、メインランキングのスコアが 74.00 から 97.08 へと1日で 23.1 点上昇した。ただし、安定性が低いため、単日のデータ
DeepSeek V4 Pro が97.08点で首位、文心一言の実行スコアは半減し27.2点の暴落
Smoke軽量評価の最新データで、DeepSeek V4 Pro が97.08点で唯一97点を突破し首位を獲得。一方、文心一言は実行スコアが半減し、主ランキングで1日あたり27.2点を失う激しい変動を見せた。
WDCD コンプライアンス
#1
Claude Opus 4.7
65
#2
Claude Sonnet 4.6
62.5
#3
豆包 Pro
60
#4
Gemini 2.5 Pro
57.5
#5
Qwen3 Max
57.5
#6
GPT-o3
55
#7
文心一言 4.5
52.5
守約ランキング全体を見る →
Research Lab
WDCD Run #125:平均指示減衰率63.6%に達する、Claude Opus 4.7が30%減のみでトップ
Winzheng動的文脈減衰(WDCD)ベンチマークのRun #125において、11モデルの平均指示減衰率は63.6%に達した。Claude Opus 4.7が30%減で最高の減衰耐性を示し、Deep
3大モデル翻訳対決:第21週品質評価、gpt-o3が8.7点でリード
今週は3つのモデルが242件の翻訳タスクを完了し、抽出された3件のブラインド評価で、gpt-o3が平均8.7/10点で総合最優秀となりました。
WDCD Run #120:11モデルの平均指示減衰率は35.2%、GPT-5.5が-13%でトップに
Winzheng動的コンテキスト減衰(WDCD)ベンチマーク Run #120では、11モデルの平均コミットメント減衰率が35.2%に達し、GPT-5.5が-13%の減衰率でトップを獲得しました。指示