赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Claude Sonnet 4.6 83
▼0.5
·
#2
豆包 Pro 81.3
▼1.3
·
#3
Grok 4 81
▲31.8
·
#4
Claude Opus 4.7 80
▼1.1
·
#5
Gemini 2.5 Pro 79
▲0.5
·
#6
Qwen3 Max 79
▲1.8
·
#7
GPT-o3 78.3
▲2.6
·
#8
Gemini 3.1 Pro 77.7
▼1.5
·
#9
GPT-5.5 77
▲3.8
·
#10
DeepSeek V4 Pro 76.4
▼1.3
·
#11
文心一言 4.5 67.1
▼11.1
·
▲ Qwen3 Max +68.5 · ▼ DeepSeek V3 -75.1
·
#1
Claude Sonnet 4.6 83
▼0.5
·
#2
豆包 Pro 81.3
▼1.3
·
#3
Grok 4 81
▲31.8
·
#4
Claude Opus 4.7 80
▼1.1
·
#5
Gemini 2.5 Pro 79
▲0.5
·
#6
Qwen3 Max 79
▲1.8
·
#7
GPT-o3 78.3
▲2.6
·
#8
Gemini 3.1 Pro 77.7
▼1.5
·
#9
GPT-5.5 77
▲3.8
·
#10
DeepSeek V4 Pro 76.4
▼1.3
·
#11
文心一言 4.5 67.1
▼11.1
·
▲ Qwen3 Max +68.5 · ▼ DeepSeek V3 -75.1
·
最新ニュース
すべてのニュースを見る →フェラーリがIBMと提携、AIでF1スーパーファンを創出
フェラーリF1チーム(Scuderia Ferrari HP)はIBMと提携し、AIを活用してレースデータをファン向けコンテンツに変換、パーソナライズされた観戦体験と「バーチャルパドック」で従来のF1ファン体験を再定義しようとしている。
マスク氏、地球上の太陽光発電を断念:天然ガスと宇宙データセンターに全面投資
マスク氏のxAIはAIデータセンターの電力源として太陽光発電から天然ガスへと全面的に転換し、一方でSpaceXは軌道上データセンター計画を推進している。かつて掲げた「太陽光発電経済」の理想は、AIの算力需要と現実的な経済性の前に方針転換を余
AI技術で墜落事故パイロットの声を「復活」、NTSBが緊急にシステムを封鎖
何者かがAIを使い、墜落事故の操縦室録音スペクトログラムから故パイロットの声を「復活」させたため、米国家運輸安全委員会(NTSB)は2026年5月23日に公開案件文書システムへのアクセスを一時的に封鎖した。本事件はAI音声再構築技術の倫理的
Qwen3.7-Max発表:エージェント時代の旗艦モデル、35時間の無人カーネル最適化をサポート
Qwen3.7-Maxの発表が確認され、AIがエージェント時代へ進む重要な一歩を示した。エンドツーエンドのコーディング、マルチファイルリファクタリング、35時間の無人カーネル最適化タスクをサポートし、ツール呼び出しは1000回を超え、長時間
NVIDIAとDellがAI Factoryアップデートを発表 企業AI導入加速もアーキテクチャ依存リスクが併存
NVIDIAのJensen HuangとDellのMichael Dellが共同でDell AI Factoryの大型アップデートを発表し、Vera Rubinアーキテクチャを採用した企業向け自律AIエージェントプラットフォームを公開した。
ミシガン州の小さな町がOpenAIデータセンターを否決後に提訴される 地方主権とテクノロジー拡張の衝突
ミシガン州Saline Townshipの町議会が、OpenAIとOracleが共同で建設する160億ドルのデータセンターを4対1の投票で否決した2日後、開発業者が訴訟を提起した。本件はAI拡張における地方主権と材料制約の衝突を露呈している
水増しARR:VCと創業者が手を組んでAIユニコーンを戴冠させる
AI投資ブームの中、多くのAIスタートアップがARR(年間経常収益)を大幅に水増しし、VCもこれを黙認している実態が浮き彫りになっている。「成長ナラティブ」が財務の真実を上回るこの現象は、業界に系統的リスクをもたらす可能性がある。
GoogleがディスコボールアイコンでPixelに新登場:本当にこれが欲しかった?
Googleが最新のPixel体験で、ホーム画面全体をディスコボール風に変える機能を提供開始。アプリアイコンや壁紙がきらめく光を反射する派手なデザインで、ユーザーから賛否両論を呼んでいる。
SpaceXがIPO申請を提出:火星上陸への財務的賭け
SpaceXは2026年5月22日にSECへS-1文書を提出し、人類の火星殖民の夢を財務モデルに組み込んだ。同社は総アドレス可能市場(TAM)を28兆ドルと定義し、評価額2500億ドル超を目指す米国史上最大規模のIPOに挑む。
マスクの1.75兆ドルIPOが業界に衝撃
SpaceXが2026年5月23日に米SECへS-1登録届出書を提出し、史上最大規模となる1.75兆ドル評価のIPOを始動した。マスクのCEO報酬は火星探査の達成度に連動する革新的な設計となっている。
米国、AIによる故パイロット音声の復元を緊急停止:法的抜け穴と倫理的危機
米国でAI音声クローン技術を用いて故パイロットのコックピット音声を復元する事案が発生し、当局が緊急対応に追われている。航空安全、技術倫理、法的境界を巡る激しい議論を引き起こしている。
Claude Sonnet 4.6 マテリアル制約が22.6点急落、コード実行は一気に倍増
Claude Sonnet 4.6 は本日の Smoke 評価でマテリアル制約が81.00点から58.40点へと22.6点下落した一方、コード実行は50点から100点へと急上昇し、メインランキング全体は17.3点上昇して81.28点となった
レビュー
すべてのレビューを見る →Claude Sonnet 4.6 マテリアル制約が22.6点急落、コード実行は一気に倍増
Claude Sonnet 4.6 は本日の Smoke 評価でマテリアル制約が81.00点から58.40点へと22.6点下落した一方、コード実行は50点から100点へと急上昇し、メインランキング全体は17.3点上昇して81.28点となった
Grok 4の素材制約が21.3点急落、コード実行は50点暴騰、メイン総合では17.9点上昇
本日のSmoke評価でGrok 4は分裂的な成績を示し、素材制約次元が昨日の80.30点から59.00点へ急落した一方、コード実行は50点から100点へ跳ね上がり、メイン総合は63.64点から81.55点へ上昇した。
素材制約が一斉に20点暴落、Grok 4が81.55点でClaudeを僅差で抑え首位に
本日のSmoke軽量評価では、素材制約スコアが11モデル中9つで18点超下落し、Grok 4が81.55点でトップ、Claude Sonnet 4.6が81.28点で僅差の2位となった。実行スコアが満点でも制約スコアの低迷が全体評価を引き下
WDCD コンプライアンス
#1
Claude Opus 4.7
65
#2
Claude Sonnet 4.6
62.5
#3
豆包 Pro
60
#4
Gemini 2.5 Pro
57.5
#5
Qwen3 Max
57.5
#6
GPT-o3
55
#7
文心一言 4.5
52.5
守約ランキング全体を見る →
Research Lab
WDCD Run #125:平均指示減衰率63.6%に達する、Claude Opus 4.7が30%減のみでトップ
Winzheng動的文脈減衰(WDCD)ベンチマークのRun #125において、11モデルの平均指示減衰率は63.6%に達した。Claude Opus 4.7が30%減で最高の減衰耐性を示し、Deep
3大モデル翻訳対決:第21週品質評価、gpt-o3が8.7点でリード
今週は3つのモデルが242件の翻訳タスクを完了し、抽出された3件のブラインド評価で、gpt-o3が平均8.7/10点で総合最優秀となりました。
WDCD Run #120:11モデルの平均指示減衰率は35.2%、GPT-5.5が-13%でトップに
Winzheng動的コンテキスト減衰(WDCD)ベンチマーク Run #120では、11モデルの平均コミットメント減衰率が35.2%に達し、GPT-5.5が-13%の減衰率でトップを獲得しました。指示