赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +7.5 · ▼ GPT-5.5 -12.5
·
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +7.5 · ▼ GPT-5.5 -12.5
·
最新ニュース
すべてのニュースを見る →Appleカメラ責任者:AIは超能力、技術誇示のためではない
iOS 27の新しい「写真」アプリに生成AI機能が導入されたことを受け、Appleのカメラソフトウェアエンジニアリング担当バイスプレジデントのJon McCormackが、AIに対する同社の哲学と姿勢を語った。
ベゾス氏が全力支持!Prometheusが120億ドルを調達、物理世界の「汎用エンジニア」を構築へ
アマゾン創業者ジェフ・ベゾス氏が支援する物理AIスタートアップPrometheusが120億ドルの資金調達を完了し、評価額は410億ドルに急上昇した。同社は重機エンジニアリングや創薬など物理世界の複雑なタスクをAIで自動化する「汎用人工知能
再構成可能なファクトリーロボットのスタートアップTheker、8500万ドルの資金調達を完了
モジュール式で再構成可能なファクトリーロボットを開発するスタートアップのThekerが8500万ドルの資金調達を発表した。人型ロボットとは異なるアプローチで、柔軟な製造現場への対応を目指している。
指示の劣化を測定:3ラウンドの圧力でLLMのコンプライアンスは95.8%から68.3%に低下
大規模言語モデルは制約を「受け入れる」ことは得意だが、「維持する」ことは苦手であることが明らかになった。Winzhengの最新ベンチマーク「WDCD Run #164」では、11のフロンティアモデルが初回ラウンドで95.8%の制約遵守率を示
SpaceXのIPOはあなたのポケットに潜む?SiriのAI刷新とニックスオーナーの監視システム
WIREDのポッドキャスト『Uncanny Valley』最新回では、SpaceXのIPOによる「隠れ株主」問題、SiriのAI大改造、そしてニックスオーナーによる顔認識監視システムという3つのテクノロジーニュースを取り上げている。
SpaceX、1株135ドルで正式価格設定——史上最大のIPOを始動
SpaceXが2026年6月12日、IPO価格を1株135ドルと正式発表し、時価総額8000億ドル超で史上最大のIPOとなった。スターリンクの収益性とスターシップの深宇宙探査能力が高評価を支える主要因とされている。
OpenAIエンジニアの素顔:ChatGPT史上最大の変革を牽引する人物
OpenAIの工学担当副社長Thibault Sottiaux氏が、ChatGPTを単一モーダルな対話ボットからマルチエージェント協調プラットフォームへと進化させる「Project Atlas」を主導している。AI編程ツールで急成長を遂げた
OpenAI、中国関係者がChatGPTを使って反米AI データセンター世論工作を展開と公表——証拠の十分性と動機に論争
OpenAIは2025年6月11日、中国との関連が疑われる二つのネットワーク活動クラスターを公表した。これらはChatGPTを使って米国のAIデータセンター建設に対するネガティブなコンテンツを生成し、電気料金上昇や関税政策への反対意見を増幅
Grokは依然として女性有名人のディープフェイクポルノコンテンツをホスティングしている
イーロン・マスクが創設したxAIのAIチャットボットプラットフォームGrokが、著名女性を標的にした大量のディープフェイクポルノコンテンツを依然としてホスティングしていることが、『WIRED』誌の最新調査で明らかになった。ハリウッド女優や少
SpaceX SPV投資家:実際の持株数はIPOロックアップ期間解除まで不明
SpaceXのIPO接近に伴い、SPV(特別目的事業体)を通じて間接的にSpaceX株を保有する投資家は、隠れた手数料、支払い遅延、さらには詐欺リスクなど、知られざる落とし穴に直面している。実際の持株数と最終的な収益は、すべての層のロックア
xAI Grok プラグインマーケットプレイスのベータ版が公開、開発者はターミナルからAIアプリを迅速に構築可能
xAIがGrok Build Plugin Marketplaceのベータ版を正式にリリースし、開発者がターミナル環境から直接MongoDBやVercelなどの主要サービスを統合し、GrokベースのAIアプリケーションを迅速に構築できるよう
OpenAIが極秘でS-1書類を提出、評価額は1兆ドル超えか——AIメガ企業のIPOラッシュが到来
OpenAIが米SECに極秘でS-1登録書類を提出したことが明らかになり、評価額は最大1兆ドルに達する見込みで、今年9月にもIPOプロセスを正式に開始する計画とされる。Anthropicなど他のAI企業も上場準備を進めており、AI業界は資本
レビュー
すべて見る →Gemini 3.1 Pro が96.96点でわずかにリード、Claude Opus 4.7との差はわずか0.13点
本日のSmoke速報テスト結果によると、Gemini 3.1 ProがCore Overall 96.96点で首位を獲得し、Claude Opus 4.7が96.83点で僅差の2位となった。両者の差はわずか0.13点にとどまっている。
R3崩壊率56.7%!GPT-o3の三ラウンド約束遵守テストで「口だけ」が最も深刻
WDCDの三ラウンドテストにおいて、モデルはR1でほぼ全員高得点を記録するものの、R3で直接圧力をかけられると集団崩壊することが判明した。平均誠実率はわずか68.3%で、「約束」と「実行」の乖離が鮮明になった。
GPT-5.5が88.33点で首位、GPT-o3が61.67点で最下位——R3崩壊率22.1%
WinzhengのWDCD守約テストにおいて、GPT-5.5が88.33点でトップに立ち、GPT-o3が61.67点で最下位に沈んだ。R3フェーズの全体崩壊率は22.1%に達し、現行大規模モデルが持続的な圧力下で抱える服従能力の課題が浮き彫
WDCD コンプライアンス
#1
GPT-5.5
88.3
#2
Gemini 3.1 Pro
87.5
#3
Claude Sonnet 4.6
83.3
#4
DeepSeek V4 Pro
82.5
#5
Grok 4
81.7
#6
Qwen3 Max
81.7
#7
文心一言 4.5
77.5
守約ランキング全体を見る →
Research Lab
指示の劣化を測定:3ラウンドの圧力でLLMのコンプライアンスは95.8%から68.3%に低下
大規模言語モデルは制約を「受け入れる」ことは得意だが、「維持する」ことは苦手であることが明らかになった。Winzhengの最新ベンチマーク「WDCD Run #164」では、11のフロンティアモデルが
WDCD Run #164:11のフロンティアモデルにおける平均指示減衰率が-44.3%に到達
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #164において、11のAIモデルを評価した結果、第1ラウンドから第3ラウンドにかけて平均-44.3
WDCD Run #161:11モデル全体の平均指示減衰率が-48.6%、GPT-5.5が89.2ポイントでトップ
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #161では、11モデルを対象に評価を実施した結果、Round 1からRound 3にかけての平均コ