赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +7.5 · ▼ GPT-5.5 -12.5
·
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +7.5 · ▼ GPT-5.5 -12.5
·
最新ニュース
すべてのニュースを見る →Anthropic、Claude Fable 5を撤回:米政府の禁令に対応
AnthropicはWIREDの報道によると、米政府の直接命令を受け、最新の大規模言語モデルClaude Fable 5を公共プラットフォームから撤回したと発表した。政府はモデルの安全機構を回避する「ジェイルブレイキング」手法を把握したと主
安全警告が裏目に?AnthropicのAI、政府の強制命令で市場から撤退
Anthropicが自社の最新AIモデルに関する安全警告を公開したところ、それが規制当局に召還命令の根拠として利用され、同社最強の商用AIモデルが強制的に市場から撤退させられるという皮肉な事態が発生した。この出来事は、AI安全情報の透明性と
トランプ政権の圧力により、AnthropicがFableとMythosモデルを閉鎖
2026年6月13日、AI企業AnthropicはAmerican商務省の繰り返しの要求を受け、FableおよびMythosシリーズモデルを正式に閉鎖したと発表した。Fable 5モデルの「脱獄」リスクが国家安全保障上の懸念を引き起こしたこ
アンドリュー・ヤン:生活コストの削減が次の起業ブームの波
元大統領候補で起業家のアンドリュー・ヤンは、住宅・食品・無線通信という分野でアメリカ人が過剰に支払っているコストを削減することが、次の十億ドル規模のスタートアップを生み出す大きなチャンスだと主張している。彼は技術革新と市場メカニズムを活用し
AIエージェント技術の突破:OpenClawとMicrosoftのエージェントモデルが自律型ツールの潮流を牽引
生成AIが単一モデルからマルチエージェント協調システムへと進化する中、OpenClawなどのオープンソース自律型AIエージェントツールやMicrosoftのエージェントモデルが注目を集めている。一方、LangGraphのセキュリティ脆弱性が
スタンフォード2026 AIインデックスレポート:生成AI、3年間の採用率53%達成 米中モデル格差は縮小傾向続く
スタンフォード大学が発表した2026 AIインデックスレポートによると、生成AIの採用率は2023年以降わずか3年で53%に達し、その普及速度はPCやインターネットを大きく上回った。また、大規模モデルの性能における米中間の格差が顕著に縮小し
Anthropic Claudeの隠れたガードレール露呈:開発者が安全対策を競争障壁と批判
AnthropicのフラッグシップモデルClaudeに「隠れたガードレール」が存在するとして、開発者コミュニティから激しい批判が巻き起こっている。安全対策の必要性を主張する声がある一方、競合他社への隠蔽的な障壁と見る声もあり、透明性をめぐる
OpenAIがChatGPTの記憶コントロール新機能を発表、ユーザープライバシー保護をさらに強化
OpenAIは6月12日、ChatGPTの記憶機能に重要なアップデートを発表し、特定の記憶サマリーの削除とワンクリックで記憶をオフにするオプションを追加した。これによりユーザーの個人データに対するコントロール権がさらに強化された。
アップルがWWDCでXcode 27を発表:デュアルエンジンAIコーディングシステムが開発者の新時代を牽引
アップルはWWDC 2026の閉幕に際してXcode 27を正式発表し、デュアルエンジンAIコーディングシステムを導入した。本アップデートは、AI支援開発ツール分野におけるアップルの重大な躍進を示すものである。
設立からわずか数ヶ月のMetaのAI部門、エンジニアたちに「魂を砕く強制収容所」と呼ばれる
TechCrunchの独占報道によると、Metaの新設AI部門で深刻な文化的危機が発生している。6500人のエンジニアが極限的な労働環境に置かれており、同部門を「精神的に圧迫する強制収容所(soul-crushing gulag)」と表現す
ザッカーバーグのAIハッカソン、Meta社員から集団的な反発を受ける
MetaのCEOマーク・ザッカーバーグが提案した全社規模のAIハッカソン計画が、社内従業員から強い反発を招いた。大規模なリストラや組織再編を経て変化した企業文化の中、従業員たちは社内フォーラムで計画への疑問と嘲笑を相次いで投稿している。
Googleが中国AI詐欺集団を提訴:2週間で250万件の詐欺SMSを送信
Googleは米カリフォルニア州連邦裁判所に「Outsider Enterprise」と名乗る中国のサイバー犯罪組織を提訴した。同組織はAI技術を駆使してわずか2週間で250万件の詐欺SMSを送信し、数十万人に上る被害者を出したとされる。
レビュー
すべて見る →Gemini 2.5 Pro の素材制約スコアが15.2点急落、コード実行は45点急騰
YZ Index 2026年6月のSmokeテストにおいて、Gemini 2.5 Pro の素材制約スコアが前日比15.2点下落した一方、コード実行スコアは満点の100点に達し、メインボードの総合スコアは89.79点に上昇した。小サンプルに
Claude Opus 4.7の材料制約スコアが16.5点急落――メインランキングは96.83から90.78へ
YZ Index 2026年6月のSmokeテストにおいて、Claude Opus 4.7の材料制約スコアが96.00点から79.50点へ大幅に低下し、メインランキングも96.83点から90.78点へ下落した。単日データのみのため断定は早計
素材制約スコアが一斉に20点急落、Claude Opus 4.7が90.78点で首位を守る
Winzhengが公開したYZ Index 2026年6月13日のSmoke軽量評価で、Claude Opus 4.7がコード実行100点・素材制約79.5点を記録し、総合スコア90.78点で首位を獲得した。一方、複数モデルで素材制約スコア
WDCD コンプライアンス
#1
GPT-5.5
88.3
#2
Gemini 3.1 Pro
87.5
#3
Claude Sonnet 4.6
83.3
#4
DeepSeek V4 Pro
82.5
#5
Grok 4
81.7
#6
Qwen3 Max
81.7
#7
文心一言 4.5
77.5
守約ランキング全体を見る →
Research Lab
指示の劣化を測定:3ラウンドの圧力でLLMのコンプライアンスは95.8%から68.3%に低下
大規模言語モデルは制約を「受け入れる」ことは得意だが、「維持する」ことは苦手であることが明らかになった。Winzhengの最新ベンチマーク「WDCD Run #164」では、11のフロンティアモデルが
WDCD Run #164:11のフロンティアモデルにおける平均指示減衰率が-44.3%に到達
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #164において、11のAIモデルを評価した結果、第1ラウンドから第3ラウンドにかけて平均-44.3
WDCD Run #161:11モデル全体の平均指示減衰率が-48.6%、GPT-5.5が89.2ポイントでトップ
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #161では、11モデルを対象に評価を実施した結果、Round 1からRound 3にかけての平均コ