赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1
·
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1
·
最新ニュース
すべてのニュースを見る →Microsoft Scout:常時オンラインのAI同僚
Microsoftが Teams 向けに開発中の新 AI エージェント「Scout」は、OpenClaw スタイルのアーキテクチャを採用し、チームの一員として自律的に業務を支援する「永続オンライン同僚」として位置付けられている。
GoogleがFake Call Detectionを発表、AIディープフェイクによるなりすまし詐欺を阻止
Googleは機械学習で偽造番号やAI音声クローンによるなりすまし詐欺を識別・遮断する「Fake Call Detection」機能を発表した。デバイス端末でのローカル解析によりプライバシーを保護しつつ、200ミリ秒以下の低遅延で検出を実現
Androidの新機能:詐欺電話となりすまし詐欺をリアルタイム識別
Googleが2026年6月のAndroid機能アップデートで、デバイス側AIモデルを活用した通話詐欺リアルタイム検出機能を発表。プライバシーを保護しながら、なりすましや音声クローンなどの詐欺パターンを識別し、ユーザーに警告する。
MicrosoftがScoutを発表:OpenClawにインスパイアされたインテリジェントパーソナルアシスタント
Microsoftは2026年のBuild開発者会議で、OpenClawにインスパイアされた新AIアシスタント「Scout」を発表した。Microsoft 365に深く統合され、従来のCopilotとは異なり、能動的かつ自律的なタスク実行を
AnthropicがIPO申請書類を提出、AIがエンタープライズ向け実用ツールへと成熟
AnthropicがSECにIPO申請を正式提出し、生成AIが研究主導の初期段階からエンタープライズ向け実用ツールへと移行する重要なマイルストーンとなった。標準化された価格設定、長期サポート版モデル、ガバナンス・コンプライアンス体制により、
スコセッシ、ハリウッドAIの最新支持者に:絵コンテのみに使用
83歳の名匠マーティン・スコセッシ監督が、AIツールを映画の絵コンテ作成に活用していることを業界セミナーで明かした。脚本執筆や演技、最終編集には一切使用せず、前期ビジュアル化の段階に限定するという姿勢が、ハリウッドのAI論争に新たな視点を投
数学者が警告:AIが数学という職業を侵食、国際連盟が声明
国際数学連盟(IMU)が、AI技術と科技産業による数学界への侵食を警告する声明を支持。AIが数学者の仕事を代替し、巨額な報酬で学界の頂点的人材を引き抜くことで、学術数学研究が人材枯渇と方向性の偏向という二重の危機に陥っていると指摘した。
マイクロソフトがAI行動テストフレームワークをオープンソース化:一文で評価を生成可能
マイクロソフトは6月3日、自然言語の記述だけで評価テストを自動生成できるオープンソースフレームワーク「ASSERT」を公開した。AIモデルの回帰テストにおける記述駆動型の評価手法を実現し、評価設計のコスト削減を目指す。
Uber従業員のAI予算が4カ月で枯渇、会社が緊急に上限設定
Uberは従業員のAIツール利用支出に上限を設けることを発表した。同社が従業員に「できる限りAIを使うように」と奨励してからわずか4カ月で、AI関連費用が急速に膨らみ年度予算を大幅に超過したためである。
OpenAIがCodexプラグイン6種を発表、ホワイトカラー業務の自動化を狙う
OpenAIは2026年6月3日、データ分析、クリエイティブ制作、営業、製品デザイン、株式投資、投資銀行業務の6つの専門分野を対象とした、ホワイトカラー業務向けのCodexプラグインを正式に発表した。各プラグインは特定の職種向けに指示、コン
トランプ氏が縮小版AI大統領令に署名:業界の反対を受け自主審査に変更
2026年6月3日、トランプ大統領は修正版のAI規制大統領令に署名し、当初予定されていた先進AIモデルに対する強制的な事前審査を、完全に自主的なものへと変更した。この動きは、ホワイトハウスが科学技術業界に対して行った大きな譲歩であり、米国連
Amazon Ringの顔認識機能が集団訴訟に直面
バージニア州の住民が、Amazon傘下のRingの「Familiar Faces(熟悉面孔)」機能がユーザーの明示的な同意なしに顔認証の生体情報を収集・保存しているとして、シアトル連邦裁判所に集団訴訟を提起した。2023年のFTC和解以降、
レビュー
すべて見る →GPT-5.5 が素材制約71点でSmokeランキング首位に、コード満点後の後半戦で差が拡大
本日のSmoke軽量評価では、上位7モデルすべてがコード実行で満点を獲得し、ランキングは素材制約スコアによって決定された。GPT-5.5 は素材制約71点で総合86.95点を記録し、首位に立った。
Smoke評価:Claude Sonnet 4.6が99.78点で圧倒的首位、GPTシリーズは揃って74点で停滞
Smoke軽量評価が主流11モデルの10問クイックテストを実施し、Claude Sonnet 4.6が99.78点で首位を獲得。GPTシリーズなど7モデルは実行スコア満点ながら材料制約スコアの低さにより74点で頭打ちとなった。
Gemini 3.1 Proが14.2点急騰、WDCD五モデル全上昇でゼロ下落
最新のWDCDテストサイクルでは、参加11モデルのうち5モデルが上昇し下降は0、Gemini 3.1 Proが+14.2点で最大の伸びを記録しトップ3入りを果たした。
WDCD コンプライアンス
#1
Qwen3 Max
70.8
#2
Claude Sonnet 4.6
66.7
#3
Gemini 3.1 Pro
66.7
#4
GPT-o3
65
#5
Claude Opus 4.7
64.2
#6
DeepSeek V4 Pro
64.2
#7
Gemini 2.5 Pro
64.2
守約ランキング全体を見る →
Research Lab
3大モデル翻訳対決:第23週品質評価、gpt-o3が9点でトップ
今週の270件の翻訳タスクは3つのモデルによって完了されました。2件をサンプリングし複数モデルのブラインド比較評価を実施した結果、総合最優秀はgpt-o3(平均9/10)でした。
WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達
Winzheng動的文脈減衰(WDCD)ベンチマークのRun #140では、Qwen3 Maxが70.8点・減衰-17%で首位を獲得し、11モデル平均の指示減衰率は36.5%に達した。マルチターン対話
WDCD Run #135:Qwen3 Maxが指示減衰わずか10%でトップ、全体平均は43.3%に
WinzhengのWDCDベンチマークRun #135では、11モデルのマルチターン対話における指示維持能力を評価し、Qwen3 Maxが–10%の最小減衰で首位を獲得した一方、全体平均は43.3%の