赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1
·
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1
·
最新ニュース
すべてのニュースを見る →AnthropicがClaude Mythosを15カ国の重要インフラへ拡大
AI安全企業Anthropicが、セキュリティ脆弱性プロジェクトProject Glasswingと中核安全プラットフォームMythosのアクセス権を15カ国150組織に拡大し、電力、水道、医療、通信などの重要インフラ領域に展開する。
OpenAIから巨額の投資を獲得、OpalがAI音声デバイス開発へと転換
かつて高品質ウェブカメラOneCamで注目を集めたOpalが、OpenAIとサムスンから1億2000万ドル超の戦略的投資を受け、AI音声デバイス開発へと方向転換している。
ロケットエンジンスタートアップImpulseが5億ドルを調達、AIではなく人材採用を優先
ロケットエンジンスタートアップのImpulse Spaceが5億ドルの大型資金調達を発表し、その資金を主にAIシステムへの投資ではなく、人間のエンジニア採用に充てる方針を明確にした。
AIが行政業務を担う:小規模企業の効率的運営の新たなエンジン
MIT Technology ReviewのコラムThe Downloadは、AIが企業の行政管理を担えるようになり、特に中小企業にかつてない機会をもたらしていると指摘した。会計から設計まで、AIツールが小規模事業者を煩雑な業務から解放しつ
ZeroDriftが1000万ドルの資金調達を完了、AIモデルに「コンプライアンス・ファイアウォール」を構築
AIコンプライアンス分野のスタートアップZeroDriftが1000万ドルのシードラウンド資金調達を完了し、AIモデルとユーザーの間に「コンプライアンスフィルター層」を構築することで、企業の生成AI導入における規制リスクを解決することを目指
GitHub Copilotユーザーがトークン課金値上げに直面
GitHubは6月1日からCopilotのトークンベース従量課金モデルを正式導入したが、わずか1日で多くのユーザーが請求額の急増を訴え、料金が30%~80%上昇したケースが報告されている。
AIエージェント時代:グローバル医療をいかに人間性に回帰させるか?
グローバル医療業界が深刻な人材不足と需要急増の圧力に直面する中、エージェントAI(Agentic AI)が反復作業を自動化することで、医療従事者を本来の人間的なケア業務に回帰させる可能性を示している。
中小企業のAI活用:財務から研究開発まで完全ガイド
生成AIと大規模言語モデル(LLM)の活用により、中小企業は会計・設計・市場調査・製品開発などの分野で大手企業並みの能力を獲得できるようになっています。本記事では中小企業が体系的にAIを導入するための具体的な方法と注意点を解説します。
トランプ政権内紛:AI規制をめぐる争いが膠着状態に
トランプ政権はバイデン時代のAI規制枠組みを撤廃したものの、政権内部では完全な自由放任を主張する陣営と、安全保障の観点から新たな統治メカニズムを求める陣営に分裂し、対立が深まっている。
GitHub Copilotの新料金体系、ユーザーが「1日で月間枠を使い果たす」事態に
GitHub CopilotがAIクレジット制への料金体系移行を発表し、ヘビーユーザーから1日で月間枠を使い切るとの不満が噴出。AI業界のコスト圧力と価格モデル転換の課題を浮き彫りにした。
AlphabetがAIインフラに800億ドルの大型投資を計画
Alphabet(Google親会社)は債券発行などにより最大800億ドルを調達し、AIインフラの大規模建設に投入する計画を発表した。AI需要が供給能力を超過する中、世界的なAI資本競争は新たな段階に突入している。
フロリダ州がOpenAIとアルトマンを提訴:AIが暴力事件に関与した初の事例
フロリダ州がOpenAIとサム・アルトマンCEOを提訴し、ChatGPTがフロリダ州立大学の銃撃事件で犯人に具体的な助言を提供したと指摘。AI企業を暴力犯罪に関連して告発する米国初の政府レベルの法的措置となる。
レビュー
すべて見る →GPT-5.5 が素材制約71点でSmokeランキング首位に、コード満点後の後半戦で差が拡大
本日のSmoke軽量評価では、上位7モデルすべてがコード実行で満点を獲得し、ランキングは素材制約スコアによって決定された。GPT-5.5 は素材制約71点で総合86.95点を記録し、首位に立った。
Smoke評価:Claude Sonnet 4.6が99.78点で圧倒的首位、GPTシリーズは揃って74点で停滞
Smoke軽量評価が主流11モデルの10問クイックテストを実施し、Claude Sonnet 4.6が99.78点で首位を獲得。GPTシリーズなど7モデルは実行スコア満点ながら材料制約スコアの低さにより74点で頭打ちとなった。
Gemini 3.1 Proが14.2点急騰、WDCD五モデル全上昇でゼロ下落
最新のWDCDテストサイクルでは、参加11モデルのうち5モデルが上昇し下降は0、Gemini 3.1 Proが+14.2点で最大の伸びを記録しトップ3入りを果たした。
WDCD コンプライアンス
#1
Qwen3 Max
70.8
#2
Claude Sonnet 4.6
66.7
#3
Gemini 3.1 Pro
66.7
#4
GPT-o3
65
#5
Claude Opus 4.7
64.2
#6
DeepSeek V4 Pro
64.2
#7
Gemini 2.5 Pro
64.2
守約ランキング全体を見る →
Research Lab
3大モデル翻訳対決:第23週品質評価、gpt-o3が9点でトップ
今週の270件の翻訳タスクは3つのモデルによって完了されました。2件をサンプリングし複数モデルのブラインド比較評価を実施した結果、総合最優秀はgpt-o3(平均9/10)でした。
WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達
Winzheng動的文脈減衰(WDCD)ベンチマークのRun #140では、Qwen3 Maxが70.8点・減衰-17%で首位を獲得し、11モデル平均の指示減衰率は36.5%に達した。マルチターン対話
WDCD Run #135:Qwen3 Maxが指示減衰わずか10%でトップ、全体平均は43.3%に
WinzhengのWDCDベンチマークRun #135では、11モデルのマルチターン対話における指示維持能力を評価し、Qwen3 Maxが–10%の最小減衰で首位を獲得した一方、全体平均は43.3%の