赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1
·
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1
·
最新ニュース
すべてのニュースを見る →AIなしではプログラミング不可?専門家がAIへの依存が自らを蝕む可能性を警告
シリコンバレーでAIコーディングアシスタントへの依存が深まる中、研究者たちはコード品質の低下、開発者スキルの退化、セキュリティリスクの増加を警告している。効率と基本能力のバランスが今後の課題となっている。
Meta社員のマウス追跡ツールが暴露:リモートワーク監視とEUプライバシー規制の衝突
ソーシャルメディア大手のMetaが社内でマウス追跡ツールを導入し、社員の操作行動を監視していたことが暴露され、EUのGDPRに抵触する可能性が指摘されている。この事件はリモートワーク時代における効率性とプライバシー保護のバランスをめぐる議論
Claudeのポートフォリオ、ServiceNowの反発に賭ける:AIエージェントはインフラの勝者か、それとも市場の幻想か?
Claudeがシミュレーションポートフォリオの中でServiceNowを買い、AIエージェントインフラの受益者だと判断したことが業界の注目を集めた。この見解の公表後、ServiceNowの株価は反発し、AIモデルの投資判断能力をめぐる議論を
OppoがX-OmniClawフレームワークをオープンソース化:デバイス側AIエージェントがプライバシーとインテリジェント体験をどう再構築するか
Oppoが開発したAndroid向けAIエージェントフレームワーク「X-OmniClaw」をオープンソース化。デバイス側でのローカル処理とマルチモーダル対応により、プライバシー保護とインテリジェント機能の両立を実現する。
ウォーレン上院議員のAI課税提案がシリコンバレーと政界で激論を呼ぶ:年間4兆ドルの税収は実現可能か?
米上院議員エリザベス・ウォーレンが提案したAI業界への課税案は、年間4兆ドルの税収を見込み社会プロジェクトの財源とすることを目指しているが、シリコンバレーと政界で激しい議論を引き起こしている。
NVIDIAとDellが提携してAI Factoryを発表:エンタープライズ向けagentic AIとロボティクス導入に新たなブレークスルー
NVIDIAとDellがTechWorldイベントでAI Factoryソリューションを共同発表し、企業のオンプレミスagentic AIシステム導入と物理ロボットの統合活用を支援する。製造、物流などの分野で実用化が進んでおり、AI技術のエ
GoogleのAgentic AI Searchが検索分野を再構築:Geminiマルチモーダルエージェント技術のブレークスルーが業界の注目を集める
Googleは正式にAgentic AI Search戦略を推進し、インテリジェント情報エージェントとマルチモーダル処理能力を導入。Geminiシリーズモデルの最新進展を披露し、検索技術が受動的応答から能動的エージェントへ転換する重要な一歩
Microsoft Copilotスーパーアプリが浮上:AI統一ワークスペースが企業自動化の構図を再構築する可能性
Microsoftは分散していたAI機能を統合し、Copilotをスーパーアプリ化する取り組みを加速している。コーディング支援、リアルタイムチャット、企業データ分析などを一つのワークスペースに集約し、企業自動化の構図を一新する可能性がある。
Anthropic、Claude Opus 4.8 をリリース、エンタープライズ向け Agentic AI アプリケーションが新たなブレークスルーへ
Anthropic は Claude Opus 4.8 をリリースし、会話中に動的にシステム指示を追加する機能を導入することで、キャッシュ機構と API 呼び出し性能を大幅に最適化した。エンタープライズ用途における柔軟性と効率性が大きく向上
NVIDIAの200億ドル買収騒動を受け、AIチップの新星Groqが新たに6.5億ドルの資金調達
AIチップスタートアップのGroqが、ハードウェア中心からAI推論サービスへの戦略転換を支援するため、内部調達を通じて6.5億ドルの資金調達を進めている。NVIDIAによる「非買収型採用」取引の影響下で、業界の注目を集めている。
AmazonがAIで「Good Advice Cupcake」を復活させ、原作者の怒りを買う
テックジャイアントAmazonは人気ウェブコミック『Good Advice Cupcake』を基にしたAIアニメTVシリーズを発表したが、原作者Loryn Brantzは事前通知も許可もなく行われたとして激しく抗議している。この事件はAI時
無料家事サービスの裏側:あなたの家事データでロボットを訓練する
米国のスタートアップ「SmartHome」が、ヘッドマウントカメラ装着を条件に無料の家事清掃サービスを提供し、収集したデータで家庭用ロボットを訓練している。プライバシーをめぐる懸念とAI業界のデータ需要との矛盾が浮き彫りとなっている。
レビュー
すべてのレビューを見る →文心一言4.5のコード実行が100から50へ急落、メインランキングで1日に11ポイント低下
文心一言4.5は本日のSmoke快速テストにおいて、メインランキングが74点から62.96点へと11ポイント下落し、コード実行スコアは100点から50点へ崩壊した。単日の変動か、それとも実質的な退化か、引き続き観察が必要である。
文心一言の実行スコア50に暴落、Smoke軽量評価で本日メインランキングが大幅再編
文心一言4.5の実行スコアが昨日の100から50へ半減し、メインランキングが11ポイント下落して62.96となった。GPT-o3とGPT-5.5は同時に回復し、Claude双璧が引き続き首位を独占している。
DeepSeek V4 Pro Smokeテスト、メインボードで48.7点急騰も工程判断は28.4点暴落
DeepSeek V4 Proが本日のSmoke評価で極端に分化した結果を示し、メインボードは87.99点まで急騰した一方、工程判断は10.00点に半減した。コード実行は満点を獲得したが、安定性とシステム的思考に明らかな短所が露呈している。
WDCD コンプライアンス
#1
Qwen3 Max
72.5
#2
Claude Sonnet 4.6
65
#3
DeepSeek V4 Pro
62.5
#4
Gemini 2.5 Pro
60
#5
GPT-5.5
60
#6
Claude Opus 4.7
57.5
#7
GPT-o3
57.5
守約ランキング全体を見る →
Research Lab
WDCD Run #135:Qwen3 Maxが指示減衰わずか10%でトップ、全体平均は43.3%に
WinzhengのWDCDベンチマークRun #135では、11モデルのマルチターン対話における指示維持能力を評価し、Qwen3 Maxが–10%の最小減衰で首位を獲得した一方、全体平均は43.3%の
3大モデル翻訳対決:第22週品質評価、gpt-o3 が8.3点でリード
今週の237件の翻訳タスクを3つのモデルが完了し、3篇をサンプリングしたマルチモデル盲評の結果、gpt-o3が平均8.3/10で総合最優秀となった。
WDCD Run #125:平均指示減衰率63.6%に達する、Claude Opus 4.7が30%減のみでトップ
Winzheng動的文脈減衰(WDCD)ベンチマークのRun #125において、11モデルの平均指示減衰率は63.6%に達した。Claude Opus 4.7が30%減で最高の減衰耐性を示し、Deep