赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1
·
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1
·
最新ニュース
すべてのニュースを見る →AIモデルアグリゲーションプラットフォームOpenRouter、評価額13億ドル突破
AIモデルアグリゲーションプラットフォームOpenRouterが1.13億ドルのシリーズB資金調達を完了し、評価額が13億ドルに達した。マルチモデル協調の需要急増を背景に、半年で利用量が5倍に成長している。
オープンソースパッケージStarletteに「BadHost」脆弱性発見、数百万のAIエージェントが危機に
Python製オープンソースフレームワークStarletteに高危険度の「BadHost」脆弱性が発見され、これに依存する数百万のAIエージェント、APIサービス、Webアプリケーションが影響を受けている。攻撃者はHostヘッダーを偽造する
インドのギグエコノミー:世界中のロボットを訓練する新たな分野となるか?
米国の研究者が設立したスタートアップHuman Archiveが、インドのギグワーカーにカメラやセンサーを装着させ、ロボット訓練用の実世界の物理動作データを収集する革新的なモデルを推進している。低コストで多様な実データを得る一方、プライバシ
3Dプリント人型ロボット脚:2500ドルで実験を自由に走らせる
Hugging Faceが2500ドルの二足歩行ロボットプロジェクト「Bipod」を発表。3Dプリントによる人型脚部構造を採用し、完全オープンソースで提供することで、ロボット研究の敷居を大幅に下げることを目指す。
FBI捜査官:AIポルノアカウントの追跡はこんなにも簡単
米FBI捜査官が法廷証言で、Instagramに保存された1つの投稿だけを手がかりに、同意なきAIポルノ動画の制作・拡散容疑者を特定した経緯を詳述。デジタル時代におけるプライバシー危機とAI悪用への懸念が広がっている。
TechCrunch Disrupt 2026早割チケット5月29日締切、最大410ドル割引
TechCrunch Disrupt 2026の早割チケットが太平洋時間5月29日23:59に締切を迎え、その後はチケット価格が最大410ドル値上げされる。スタートアップ、投資家、技術関係者にとって、この数日間が最もコストパフォーマンスの高
AIエージェント時代、組織設計の再構築が急務
AIエージェント(Agentic AI)が企業向けアプリケーションに急速に浸透する中、85%の組織がエージェント駆動型運営への移行を望むものの、76%が現状のプロセスやインフラでは支えきれないと認めている。技術導入よりも組織設計の再構築が真
ユニバーサルミュージックがTikTokと契約更新、AIによる音楽著作権侵害に共同で対抗
ユニバーサルミュージックグループとTikTokが契約更新を発表し、無許可のAI生成音楽への対策を重点課題として明確化。AIコンテンツ識別システムの強化やデジタル透かしの導入など、具体的な対応条項が盛り込まれた。
AIのファクトチェック誤り率は想像以上に高い
WIREDの専門ファクトチェッカーMeghan Herbstは実験により、AIによるファクトチェックの誤り率が一般認知よりはるかに高いことを発見した。AIは出所や引用を捏造するだけでなく、単純な統計数字でも系統的な偏りを示す。
AI雇用恐慌を打ち破る:現実検証と技術不安
MIT Technology Reviewの最新報道は、AIが大規模にホワイトカラーの職を奪うという論調に対し、実証データに基づく冷静な分析を提示している。本記事では、データの真相、構造的不安、歴史的教訓を踏まえ、AI脅威論への理性的アプロ
自律型AIシステムが物理世界で既存のガバナンスフレームワークに挑戦
自律型AIシステムが物理世界に進出するにつれ、既存のAIガバナンスフレームワークの限界が浮き彫りとなり、新たな「具身化」された規制アプローチが求められている。
AI業界に入りたい?まずはカントを読んでみては
AI技術が急速に進化する中、OpenAIやDeepMindなど世界のトップAI研究機関が哲学者を大量採用し、倫理的境界や道徳的判断などの課題に取り組ませている。哲学が AI のコア領域に入るための新たな「入場券」となりつつある。
レビュー
すべてのレビューを見る →Claude Sonnet 4.6の素材制約が22ポイント急落、コード実行は100点満点に到達
Claude Sonnet 4.6は本日のSmoke評価で素材制約スコアが96.50から74.50へ急落し、一方でコード実行は満点に到達。アライメント調整の代償が現れた可能性が指摘されている。
Claude Opus 4.7メインランキング8.2点急落、材料制約が単日で18.3点崩壊
Claude Opus 4.7が本日のSmoke評価でメインランキング88.53点と前日比8.2点下落し、材料制約次元で単日18.3点という異常な下落を記録した。Anthropic社のAPI安全戦略の調整が影響している可能性がある。
Gemini 2.5 Proがメインランキングで35.6点急落、DeepSeek V4 ProがSmoke評価でトップに
Smoke軽量評価の最新データで、Gemini 2.5 Proが実行能力の系統的失効により大幅下落。DeepSeek V4 Proが95.28点でトップに立ち、各モデルの素材制約スコアが集団的に下落する傾向が顕著となった。
WDCD コンプライアンス
#1
Claude Opus 4.7
65
#2
Claude Sonnet 4.6
62.5
#3
豆包 Pro
60
#4
Gemini 2.5 Pro
57.5
#5
Qwen3 Max
57.5
#6
GPT-o3
55
#7
文心一言 4.5
52.5
守約ランキング全体を見る →
Research Lab
3大モデル翻訳対決:第22週品質評価、gpt-o3 が8.3点でリード
今週の237件の翻訳タスクを3つのモデルが完了し、3篇をサンプリングしたマルチモデル盲評の結果、gpt-o3が平均8.3/10で総合最優秀となった。
WDCD Run #125:平均指示減衰率63.6%に達する、Claude Opus 4.7が30%減のみでトップ
Winzheng動的文脈減衰(WDCD)ベンチマークのRun #125において、11モデルの平均指示減衰率は63.6%に達した。Claude Opus 4.7が30%減で最高の減衰耐性を示し、Deep
3大モデル翻訳対決:第21週品質評価、gpt-o3が8.7点でリード
今週は3つのモデルが242件の翻訳タスクを完了し、抽出された3件のブラインド評価で、gpt-o3が平均8.7/10点で総合最優秀となりました。