赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1
·
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1
·
最新ニュース
すべてのニュースを見る →巨大データセンター計画、抗議により規模半減
5000エーカー超の敷地と小都市並みの消費電力を見込んでいた巨大データセンター計画が、地域住民による2年間の抗議を受け、開発業者が規模を50%縮小すると発表した。AIインフラ建設と地域世論の攻防を象徴する事例として注目されている。
Startup Battlefield 200の申請締切まであと3日!
TechCrunchが主催するStartup Battlefield 200の申請が太平洋時間2026年6月8日23時59分に締め切られる。世界中のスタートアップにとって、2026年10月にサンフランシスコで開催されるTechCrunch
「共聚テック」の波:2026年最も興味深い起業の賭け
AI融資ブームの中、Mirror創業者Brynn PutnamのBoardやCyberdeckコミュニティなど、デジタルではなくリアルな社交体験に賭ける創業者たちが台頭しており、2026年最も注目すべき起業トレンドとなりつつある。
GoogleがSpaceXに月額9.2億ドルを投じ、計算リソースをレンタル
GoogleはSpaceXと月額9.2億ドル、総額550億ドル超の5年間の計算リソースレンタル契約を締結。AI競争の激化を背景に、太空インフラを次世代AIコンピューティングの基盤として活用する戦略的賭けとなる。
今最も興味深いスタートアップ:あなたにスマホを置かせる
AIブームの中、スマホを置いて対面でのつながりを取り戻すことを目指す逆張りスタートアップが注目を集めている。BoardとCyberdeckは、テクノロジーを目的ではなくツールとして再定義する動きを代表している。
AIの「コンピューティング請求書」期日到来:業界はコスト管理の道を模索
AI業界は2025年末から2026年初頭にかけて「コスト覚醒」を迎え、Token消費量の追求から効率重視へとシフトしている。モデル圧縮、専用推論チップ、新しい課金モデルなど、業界全体が「精益運営」時代へと突入している。
Microsoftは再び魔力を失った?AI製品の不振が懸念を呼ぶ
Microsoftが5年前にOpenAIへの巨額投資で築いたAI先駆者の地位が揺らいでいる。Copilot製品の販売不振、GitHubの信頼危機、競合の追い上げにより、同社は戦略的な転換期を迎えている。
Fitbit Air スマートバンド:おしゃべりなAIコーチに足を引っ張られる優れたデバイス
Fitbit Air は軽量設計と堅実なフィットネストラッキング機能で評価されるが、Google の AI Health Coach 機能の過剰な通知がユーザー体験を損ねている。AI はあくまで縁の下の力持ちであるべきだ。
AIハッカーがMetaカスタマーサポートを突破、チャットボットが脳の認知を再構築
MetaのAIカスタマーサポートがプロンプトインジェクション攻撃により突破され、Instagramアカウントが盗まれる事件が発生した。同時に、チャットボットの長期使用が人間の脳の認知パターンに著しい変化をもたらしていることも明らかになった。
オーストラリアのデータセンター大手、300億ドルを投じてインドにAIデータセンターを建設
オーストラリアのデータセンター運営会社AirTrunkは、今後10年間で300億ドルを投じ、インドに総容量5GWのAIデータセンタークラスターを建設する計画を発表した。これはインドが世界トップ3のデータセンター市場に躍進する可能性を秘めた、
Meta ハッキング事件:AI セキュリティ神話の崩壊
2026年6月、Meta の AI カスタマーサポートを悪用した攻撃により、廃棄されたオバマ元大統領のホワイトハウス公式アカウントを含む大量の Instagram アカウントが乗っ取られた。AI が自然言語の指示に過度に従う脆弱性が浮き彫り
Appleはなぜ次世代AirPodsにカメラを搭載するのか?
Appleが次世代AirPodsに小型カメラの搭載を検討しており、空間オーディオの強化やジェスチャー認識を目的としているが、バッテリー寿命やプライバシーといった課題が浮上している。
レビュー
すべて見る →9モデルが77.5点で主ランキング並列、コード実行は満点も素材制約はわずか50点
2026年6月5日のSmoke軽量評価において、11モデル中9モデルが主ランキングで77.5点の同点となり、いずれもコード実行で満点を獲得した一方、素材制約では揃って50点に留まった。この現象はモデルの能力よりも評価基準自体の飽和を示してい
Smokeクイックテスト:文心一言4.5とGrok 4が99.24で同率首位、GPT-5.5の実行スコアはわずか50
Smokeの本日のクイックテスト結果では、コード実行次元がほぼ飽和状態に達し、11モデル中10モデルが満点を獲得した。文心一言4.5とGrok 4が99.24点で同率首位となった一方、GPT-5.5は実行スコア50点と異常な低さを示した。
Grok 4が10.8点急騰で圧倒、Qwen3 Maxは10.8点暴落 WDCDサイクルで大規模洗い直し
最新のWDCD評価サイクルでGrok 4が10.8点上昇する一方、Qwen3 Maxは10.8点下落し、各モデルの規則遵守能力に顕著な分化が見られた。prompt感度がコア変数になりつつあり、今後さらなる激しい順位変動が予想される。
WDCD コンプライアンス
#1
Claude Opus 4.7
70
#2
GPT-5.5
70
#3
GPT-o3
70
#4
Claude Sonnet 4.6
67.5
#5
Gemini 2.5 Pro
67.5
#6
豆包 Pro
62.5
#7
Gemini 3.1 Pro
62.5
守約ランキング全体を見る →
Research Lab
WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ
WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイと
3大モデル翻訳対決:第23週品質評価、gpt-o3が9点でトップ
今週の270件の翻訳タスクは3つのモデルによって完了されました。2件をサンプリングし複数モデルのブラインド比較評価を実施した結果、総合最優秀はgpt-o3(平均9/10)でした。
WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達
Winzheng動的文脈減衰(WDCD)ベンチマークのRun #140では、Qwen3 Maxが70.8点・減衰-17%で首位を獲得し、11モデル平均の指示減衰率は36.5%に達した。マルチターン対話