赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
DeepSeek V4 Pro 92.3
·
#2
Claude Opus 4.7 90.6
▼4.7
·
#3
GPT-o3 90.5
▲0.9
·
#4
Grok 4 89.9
▲1.9
·
#5
GPT-5.5 88.3
▼4.2
·
#6
豆包 Pro 88.1
▲0.5
·
#7
Qwen3 Max 87.8
▼5.3
·
#8
Gemini 2.5 Pro 82.2
▲6.3
·
#9
Claude Sonnet 4.6 81.9
▼9.3
·
#10
文心一言 4.5 81.3
▲4.2
·
#11
Gemini 3.1 Pro 77.2
▲0.9
·
▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6
·
#1
DeepSeek V4 Pro 92.3
·
#2
Claude Opus 4.7 90.6
▼4.7
·
#3
GPT-o3 90.5
▲0.9
·
#4
Grok 4 89.9
▲1.9
·
#5
GPT-5.5 88.3
▼4.2
·
#6
豆包 Pro 88.1
▲0.5
·
#7
Qwen3 Max 87.8
▼5.3
·
#8
Gemini 2.5 Pro 82.2
▲6.3
·
#9
Claude Sonnet 4.6 81.9
▼9.3
·
#10
文心一言 4.5 81.3
▲4.2
·
#11
Gemini 3.1 Pro 77.2
▲0.9
·
▲ Gemini 2.5 Pro +11.6 · ▼ Claude Sonnet 4.6 -15.6
·
最新ニュース
すべてのニュースを見る →Figma大型アップデート:コードレイヤー、アニメーション対応、AI機能が一斉公開
Figmaが2026年6月25日に公開した新バージョンでは、デザインと開発を直接つなぐ「コードレイヤー」機能、CSS アニメーションおよびWebGLシェーダーのネイティブサポート、そして自然言語でプラグインを自動生成するAI機能が主な目玉と
ヒューマノイドロボット企業Agility Robotics、SPAC上場を計画——評価額25億ドル
2015年にオレゴン州立大学からスピンオフしたヒューマノイドロボット企業Agility Roboticsが、SPAC合併を通じた株式市場上場を計画しており、取引評価額は25億ドル、約6億2000万ドルの純収益調達を見込んでいる。
Facebookがクリエイター向けAIコンパニオンアプリを発表:スマートアシスタントを内蔵
MetaのFacebookが2026年6月25日、クリエイター向けAIコンパニオンアプリ「Creator Companion」をひっそりとリリースし、一部の選ばれたクリエイターとの内部テストを開始した。同アプリにはAIクリエイターアシスタン
OpenAIが博通と組み、初のカスタムチップ「Jalapeño」を発表
OpenAIは半導体大手Broadcomと共同開発した初のカスタム推論プロセッサ「Jalapeño」を正式発表した。このチップはNVIDIA H100と比較して推論効率が2.5倍、レイテンシが40%低減されており、OpenAIのハードウェア
ホワイトハウスが人事交代:Anthropic CEOのAmodeiが「変人」と称され交代させられる
ホワイトハウスとAI企業の極秘会議において、Anthropic CEOのDario Amodeiがホワイトハウス高官から「変人(weirdo)」と呼ばれ、その後共同創業者のTom Brownが後続の重要会議にAnthropicの代表として出
極端な熱波がヨーロッパを席巻、複数の発電所が相次ぎ停止を余儀なくされる
記録的な熱波がヨーロッパを襲い、冷却水温の上昇により原子力・水力発電所が出力制限や停止を強いられている。電力需要が急増する中、エネルギーインフラの脆弱性が改めて浮き彫りとなった。
AIネットワークデータ基盤インフラ層の台頭
AIの急速な発展に伴い、非構造化データとAIモデルの間のギャップを埋める新たなデータ基盤インフラ層が登場しつつある。この層は、AIアプリケーションの基盤となる「データ抽象層」として、インターネットのデータ供給方式を根本から再構築しようとして
Stripe、Anthropic、OpenAIが連携して呼吸器感染症に挑む
決済大手StripeがAI企業のAnthropicおよびOpenAIと共同で「呼吸防護計画」を立ち上げ、AIを活用した広域呼吸器感染予防薬の開発を目指す。普通の風邪に有効なワクチンや特効薬が存在しない現状を打破しようという試みで、初期資金と
エンジニアリング特集号:人類の英知で世界を再構築する
MIT Technology Reviewの日刊ニュースレター「The Download」が新たな特集号「エンジニアリング特集号」を創刊し、工学が受動的な問題解決を超え、未来を能動的に形成するエンジンへと進化すべきという理念を掲げた。システ
クアルコム、約40億ドルを投じてAIチップスタートアップのModularを買収
クアルコムがAIプログラミング言語「Mojo」で知られるチップソフトウェアスタートアップのModularを約40億ドルで買収することに合意した。この買収はモバイルAIエコシステムにおけるソフトウェア競争力の強化を目的としている。
早期割引終了まであと3日!TechCrunch Founder Summit 2026チケット、最大190ドル節約のチャンス
TechCrunch Founder Summit 2026のアーリーバード価格が6月26日太平洋時間午後11時59分に終了する。期間中に購入すれば最大190ドルの割引が受けられる。
AnthropicがAIアシスタントをSlackチャンネルに直接統合
Anthropicは企業版・チーム版のSlack統合においてClaude Tagのベータ版を発表。ユーザーは共有Slackチャンネルで@Claudeと入力するだけでAIを直接呼び出せるようになり、AIが独立したチャット画面から動的なグループ
レビュー
すべて見る →Qwen3 Max のコード実行スコアが50点急落、メインランキングの低下はわずか1.5点
YZ Index 2026年6月の実測において、Qwen3 Max のコード実行スコアが前日の100.00点から50.00点へと1日で50点急落した。ただし、材料制約スコアの上昇がこれを相殺したため、メインランキングの低下はわずか1.5点に
Claude Opus 4.7 Smokeテスト、主要ランキングで27.5ポイント急落——コード実行スコアが100から50へ直落
YZ Index 2026年6月の11モデル実測において、Claude Opus 4.7 SmokeテストのメインランキングスコアがB100.00点から72.50点へ急落し、コード実行ディメンションが100.00点から50.00点に直落した
4モデルの実行スコアが50に急落、文心一言はメインランキングで34.1点の大幅下落
YZ Index 2026年6月24日のSmoke軽量評価において、文心一言4.5のメインランキングスコアが前日比34.1点急落し64.63点となり、実行ディメンションが100から50に直接低下した。同日、4つのモデルで実行スコアが同時に5
WDCD コンプライアンス
#1
Qwen3 Max
92.5
#2
Gemini 3.1 Pro
87.5
#3
Grok 4
82.5
#4
DeepSeek V4 Pro
80
#5
文心一言 4.5
75
#6
Gemini 2.5 Pro
75
#7
豆包 Pro
72.5
守約ランキング全体を見る →
Research Lab
WDCD Run #196:平均指示崩壊率が-39.9%に達し、Qwen3 Maxが-90%の崩壊を記録しながらもトップを維持
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #196において、評価対象11モデルの平均指示崩壊率が-39.9%に達した。Qwen3 Maxが総合
4大モデル翻訳対決:第26週品質評価、claude-sonnet-4.6 が9点でトップ
今週393件の翻訳タスクを4つのモデルが担当し、3件をサンプリングして複数モデルによるブラインド評価を実施。総合最優秀はclaude-sonnet-4.6(平均スコア9/10)。
WDCD Run #185:11モデルの平均指示遵守率減衰が-57.5%に、Qwen3 Maxが92.5ポイントでトップ
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #185では、11モデルを対象に評価を実施した結果、ラウンド1からラウンド3にかけての平均コミットメ