赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1
·
#1
Gemini 2.5 Pro 79
▲29.7
·
#2
Claude Opus 4.7 78.8
▼3.1
·
#3
豆包 Pro 78.8
▼2.8
·
#4
Grok 4 78.4
▼5.3
·
#5
GPT-5.5 78.2
▼1.2
·
#6
Claude Sonnet 4.6 78
▼3.2
·
#7
Qwen3 Max 77.7
▼3.1
·
#8
Gemini 3.1 Pro 77.1
▲24.3
·
#9
DeepSeek V4 Pro 76.9
▼4.2
·
#10
GPT-o3 75.9
▼2.6
·
#11
文心一言 4.5 61.7
▼12.5
·
▲ Qwen3 Max +66.5 · ▼ DeepSeek V3 -75.1
·
最新ニュース
すべてのニュースを見る →ヒューマノイドロボットがネットで大流行?懐疑論者のためのガイド
ソーシャルメディアで爆発的に拡散するヒューマノイドロボットの動画は、巧妙な編集や遠隔操作によって誇張されており、公衆の技術認識を歪めている。Ars TechnicaのJeremy Hsuは、デモンストレーションと現実の間に存在する大きなギャ
Airbnb CEOがAIラボ設立を発表、大規模モデル展開には慎重姿勢
Airbnb CEOのブライアン・チェスキー氏は、大規模言語モデル(LLM)と人工知能研究に特化した新たなAIラボの設立を発表した。これまで外部LLMプロバイダーとの提携に慎重だった同社が、自社研究開発による独自のAI能力構築へと方針転換を
Anthropic社長、AI投資収益への疑問を意に介さず、IPO目前
人工知能企業Anthropicの上場が目前に迫る中、社長のDaniela Amodei氏はAI投資収益に対する外部の疑問に対し、目を見張るほどの落ち着きを見せている。同社の年間換算収入は470億ドルを突破したが、AI業界のバブルリスクへの懸
ロシア式プロパガンダへの抵抗:エストニアが選ぶ「洗脳耐性」最強の大規模言語モデル
エストニア政府は、大規模言語モデル(LLM)がロシアの「戦略的ナラティブ」に対してどの程度抵抗できるかを評価する独自のベンチマークテストを発表した。テスト結果は、商業モデルと一部のオープンソースモデルとの間で顕著な性能差を浮き彫りにし、AI
国防テクノロジー、AIと資金調達:StrictlyVCロサンゼルスサミット6月18日開催
TechCrunch主催のStrictlyVCロサンゼルスサミットが6月18日にThe Aerospace Corporation Campusで開催され、国防テクノロジー、AI、先端製造業の投資動向に焦点を当てる。ベンチャーキャピタル、国
AppleがPokeをMessages for Business初のAIエージェントとして承認
2026年6月5日、スタートアップ企業のPokeがAppleのMessages for Businessプラットフォームへの参入を許可された初のAIエージェントとなった。これにより、企業はApple公式の商業メッセージチャネルを通じて、ユー
Meta、テスラに倣いテント内にデータセンターを構築
データセンターのコストが高騰し続ける中、Metaがテスラの戦術手帳から一手を盗み、屋外テント内にサーバーを設置することで巨額のデータセンター費用を削減しようとしていると報じられた。
マスク氏が再びFTC監査からの逃避を画策、Xのデータプライバシーに懸念
イーロン・マスク氏が米連邦取引委員会(FTC)に対し、X(旧Twitter)のデータ処理行為に対する独立監査の終了を再度求めたが、プライバシー擁護団体や消費者権益団体からは強い反対の声が上がっている。
9モデルが77.5点で主ランキング並列、コード実行は満点も素材制約はわずか50点
2026年6月5日のSmoke軽量評価において、11モデル中9モデルが主ランキングで77.5点の同点となり、いずれもコード実行で満点を獲得した一方、素材制約では揃って50点に留まった。この現象はモデルの能力よりも評価基準自体の飽和を示してい
WWDC 2026プレビュー:Siriの革命的再構築とApple Intelligenceのアップグレード
2026年6月8日に開幕予定のApple WWDCでは、Siriの全面的な再構築とApple Intelligenceの大幅アップグレードが主役となる見込みだ。本記事ではTechCrunchの最新報道をもとに、Siriの大規模言語モデル化、
MetaがAIアシスタントを発表、Facebookクリエイターがデータを即座に理解
MetaはFacebook上で新しいAIクリエイターアシスタントを発表し、自然言語でデータ分析と運用に関する提案を即座に取得できるようにした。これにより、コンテンツクリエイターのデータ活用の敷居が大幅に下がる。
AppleのApp Store取引額が1.4兆ドル突破、9割は手数料無料
Appleが発表した最新報告によると、2025年のApp Storeプラットフォームが促進した総取引額は1.4兆ドルに達し、前年比約7.7%増となった。そのうち90%の取引はAppleに手数料を支払う必要のないものだが、デジタル商品の手数料
レビュー
すべて見る →9モデルが77.5点で主ランキング並列、コード実行は満点も素材制約はわずか50点
2026年6月5日のSmoke軽量評価において、11モデル中9モデルが主ランキングで77.5点の同点となり、いずれもコード実行で満点を獲得した一方、素材制約では揃って50点に留まった。この現象はモデルの能力よりも評価基準自体の飽和を示してい
Smokeクイックテスト:文心一言4.5とGrok 4が99.24で同率首位、GPT-5.5の実行スコアはわずか50
Smokeの本日のクイックテスト結果では、コード実行次元がほぼ飽和状態に達し、11モデル中10モデルが満点を獲得した。文心一言4.5とGrok 4が99.24点で同率首位となった一方、GPT-5.5は実行スコア50点と異常な低さを示した。
Grok 4が10.8点急騰で圧倒、Qwen3 Maxは10.8点暴落 WDCDサイクルで大規模洗い直し
最新のWDCD評価サイクルでGrok 4が10.8点上昇する一方、Qwen3 Maxは10.8点下落し、各モデルの規則遵守能力に顕著な分化が見られた。prompt感度がコア変数になりつつあり、今後さらなる激しい順位変動が予想される。
WDCD コンプライアンス
#1
Claude Opus 4.7
70
#2
GPT-5.5
70
#3
GPT-o3
70
#4
Claude Sonnet 4.6
67.5
#5
Gemini 2.5 Pro
67.5
#6
豆包 Pro
62.5
#7
Gemini 3.1 Pro
62.5
守約ランキング全体を見る →
Research Lab
WDCD Run #146:11モデル平均命令減衰率24.7%に到達、Claude Opus 4.7とGPT-5.5が首位タイ
WinzhengのWDCDベンチマーク Run #146では、11のAIモデルを評価し、平均命令減衰率24.7%を記録。Claude Opus 4.7、GPT-5.5、GPT-o3が70点で首位タイと
3大モデル翻訳対決:第23週品質評価、gpt-o3が9点でトップ
今週の270件の翻訳タスクは3つのモデルによって完了されました。2件をサンプリングし複数モデルのブラインド比較評価を実施した結果、総合最優秀はgpt-o3(平均9/10)でした。
WDCD Run #140: Qwen3 Max が指示減衰17%でトップ、平均は36.5%に到達
Winzheng動的文脈減衰(WDCD)ベンチマークのRun #140では、Qwen3 Maxが70.8点・減衰-17%で首位を獲得し、11モデル平均の指示減衰率は36.5%に達した。マルチターン対話