赢政 AI 評測 — AI モデル評価・ニュース・研究

ニュース 06/10 06:01 TC
AnthropicのFable 5:ワンクリックで奇妙で面白いビデオゲームを生成
Anthropicが発表した最新モデルClaude Fable 5は、自然言語で説明するだけでブラウザで動作可能なHTML5ゲームを数秒で生成し、ゲーム制作の民主化を推進している。
ニュース 06/10 06:00 TC
Hey Siri、これこそAIのあるべき姿だ
TechCrunchの記事を基に、現在の音声アシスタントが「指令実行器」に留まっている現状と、文脈を理解し能動的に提案できる真のAIアシスタントへの期待を考察する。同時に、便利さと依存の境界線についても問いかける。
ニュース 06/10 05:01 Winzheng Lab
WDCD Run #157:11モデルの平均指示劣化率が47.7%に到達、トップは3モデルが同点
Winzheng動的コンテキスト劣化(WDCD)ベンチマークのRun #157では、11モデルの平均コミットメント劣化率が47.7%に達し、Claude Sonnet 4.6、Gemini 2.5 Pro、Qwen3 Maxの3モデルが67
レビュー 06/10 05:01
WDCD遵守テスト激震:5モデルが急落、最大12.5ポイント減、Qwen3 Maxが逆襲
最新のWDCDサイクルでは、主流5モデルが同時に大幅下落し、最大下落幅は12.5ポイントに達した一方、Qwen3 Maxのみが7.5ポイントのプラス成長を実現し、Top3入りを果たした。
レビュー 06/10 05:01
11モデルWDCD横断評価:リソース制限で全員1点に崩壊、業務ルールで4点の最大差
WDCDパイロットデータによると、リソース制限シナリオでは全モデルの得点が最も低く、首位のgemini-3.1-proでもわずか2.5点にとどまった。一方、業務ルールシナリオでは最大の格差が生じ、gemini-2.5-proとgpt-o3が
レビュー 06/10 05:00
R3の遵守率が24.5%に急落、72回のクラッシュが11モデルの本性を暴く
WDCDテストで明らかになった衝撃の事実:大半のモデルはR1・R2段階では好成績を収めるものの、R3の直接的圧力下では遵守率が24.5%まで急落し、72回の完全クラッシュが発生した。これは多くのモデルが「表面的な遵守」に留まり、真の圧力下で
レビュー 06/10 05:00
67.5分三雄并列第一,Grok4仅50分垫底 WDCD守约榜
Claude Sonnet 4.6、Gemini 2.5 Pro与Qwen3 Max以67.5分并列第一,Grok 4与文心一言4.5以50分垫底。R3崩溃率高达65.5%,满分率仅13.6%,头部与尾部在压力测试下差距显著。
ニュース 06/10 04:03 TC
WWDC 2026:Siri AIが大幅アップグレード、iOS 27とApple Intelligenceが本格登場
2026年6月10日に開催されたWWDC開発者会議で、Appleは新たにアップグレードされたSiri AI、iOS 27、Apple Intelligenceプラットフォームを発表し、デバイス上での処理とプライバシー保護を中核に据えたAI戦
ニュース 06/10 04:02 TC
テック企業はより安価なAIモデルを愛せるか?
TechCrunchの分析記事を編訳し、複雑なAIワークロードがより安価なモデルで処理可能になることでAI業界の経済構造が大きく変化する可能性を論じる。コストパフォーマンス革命がAI業界の競争構造を再定義しつつある。
ニュース 06/10 04:01 ARS
Google、Gemini 3.5 Live Translateを発表:リアルタイム音声相互翻訳で語調を保持
Googleは2026年Google I/Oで、原音声の語調・速度・音高を保ったまま翻訳するリアルタイム音声相互翻訳機能「Gemini 3.5 Live Translate」を発表した。SynthID電子透かしを搭載し、ディープフェイクの悪
ニュース 06/10 04:00 ARS
Anthropic、これらのトピックは危険すぎるとし、Fable 5モデルが応答を拒否
Anthropicは最新のフロンティアモデルFable 5に、サイバーセキュリティ脆弱性の悪用、生物病原体の合成、化学兵器製造という3大カテゴリーの高リスクトピックを自動拒否する設計を組み込んだ。この拒否機構はモデルの訓練段階から埋め込まれ
レビュー 06/10 03:10
Claude Sonnet 4.6が97.53点でトップ、材料制約で文心一言と40点差
Smoke本日のクイックテストでは、Claude Sonnet 4.6が97.53点で首位を獲得。コード実行は各モデルとも合格ラインに達しており、材料制約能力が真の分水嶺となっている。