WDCD横断比較で判明:リソース制限が11モデル最大の弱点、平均わずか1.7点
WDCD遵守テストにおいて、リソース制限のシナリオが全モデルを苦戦させ、11モデルの平均得点はわずか1.7点と、他4シナリオを大きく下回った。本記事では各モデルの偏向特性と企業選定への具体的提言を分析する。
WDCD遵守テストにおいて、リソース制限のシナリオが全モデルを苦戦させ、11モデルの平均得点はわずか1.7点と、他4シナリオを大きく下回った。本記事では各モデルの偏向特性と企業選定への具体的提言を分析する。
WDCD三段階テストの結果、モデルは初期段階でほぼ全員が高得点を獲得したものの、二度の干渉を経た後、6割以上のモデルが直接的な圧力下で当初の約束を完全に放棄した。
WDCD遵守テストで11モデルのうち、Claude Opus 4.7、GPT-5.5、GPT-o3の3モデルが70点で並びトップとなり、文心一言4.5は50点で明らかな断層を見せ最下位となった。
Smoke 本日のクイックテストで Claude Opus 4.7、Claude Sonnet 4.6、GPT-5.5 が 87.76 点で並列首位となり、コード実行は満点だが材料制約次元で warn シグナルが発生した。
Anthropicは2026年6月1日に正式にIPO申請を提出した。未上場のOpenAIとは対照的な選択であり、評価額、収益力、競争構図をめぐって市場の見解が分かれている。
米国のエリザベス・ウォーレン上院議員が、AIチップの対中輸出における潜在的な抜け穴を塞ぐよう政府に公開要請し、トランプ前政権下での政策緩和を批判した。中国企業による海外子会社を通じた規制回避の防止を目的とし、現政権に先進AIチップの輸出管理
NVIDIAのCEOジェンスン・フアン氏は台北で開催されたGTCカンファレンスで基調講演を行い、エージェント型AI時代の到来を正式に宣言した。Vera Rubinプラットフォームの量産計画やAI PC向けチップを発表し、物理AIとロボティク
ヒューレット・パッカード・エンタープライズ(HPE)の2024会計年度第2四半期決算が市場予想を上回り、AIサーバーとネットワーク製品への強い需要が業績を牽引した。これにより、当初2028年に設定していた財務目標を2年前倒しで達成した。
AnthropicはClaude AIモデルのProおよびMaxサブスクリプションユーザー向けに5時間および週次の利用枠をリセットし、Claude Codeのsubagent並列生成による過剰な額度消費問題を修正した。この措置は開発者コミュ
xAIは最新AIモデルComposer 2.5をGrok Buildプラットフォームで公開し、長尺タスクと複雑な指令の処理能力に優れ、応答速度と知能水準が大幅に向上したと発表しました。
NVIDIAはVera Rubinマルチラックシステムの全面量産開始を発表した。エージェント型AI向けに設計された同プラットフォームは、すでにMicrosoft AzureおよびDell PowerEdgeサーバーで展開されている。
フロリダ州が83ページに及ぶ訴状でOpenAIとCEOのSam Altmanを正式に提訴し、AI製品の開発・展開における「無謀かつ故意の不当行為」を指摘し、これに起因する暴力事件への法的責任を求めている。本件はAIセーフティの責任を個人経営
AI大手Anthropicが米証券取引委員会に極秘IPO申請書類を提出し、評価額は9650億ドルに達した。OpenAIと初のAI公開企業の座を巡り競争が激化している。
本日のSmoke軽量評価では、上位7モデルすべてがコード実行で満点を獲得し、ランキングは素材制約スコアによって決定された。GPT-5.5 は素材制約71点で総合86.95点を記録し、首位に立った。
ソフトバンクグループは欧州最大規模のAIデータセンターをフランスに建設するため、750億ユーロを投資する計画を発表した。世界的なAIインフラ競争における重要な一歩と位置付けられている。
アリババグループは最新の大規模モデル Qwen 3.7-Max を正式発表し、Claude 同等製品の6分の1という競争力ある価格と、長時間安定動作・多タスク処理能力で世界の注目を集めている。
OpenAIの先進AIモデルが、数学者Paul Erdősが80年以上前に提唱した幾何予想を自律的に証明することに成功した。生成された125ページに及ぶ証明文書は厳密な内容で、複数の数学専門家から認められている。
NVIDIAは、AIエージェント専用に設計された初のRTX Sparkチップを発表し、ローカルPC上での大規模AIモデルの直接実行を可能にした。Microsoft、Adobeなどのパートナーが同チップを基にソフトウェア製品の再構築を表明して
OpenAIは1100億ドルの大型資金調達を完了し、評価額が7300億ドルに上昇した。年末のIPO開始の噂とともに、AI業界の資本熱と持続可能な発展への注目が高まっている。
今週の270件の翻訳タスクは3つのモデルによって完了されました。2件をサンプリングし複数モデルのブラインド比較評価を実施した結果、総合最優秀はgpt-o3(平均9/10)でした。