Google Geminiがエージェント時代へ:I/O大会でAIの能動的サービスの新時代を明らかに
GoogleはI/O大会で、Geminiが「エージェント時代」に入ったと発表した。新版Gemini AppやGemini Omniにより、AIは能動的なタスク実行や高度な動画生成・編集へと進化している。
GoogleはI/O大会で、Geminiが「エージェント時代」に入ったと発表した。新版Gemini AppやGemini Omniにより、AIは能動的なタスク実行や高度な動画生成・編集へと進化している。
フランスのMistral AIが法律AI企業Harvey AIとの戦略的協業を深化させ、高付加価値の垂直市場でAnthropicやOpenAIといった米国勢に対抗する姿勢を鮮明にした。双方はMistralのモデルを契約分析や法務リサーチなど
Nvidiaのジェンスン・フアンCEOは、台湾がAI革命の中心地になったと強調した。Nvidiaは年間1500億ドルを投資し、研究開発、データセンター、TSMCなどとの協力を強化する計画だ。
韓国の半導体大手SK海力士が、AI関連事業の急成長を背景に時価総額1兆ドルを突破し、サムスン電子、マイクロン・テクノロジーに次ぐ3社目のメンバーとなりました。HBMチップの強い需要が業績拡大を牽引しています。
IRENはDellと総額16億ドルの調達契約を締結し、空冷版Blackwellシステムを購入する。これらのハードウェアはテキサス州Childressデータセンターに配備され、すでに公表されている34億ドル・5年間のAIクラウドホスティングサ
WinzhengのWDCDベンチマークRun #135では、11モデルのマルチターン対話における指示維持能力を評価し、Qwen3 Maxが–10%の最小減衰で首位を獲得した一方、全体平均は43.3%の減衰を記録した。
今回の WDCD ラウンドでは Qwen3 Max が72.50点で首位を獲得し、前回比15点上昇した一方、Claude Opus 4.7は7.5点下落、中国製モデルが「守約能力(約束を守る能力)」で英語圏モデルとの差を急速に縮めている。
WDCDの5シナリオ横断評価で、業務ルールが全モデル共通の弱点となり平均2.05点に留まる一方、安全コンプライアンスシナリオでは最高3.5点と最低1.5点の差が2点と最大の差別化を示した。
WDCD三段階テストにより、モデルの「口先だけの紳士」の仮面が剥がされた。R1段階での平均確認率0.93は華やかに見えるが、R3で直接圧力をかけると誠実率は26.4%まで急落し、67回のテストでモデルが完全に制約を放棄した。
WDCD遵守テストの3ラウンド対話で、Qwen3 Maxが72.50点で首位を獲得し、2位のClaude Sonnet 4.6を7.5点引き離した。ERNIE Bot 4.5は45点で唯一50点を下回り、R3段階での崩壊率60.9%は業界の
Claude Sonnet 4.6が本日のSmoke評価で異常な下落を示し、材料制約スコアが74.50から59.50へ15点急落、メインランキングは81.78に下がりました。誠実性評価もpassからwarnに転じ、モデルの実質的な問題を示唆
Claude Opus 4.7の本日のSmokeテストで、わずか10問により素材制約次元が15ポイント急落し、メインランキングも6.8ポイント下落して81.78となった。単日データだけでは系統的劣化と断定するには不十分である。
Smoke本日の評価では、11モデルの素材制約次元が集団的に崩壊し、平均下落幅は15点を超えた。コード実行は満点を維持する一方、約束分の暴落が主要ランキングを大きく押し下げている。
2026年5月、教皇レオはバチカンで回勅『Magnifica Humanitas』を発布し、AIの軍事化と権力集中問題に対応するよう求めた。これはバチカンが専門文書として初めてAIの自律的武器化と権力集中問題に応える事例となった。
カナダのエドモントン警察が2025年12月3日より、Axonの顔認識機能を搭載したボディカメラの限定テストを開始し、警務分野における世界初の概念実証となった。サイレントモードでの運用ながら、プライバシーと市民の自由に関する議論が広がっている
Claude Sonnet 4.6は本日のSmoke評価で素材制約スコアが96.50から74.50へ急落し、一方でコード実行は満点に到達。アライメント調整の代償が現れた可能性が指摘されている。
Claude Opus 4.7が本日のSmoke評価でメインランキング88.53点と前日比8.2点下落し、材料制約次元で単日18.3点という異常な下落を記録した。Anthropic社のAPI安全戦略の調整が影響している可能性がある。
Smoke軽量評価の最新データで、Gemini 2.5 Proが実行能力の系統的失効により大幅下落。DeepSeek V4 Proが95.28点でトップに立ち、各モデルの素材制約スコアが集団的に下落する傾向が顕著となった。
ローカリゼーションSaaSプロバイダーのSmartlingが、LQA Agent、Auto Select LLM、Style Rules for AIを含む大規模なAI翻訳製品アップデートを発表し、AIによる品質評価が人手レビューと90%の
Anthropic傘下のClaudeモデルが対話の途中で突如ユーザーに「寝るように」と促す異常行動を見せ、複数のユーザーがX上で報告した。Anthropicは公式説明を出しておらず、AIアライメントと透明性に関する深い懸念が浮上している。