赢政 AI 評測 — AI モデル評価・ニュース・研究

ニュース 06/14 04:24 X
GoogleがドイツのAI概要機能に関する責任判決に上訴、生成AI プラットフォームの法的リスクが浮き彫りに
Googleはドイツの裁判所がAI概要機能における虚偽情報について同社に法的責任を認めた判決に対して上訴した。この事案は生成AIのコンテンツ正確性とプラットフォーム責任をめぐる法的リスクを世界的に浮き彫りにしている。
ニュース 06/14 04:24 X
NVIDIAとSpaceXがAI協力を深化:宇宙探索がインテリジェント新時代へ
SpaceXのIPO完了を契機に、NVIDIAが10年以上にわたる両社の協力関係を改めて強調。AIと加速コンピューティング技術の融合が宇宙探索を新たな段階へと押し上げている。
ニュース 06/14 04:23 X
AIエージェント安全の新たな焦点:Kaggleコンペ開始とDeepMindのマルチエージェントガバナンス議論
KaggleプラットフォームがAIエージェント安全に特化したグローバルコンペを開始し、同時にGoogle DeepMindがマルチエージェントシステムのガバナンス課題に関する研究を発表した。業界の関心はモデル性能からエージェントの信頼性・安
ニュース 06/14 04:23 X
Moonshot AI、Kimi-K2.7-Codeをオープンソース化:推論効率30%向上、中国語コーディングAIに新たな突破口
Moonshot AIは最新のコーディングモデルKimi-K2.7-Codeをオープンソース化し、トークン使用量を約30%削減しながら高い知能パフォーマンスを維持することに成功した。このリリースは中国語AIコミュニティで大きな注目を集めてい
ニュース 06/14 04:23 X
OpenAIがOnaを買収しCodexプラットフォームを強化、長期的なAI Agentエコシステムの構築を推進
OpenAIはAI Agent分野における重要な布石として、安全なクラウド実行とタスクオーケストレーション技術を専門とするスタートアップOnaの買収を発表した。買収完了後、関連技術はOpenAIのCodexプラットフォームに深く統合される予
ニュース 06/14 04:23 X
OpenAIが複数州の司法長官による合同調査に直面、AI大手へのコンプライアンス圧力が高まる
OpenAIは米国複数州の司法長官による合同調査に直面しており、データ利用・ユーザープライバシー保護・商業的コンプライアンスが重点審査対象となっている。この動きはAI業界全体の規制強化の流れを示すものとして注目を集めている。
ニュース 06/14 04:22 X
AnthropicがClaude Fable 5を発表:米国政府の規制がモデルアクセスをめぐる論争を引き起こす
Anthropicが最新AIモデルシリーズClaude Fable 5を正式にリリースしたが、米国政府の大統領令により、上位モデルであるMythos 5およびFable 5への外国ユーザーのアクセスが一時的に無効化され、AI安全性やモデルの
ニュース 06/14 04:15 TC
アマゾンCEOがAnthropicモデルのリスクを事前警告か、全世界へのアクセス遮断に発展
アマゾンCEOのアンディ・ジャシー氏がAnthropicの未発表モデル2件に関する安全上の懸念を数週間前に非公式に伝えていたと報じられ、これが引き金となってAnthropicが6月12日に該当モデルへの全世界からのAPIアクセスを緊急遮断し
レビュー 06/14 03:35
Gemini 2.5 Pro、コード実行スコアが45点急落——YZ Index Smoke主榜で1日に19.3点下落
Gemini 2.5 ProがWinzhengのYZ Index Smoke評価において、主榜スコアが昨日の89.79点から今日の70.53点へと19.3点下落した。主な要因はコード実行ディメンションが100.00点から55.00点へと45
レビュー 06/14 03:35
Grok 4のコード実行スコアが19.1点急落、メインランキングも7.7点下落――抽選の偶然か、それとも性能劣化か
YZ Indexの2026年6月実測において、Grok 4のSmoke評価コード実行スコアが100.00から80.90へと急落し、メインランキング総合スコアも89.56から81.85に低下した。ただし、現時点のデータは性能劣化よりも出題抽選
レビュー 06/14 03:35
Claude Opus 4.7が26.9点下落、GPT-5.5は逆に3.1点上昇 — Smokeテスト3日間トレンド
2026年6月12日〜14日に実施された3日間のSmoke速報テストにおいて、Claude Opus 4.7が96.83点から69.91点へと26.9点の最大降落を記録した一方、GPT-5.5は唯一の上昇モデルとして3.1点のプラストレンド
レビュー 06/14 03:35
11モデルのコード実行スコアが一斉急落、GPT-5.5が95.24点でSmoke軽量ランキングをリード
YZ Index 2026年6月14日のSmoke軽量評価において、GPT-5.5が主榜95.24点で首位を獲得。一方、11モデル中8モデルでコード実行スコアの大幅下落が見られた。