注目記事

3大モデル翻訳対決：第21週品質評価、gpt-o3が8.7点でリード

今週は3つのモデルが242件の翻訳タスクを完了し、抽出された3件のブラインド評価で、gpt-o3が平均8.7/10点で総合最優秀となりました。

1時間前 42 閲覧

総合ランキング Top 5

1 Claude Sonnet 4.6 83.0
2 豆包 Pro 81.3
3 Grok 4 81.0
4 Claude Opus 4.7 80.0
5 Gemini 2.5 Pro 79.0

WDCD 守約 Top 5

1 GPT-5.5 71.7%
2 Qwen3 Max 67.5%
3 Claude Opus 4.7 66.7%
4 GPT-o3 65.8%
5 Gemini 2.5 Pro 64.2%

今週の変動

↑ Grok 4 +10.0pt
↑ GPT-5.5 +9.2pt
↑ Gemini 2.5 Pro +14.2pt
↓ 文心一言 4.5 -7.5pt
⚠ GPT-o3 严格题"SQL：连续登录天数"从满分跌至
⚠ GPT-o3 严格题"Debug：矩阵旋转"从满分跌至

最新ニュース

すべて見る

AppleがSiriを大幅刷新、チャット自動削除機能を新搭載か

Appleは来週開催されるWWDCで新版Siriを正式発表する予定で、プライバシー保護を最重要テーマに据え、音声インタラクションデータの「チャット履歴自動削除」機能を導入する見込み。

苹果 Siri 隐私保护

2時間前 57

信頼の危機：マスク対OpenAI訴訟、Altmanに焦点

マスク対OpenAI訴訟の終盤で、Sam Altman CEOの信頼性が中心的争点となった。AI業界の理想主義的な非営利の約束と商業的現実との構造的矛盾が浮き彫りに。

马斯克 OpenAI Sam Altman

4時間前 63

AIスキルの軍拡競争が自動車業界を席巻：人材争奪戦が白熱化

自動車業界ではAI人材の争奪戦が激化しており、給与競争を超えて買収やM&A、産学連携にまで拡大している。一方で過熱する競争は組織や規制面での課題も生み出している。

AI技能军备竞赛汽车行业自动驾驶

6時間前 59

2026年卒業スピーチのタブー：AIに触れるな

2026年の卒業生はAIに対して好奇心から不安・不信感へと意識が転換しており、卒業式の祝辞でAIに触れることが地雷化している。専門家はスピーチ嘉賓に対し、AI話題を慎重に扱うよう警告している。

毕业演讲 AI焦虑就业前景

6時間前 58

AnthropicがGates財団から2億ドルの提携を獲得 Claude中小企業向けサービスを発表

Anthropicは2025年5月15日、Bill & Melinda Gates Foundationと2億ドルの戦略的提携を結び、同時にClaude for Small Businessサービスを発表した。中小企業向けに即時導入可能なAIテンプレートを提供し、AI技術の普及を推進する。

AI技术 Anthropic 中小企业数字化

1日前 124

OpenAIがDaybreak AIツールを発表：GPT-5.5がゼロデイ脆弱性を自動修復し、90日ポリシーに終止符

OpenAIは5月15日、GPT-5.5を搭載したDaybreak AIシステムを正式発表し、攻撃者による悪用前にゼロデイ脆弱性を自動検出・修復可能とした。Cisco、Cloudflareとの提携により、従来の90日脆弱性開示ポリシーが正式に終結することを示している。

AI安全 OpenAI 零日漏洞

1日前 149

Andurilが50億ドルを調達、評価額610億ドルに国防AI資本加速の背後にある技術リスク

軍事AIスタートアップAndurilが新たに50億ドルの資金調達を完了し、評価額610億ドルに達した。無人機自律システムや戦場意思決定AIへの投資が加速する一方、技術的制約とリスクが存在する。

Anduril 国防AI 融资分析

1日前 103

AIゴールドラッシュの勝者と敗者：繁栄の裏に潜む暗流

2026年のAI業界は高速成長を続ける一方、巨大テック企業とトップスタートアップが勝者となる一方で、中堅AIスタートアップやフリーランスが厳しい状況に追い込まれ、勝敗の分化が顕著になっている。

AI淘金热科技分化大模型竞争

1日前 97

WDCDコンプライアンスランキング：GPT-5.5が71.67点で首位、Grok 4は52.5点で最下位

WDCDコンプライアンステストで11モデルを3ラウンドの対話で評価した結果、GPT-5.5が71.67点で首位を獲得し、Grok 4は52.5点で最下位となり、上位と下位で19.17点の差が生まれた。

WDCD 守约测试 AI模型排行

1日前 39

ArXiv新規定：AIで論文を全執筆すれば1年間アカウント停止

著名なプレプリントリポジトリArXivは、AIに研究作業全体を依存して論文を作成した著者に対し、1年間の投稿禁止という厳格な処罰を科す新方針を発表した。この措置は、学術界におけるAI乱用への懸念の高まりを反映している。

ArXiv AI写作学术诚信

1日前 170

Claude Sonnet 4.6 メインランキングが12.3点急落、素材制約は単日で27.3点の大幅下落

Claude Sonnet 4.6が本日のSmoke簡易テストで顕著な異常を示し、メインランキング全体で12.3点下落した。中でも素材制約次元が27.3点という大幅な下落を記録し、Anthropicによる最近のアラインメント微調整との関連が注目される。

Claude Sonnet 4.6 材料约束 Smoke评测

1日前 79

Claude Opus 4.7 Smoke評価のメインランキングが9点急落、材料制約が1日で20点半減

Claude Opus 4.7が本日のSmoke評価でメインランキング97.75点から88.75点へ9点下落し、材料制約次元が95点から75点へ急落しました。単日のサンプル偏差の可能性が高いものの、Anthropicの最近のコンテキスト最適化パッチとの関連も考慮する必要があります。

Claude Opus 4.7 材料约束 Smoke快测

1日前 75

7日間Smoke簡易テスト：文心一言が53点急騰、GPT-o3は-7.8で下落首位

今週7日連続のSmoke簡易テストで、文心一言4.5が+53.4のトレンドで急騰し最大のダークホースとなった一方、GPT-o3は-7.8で主要モデル中最大の下落を記録した。

文心一言 GPT-o3 Smoke评测

1日前 77

3モデルが88.75点で同率1位、Claude双璧が12点暴落、Smokeランキング激震

本日のSmoke軽量評価で、Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Maxの3モデルが88.75点で同率首位となった一方、Claudeシリーズは大幅下落し、DeepSeekとGrokが急上昇するなど、ランキングが大きく変動した。

Claude Opus 4.7 材料约束 Smoke轻量评测

1日前 72

OpenAI共同創業者Greg Brockmanが製品戦略を統括、ChatGPTとCodexの統合が現実味

OpenAI共同創業者のGreg Brockmanが全社的な製品戦略の策定と実行を正式に引き継ぎ、同時に主力製品であるChatGPTとCodexの技術スタックおよびユーザー体験面での統合が内部で検討されている。

OpenAI Greg Brockman 产品战略

1日前 119