多模态AI に関するAIニュース | Winzheng AI ニュース

海外

DoorDashの新AIチャットボット：テキストと写真で料理を注文可能に

米国のフードデリバリー大手DoorDashが新たなAIチャットボット「Ask DoorDash」を発表。ユーザーは自然言語のテキストや写真のアップロードで料理や日用品を検索・注文できるようになった。

AI聊天机器人 DoorDash 智能点餐多模态AI

2026年6月12日 431

海外

Google I/O プレビュー：AI競争でいかに逆転するか？

明日開催されるGoogle I/Oでは、基盤モデル競争で第3位に甘んじるGoogleがGemini 2.0などの新発表で巻き返しを図る見込みだ。本記事では、Googleが直面するAI焦慮と反撃の可能性を分析する。

谷歌I/O AI竞赛 Gemini模型多模态AI

2026年5月19日 410

海外

エンコーダー進化史：シンプルなモデルからマルチモーダルAIへ

エンコーダーは人工知能の理解の鍵であり、その進化はシンプルな統計モデルから始まり、マルチモーダルAIの誕生によって飛躍的に進化してきました。

编码器多模态AI AI 深度学习

2026年4月28日 533

海外

マイクロソフト、新たに3つの基礎モデルを発表しAI競争に挑む

マイクロソフトは、OpenAIやGoogle、Anthropicといった競争相手に対抗するため、3つの新しい基礎モデルを発表しました。これにより、生成AI市場での存在感を一層強化しようとしています。

微软AI 基础模型多模态AI 语音转录

2026年4月4日 531

海外

Gemini 3.1 Flash Live初公開：対話ロボットの真偽判別が困難に

GoogleがGemini 3.1 Flash Liveを発表し、その革命的な対話型音声AIモデルがGoogle検索、Geminiアプリ、開発者ツールで正式にリリースされた。稲妻のような応答速度と高度にリアルな音声合成能力により、ユーザーは

谷歌Gemini AI语音交互机器人辨识多模态AI

2026年3月27日 493

海外

マルチモーダルAIが金融を革新：複雑なワークフローの自動化

マルチモーダルAIが金融業界の複雑な文書処理を自動化し、従来のOCRシステムの限界を克服して効率を大幅に向上させている。

多模态AI 金融自动化工作流优化 OCR技术

2026年3月25日 341

海外

Claude Code音声モード公開、AnthropicがAIプログラミング分野に本格参入

AnthropicがClaude Codeに音声モード機能を追加し、自然な音声対話によるプログラミングを実現。AIプログラミング分野での競争力を大幅に強化した。

Anthropic Claude Code 语音模式 AI编程

2026年3月4日 693

海外

Google、Gemini 3.1 Proを発表：複雑な問題解決能力が大幅に向上

Googleは2026年2月20日、複雑な問題解決に特化した最新AIモデル「Gemini 3.1 Pro」を発表し、長鎖推論や多モーダル統合において驚異的な性能を示した。

谷歌Gemini AI模型复杂推理多模态AI

2026年2月20日 663

海外

Google Geminiアプリに音楽生成機能追加、テキスト・画像・動画入力に対応

Googleは旗艦AIアプリGeminiに音楽生成機能を追加し、テキスト、画像、動画を入力として高品質な音楽を生成できるようになった。この革新により、AI音楽創作がより身近で直感的な時代へと進化している。

谷歌Gemini AI音乐生成多模态AI 音乐AI

2026年2月19日 708

海外

インドAIラボSarvamの新モデル：オープンソースAIの実現可能性への大きな賭け

インドのAIラボSarvamが30億・105億パラメータのLLMを含む新モデル群を発表し、オープンソースAIの可能性に大きく賭けた。これらのモデルは12以上のインド言語に対応し、多言語・多文化環境に最適化されている。

Sarvam AI 开源模型印度AI LLM

2026年2月18日 1,028

多模态AI に関するニュース