I/O 2025: найцікавіші новинки ШІ від Google

I/O 2025: найцікавіші новинки ШІ від Google

Цьогорічна конференція Google I/O 2025 була надзвичайно цікавою. В першу чергу через інтеграції штучного інтелекту в кожен куточок цифрового всесвіту Google. Ми всі активно користуємося продуктамі від Google, тому ці новинки дуже скоро зможе оцінити практично кожний. Нова відеогенерація, розумні помічники, синхронні перекладачі, кардинальні зміни у пошуку – Google представив величезну кількість дійсно революційнийх оновлень, що обіцяють кардинально переосмислити нашу взаємодію з технологіями. DAY TODAY відібрав найцікавіші новинки з ШІ.

Veo 3: генерація відео одразу з саундтреком

Найбільш захопливим анонсом у сфері медіа стала поява Veo 3 – третього покоління моделі для генерації відео від Google. Veo 3 не просто створює вражаючі відеокліпи, а й генерує повноцінні саундтреки, що ідеально відповідають візуальному ряду. Це включає реалістичні звукові ефекти, атмосферні фонові шуми і навіть діалоги, що синхронізуються з рухом персонажів. Як зазначив Деміс Хассабіс, CEO Google DeepMind, “ми вперше виходимо з німої ери відеогенерації”. Це відкриває безмежні можливості для креаторів, яким більше не потрібно шукати або створювати окремі звукові доріжки.

Ось приклад генерації відео від Veo 3


На додаток до Veo 3, Google також покращив Veo 2, додавши функції, які дозволяють користувачам надавати моделі зображення персонажів, сцен та об’єктів для забезпечення кращої візуальної послідовності. Veo 2 тепер розуміє рухи камери, такі як обертання, долі та зуми, а також дозволяє користувачам додавати або видаляти об’єкти з відео та розширювати кадри, наприклад, перетворюючи портретний формат на ландшафтний.

Imagen 4: покарщена генерація зображень

Приклад генерації зображення від Imagen 4

Нова модель здатна відтворювати “тонкі деталі”, такі як текстура тканини, краплі води та навіть хутро тварин. Вона підтримує як фотореалістичні, так і абстрактні стилі, генеруючи зображення з різними співвідношеннями сторін та роздільною здатністю до 2K. За словами Джоша Вудворда з Google Labs, “Imagen 4 – це величезний крок вперед у якості. Ми також приділили багато уваги та виправлень тому, як він генерує текст та типографіку, тож це чудово для створення слайдів, запрошень або будь-яких інших речей, де вам може знадобитися поєднання зображень та тексту”.

Ось так нова модель справляється із текстом на зображенні

Окрім якості, Google наголошує на швидкості Imagen 4, яка вже швидша за Imagen 3, а в майбутньому з’явиться варіант, що працюватиме до 10 разів швидше. Imagen 4 доступна в додатку Gemini.

Lyria RealTime: створюйте музику

Для музичних ентузіастів Google представив Lyria RealTime, ШІ-модель, яка лежить в основі експериментального додатку MusicFX DJ. Тепер ця модель доступна через Google Gemini API та платформу AI Studio. Lyria RealTime дозволяє користувачам міксувати музичні жанри, змінювати інструменти та настрій ШІ-генерованої музики, надаючи повний контроль над ключем, темпом, яскравістю та іншими елементами пісні. Це відкриває двері для інтерактивного створення, контролю та навіть виконання високоякісних пісень.

Google AI Ultra

Також Google представив новий преміум-план підписки – Google AI Ultra, який коштує $249.99 на місяць (наразі доступний лише в США). Цей план позиціонується як “найвищий рівень доступу” до ШІ-продуктів та сервісів Google, конкуруючи з аналогічними пропозиціями від OpenAI (ChatGPT Pro) та Anthropic (Claude Max). Передплатники AI Ultra отримають доступ до Veo 3, нового додатка Flow для редагування відео, майбутнього Gemini 2.5 Pro Deep Think mode, а також вищі ліміти для реміксування зображень. Додатково, AI Ultra включає доступ до чат-бота Gemini в Chrome, “агентні” інструменти на базі Project Mariner, YouTube Premium та 30 ТБ сховища. Старий план Google One AI Premium тепер перейменовано на Google AI Pro, що також включає Flow та ранній доступ до Gemini в Chrome.

Deep Think та Gemini 2.5 Flash

Було анонсовано Deep Think, “розширений” режим аргументації для флагманської моделі Gemini 2.5 Pro. Ця технологія дозволяє моделі розглядати кілька можливих відповідей на запитання перед тим, як надати остаточну, що значно підвищує її продуктивність у складних тестах. Наразі Deep Think доступний “довіреним тестерам” через Gemini API, а його широке розгортання очікується після додаткових перевірок безпеки.

Крім того, оновлення отримала й бюджетна модель Gemini 2.5 Flash, що тепер краще справляється із завданнями, пов’язаними з кодуванням, мультимодальністю, аргументацією та довгим контекстом.

SynthID Detector проти діпфейків

Зі зростанням обсягів ШІ-генерованого медіа в Інтернеті, проблема дипфейків стає все більш актуальною. У відповідь на це Google запускає SynthID Detector – портал верифікації, що використовує власну технологію водяних знаків SynthID. Користувачі можуть завантажити файл (зображення, відео, аудіо або текст), і SynthID Detector визначить, чи весь зразок або лише його частина була створена за допомогою ШІ-інструментів Google. Наразі SynthID Detector працює лише з контентом, створеним за допомогою інструментів, що використовують специфікацію SynthID (переважно продукти Google).

ШІ в Workspace

Різні продукти Google також отримали значний ШІ-апгрейд:

  • Gmail: відтепер Gmail пропонуватиме персоналізовані розумні відповіді, які адаптуються до вашого контексту та тону, враховуючи минулі листи та файли з Google Диска. Це покликано усунути необхідність самостійно шукати інформацію. Крім того, Gemini тепер допоможе очистити вхідні, дозволяючи видаляти або архівувати непотрібні листи за допомогою простих голосових команд. З’явилася також нова функція для швидкого планування зустрічей із зовнішніми контактами, яка автоматично виявляє наміри планування та пропонує доступний час.
  • Google Docs: тепер можна прив’язувати будь-які презентації, дані та звіти безпосередньо до Google Doc. Gemini використовуватиме лише ці джерела для надання допомоги у написанні, забезпечуючи, що пропозиції базуються на достовірному та релевантному контенті. Ця функція вже доступна.
  • Google Vids: отримує можливість перетворювати існуючі Google Slides у відео, дозволяючи перетворювати, наприклад, презентації продажів або квартальні звіти на відео. Gemini допоможе генерувати сценарії, озвучку та анімацію. Для компаній з обмеженими бюджетами з’являться ШІ-аватари, які зможуть презентувати повідомлення у відточеному відео. Також Vids отримає інструмент “transcript trim” для автоматичного видалення слів-паразитів, таких як “гм” та “ах”, та функцію “balance sound” для регулювання рівнів звуку.

Gemini в Chrome

Мабуть найочікуваніша функція для багатьох користувачів: Google інтегрує Gemini безпосередньо в браузер Chrome, надаючи користувачам нового ШІ-помічника для перегляду веб-сторінок. Доступ до Gemini в Chrome здійснюватиметься через іконку в правому верхньому куті вікна. На початковому етапі Gemini зможе уточнювати складну інформацію на сторінці та узагальнювати її. Уявіть, що ви переглядаєте рецепт бананового хліба і можете попросити Gemini перетворити його на безглютеновий, або попросити ШІ підібрати рослину для вашої спальні залежно від умов освітлення. У майбутньому Gemini зможе працювати з кількома вкладками одночасно (наприклад, порівнювати два спальні мішки з різних вкладок) і навіть серфити веб-сайтами від вашого імені, автоматизуючи рутинні завдання.

Оновлення застосунку Gemini

Застосунок Gemini отримав суттєві оновлення, роблячи його ще більш інтелектуальним та інтегрованим. Функції Gemini Live (камера та демонстрація екрану) тепер доступні для всіх користувачів iOS та Android. Це дозволяє вести майже реальні розмови з Gemini, одночасно транслюючи відео з камери смартфона або екрана. Наприклад, прогулюючись новим містом, ви можете навести телефон на будівлю і попросити Gemini Live розповісти про її архітектуру чи історію, отримуючи відповіді майже миттєво.

Протягом наступних тижнів Gemini Live також буде глибше інтегрований з іншими додатками Google, такими як Google Maps для маршрутів, Google Calendar для створення подій та Google Tasks для списків справ. Функція Deep Research Gemini, яка генерує детальні дослідницькі звіти, тепер дозволяє користувачам завантажувати власні приватні PDF-файли та зображення, щоб перехресно перевіряти їх з публічними даними та створювати більш персоналізовані звіти.

Project Mariner та агенти ШІ

Можливо, одним із найбільш далекоглядних анонсів став розширений запуск Project Mariner, експериментального ШІ-агента Google, який може переглядати та використовувати веб-сайти. Цей агент, доступний для передплатників Google AI Ultra, тепер може виконувати до 10 завдань одночасно у фоновому режимі, працюючи на віртуальних машинах у хмарі. Це означає, що користувачі можуть доручити Project Mariner завдання, такі як купівля квитків на бейсбольний матч або замовлення продуктів онлайн, не відвідуючи сторонні веб-сайти, тоді як агент самостійно взаємодіє з веб-сторінками.

Нова ера Google пошуку

На I/O 2025 Google чітко дав зрозуміти, що концепція традиційного пошуку, заснованого на списках посилань, залишається в минулому. За словами Ліз Рейд, віце-президента Google з пошуку, “ми віримо, що ШІ буде найпотужнішим двигуном для відкриттів, які коли-небудь бачив інтернет”. Тепер AI Mode доступний для кожного користувача пошуку в США, дозволяючи сотням мільйонів людей спілкуватися з ШІ-агентом, який може відвідувати веб-сторінки, узагальнювати їх будь-яким бажаним способом або навіть допомагати з покупками. Project Mariner, доступний для передплатників Ultra, є ще більш “безконтактним” ШІ-агентом, що виконує завдання, відвідуючи та взаємодіючи з веб-сторінками.

Ці зміни мають надзвичайно глибокі наслідки для інтернету та його економіки. Хоча компанії, що продають товари та послуги, можуть вітати ШІ-агентів як нову платформу для охоплення клієнтів, видавці контенту стикаються з викликами, оскільки ШІ-узагальнення можуть зменшити трафік до їхніх сайтів. Google заявляє, що ці ШІ-агенти покликані “повернути користувачам більше часу”, але потенційні втрати для видавців залишаються предметом обговорення та занепокоєння. Крім того, залишається відкритим питання “галюцинацій” ШІ, яке може підірвати довіру до інформації.

Шопінг з ШІ-Режимом: Персоналізований Досвід Покупок

Google також впроваджує кілька ШІ-функцій для онлайн-покупців. Найбільш цікавою є нова функція віртуальної примірки одягу. Користувачі зможуть завантажити свою повнорозмірну фотографію у облягаючому одязі, і нова дифузійна модель Google для моди віртуально “приміряє” одяг на їхнє тіло, враховуючи, як різні матеріали будуть складатися та розтягуватися. Ця функція доступна в Google Search Labs.

Google Meet: іноземні мови можна вже не вчити?

Google інтегрує переклад мовлення в реальному часі в Google Meet. Ця функція використовує велику мовну аудіомодель від Google DeepMind, щоб забезпечити природну, вільну розмову між людьми, що розмовляють різними мовами. Переклад здійснюється в реальному часі, зберігаючи голос, тон та вираз оригінального мовця. Google вказує на низьку затримку, що дозволяє кільком людям спілкуватися одночасно – те, що раніше було неможливим. На початковому етапі функція доступна для англійської та іспанської мов, а незабаром з’являться італійська, німецька та португальська.

Всі новинки Google I/O 2025 за 10 хвилин

Стаття була цікавою?

Оцініть цю статтю!

Середній рейтинг 5 / 5. Кількість голосів: 1

Ще немає голосів. Будьте першими!

Дякуємо за відгук!

Підписуйтесь на нові статті!

Шкода, що стаття вам не сподобалась...

Дозвольте нам її покращити!

Розкажіть, будь ласка, що ми можемо виправити

   

Схожі статті

Обсудити статтю на форумі

Ходімо далі? Наступна стаття
Copy link