Знаете, как говорят: «Это не соревнование!» Что ж, не позволяйте им лгать вам; Все является соревнованием, особенно когда дело касается ИИ. Не проходит и дня, чтобы я не тестировал возможности искусственного интеллекта нескольких чат-ботов, и результаты почти всегда меня удивляют. Некоторые платформы действительно лучше других – по крайней мере, для некоторых задач.
Это путешествие началось с заметок на моем iPhone 17 Pro Max. Обычно мне нравится записывать интервью на смартфон Android, такой как Google Pixel 10 Pro Fold, где фантастическое приложение Recorder умело записывает каждое высказывание, а также умело разделяет и помечает каждого выступающего в транскрипции.
Gemini 3 Pro надевает перчатки
За последние несколько месяцев я был Впечатлен возможностями Google Gemini, особенно новейшими моделями 3 Pro, и тем, как он с апломбом обрабатывает практически любой быстрый запрос.
Теперь, когда у меня появилась идея, мне нужно было придумать, как заставить Gemini послушать запись. Воспроизвести звук через динамики iPhone и попросить Gemini послушать было невозможно, потому что я беспокоился о том, насколько хорошо, например, мои настольные микрофоны смогут уловить звук из динамиков iPhone. К тому же я был в офисе и не хотел, чтобы люди подслушивали частный разговор (пока я не опубликовал статью).
Сначала я узнал, что из Notes можно скачать аудиофайл. Во время воспроизведения под тремя точками есть кнопка «Поделиться», которая позволяет мне передать аудиофайл по воздуху на мой 14-дюймовый MacBook Pro. Он доступен в виде файла MPEG-4 (M4A).
Вернувшись в Gemini 3 Pro, я выбрал знак «+» в поле подсказки, выбрал аудиофайл M4A и добавил эту короткую подсказку: «Послушайте это, запишите это и обязательно определите разных говорящих».
Не было никакого движения туда и обратно. Germini 3 Pro быстро начал выдавать полную стенограмму с говорящими, обозначенными как «интервьюеры», а также именем и заголовком моего субъекта. Стоит отметить, что это единственная вещь, которую Gemini 3 Pro ошибся по какой-то необъяснимой причине. Хотя мой собеседник в конце чата назвал свое имя, Близнецы выбрали другое. Кроме того, близнецы прекрасно узнавали, когда говорю я или субъект. И точность действительно впечатляла.
Для полноты картины я попросил Gemini 3 Pro исправить идентификацию моего субъекта и указать меня как «интервьюера». Решив эту проблему, я с радостью использовал стенограмму для дальнейшего развития всей моей истории.
В этом углу ChatGPT
Однако мне, естественно, было любопытно посмотреть, сможет ли ChatGPT 5.1 (с учетной записью Plus) выполнить ту же работу.
В окне подсказки ChatGPT я выбрал аудиофайл и ввел точно такую же подсказку. ЧатGPT сказал мне «Я определенно могу расшифровать аудио, но не могу получить доступ к файлу .m4a или воспроизвести его непосредственно из указанного вами места».
Далее последовала долгая дискуссия, в ходе которой ChatGPT неоднократно предлагал различные способы загрузки файла, включая преобразование его в ZIP-файл. Что бы я ни делал, ChatGPT отображал аудиофайл в окне командной строки, но не мог его прослушать.
В этом небольшом соревновании Gemini 3 Pro кажется победителем, превратив неприятную проблему в легкую победу. Меньше говорят о том, насколько это бесполезно Чем лучше транскрипция Notes Apple, тем лучше.

Лучшие бизнес-ноутбуки на любой бюджет
Следите за TechRadar в Новостях Google. И Добавьте нас в качестве предпочтительного источника чтобы получать новости, обзоры и мнения наших экспертов в своих лентах. Обязательно нажмите кнопку «Подписаться»!
И ты, конечно, тоже можешь Следите за TechRadar в TikTok за новостями, обзорами, распаковками в видео-форме и получайте от нас регулярные обновления WhatsApp к.

