Если вы использовали CHATGPT, вы, вероятно, были поражены тем, как естественно это обсуждает, как быстро он пишет или насколько полезно решать сложные проблемы. Неудивительно, что многие люди задаются вопросом: Является ли CHATGPT первой генеративной ИИ или большой языковой моделью (LLM)? Короткий ответ: Нет, но это определенно самый основной и широко принятый.

Генеративный ИИ-особенно тот, который производит человеческий текст-существует уже много лет. Такие модели, как GPT-2, BERT и даже ранние системы, основанные на правилах, проложили путь для современных инструментов. Но то, что отличает CHATGPT, — это доступность, масштаб и разговорная беглость. Построенный на архитектуре GPT Openai (в настоящее время в своей 4 -й итерации), Chatgpt популяризировал генеративный AI так же, как iPhone популяризировал смартфоны — это не был первым, но изменил игру.

Большая языковая модель (LLM)-это, по сути, глубокомуживая нейронная сеть, обучаемая огромным количеству текста. Эти модели предсказывают и генерируют текст на основе шаблонов, которые они видели во время обучения. Генеративный ИИ идет еще дальше — он не просто отвечает на вопросы, он создает: стихи, код, сценарии, эссе, резюме и многое другое.

CHATGPT достиг более 100 миллионов пользователей менее чем за два месяца, установив запись. Он также интегрирован в бизнес -инструменты, браузеры и программное обеспечение для производительности. Этот уровень интеграции и удобства пользователя является новым, но Концепции, стоящие за этим, датируются ранним исследованиям ИИ в 1960 -х годах и рост трансформаторных моделей в 2010 -х годах.

Итак, давайте разберем это. В этой статье мы рассмотрим эволюцию генеративного искусственного интеллекта, выделяют ключевые модели, которые были представлены перед CHATGPT, и рассмотрим, что делает его уникальным в ландшафте LLM.

Модели ИИ на ранней стадии до существования CHATGPT

До того, как Чатгп стал нарицательным, Модели ИИ на ранней стадии уже закладывали основу для того, что станет генеративным бумом ИИ. Эти основополагающие модели не были роскошными, но они были монументальными сами по себе.

Еще в 1960-х и 70-х годах модели ИИ были в основном на основе правил. Элиза, например, была компьютерной программой, разработанной в 1966 году, которая моделировала терапевта Роджера. Он использовал ответы на сопоставление и сценарии, а не истинное понимание, но в то время он удивлял пользователей. Несмотря на то, что он рудиментарный, он намекал на потенциал разговорного ИИ.

ЧИТАТЬ  Алахемба Уке против Альберто Иро: краткое изложение фактов, проблемы и решения - Bscholarly

Перенесемся в начало 2000 -х и 2010 -х годов, машинное обучение начало набирать обороты. Модели, как Word2VEC и Перчатка представил идею встроения слова — ничьих, немерных представлений о значении слова. Эти модели помогли компьютерам понять контекст и отношения между словами, даже если они еще не могли генерировать человеческие ответы.

Затем пришел Берт (двунаправленные представления энкодера от трансформаторов)представленный Google в 2018 году. Берт произвела революцию в обработке естественного языка, понимая весь контекст слова, посмотрев как до, так и после него в предложении. Но он не был создан для создания текста — он был разработан для таких задач, как ответ на вопрос и классификацию.

Что изменило все было GPT-2выпущенная Openai в 2019 году. В отличие от BERT, GPT-2 может генерировать последовательные абзацы текста. Это не было идеальным — часто многословным или повторяющимся — но это был первый раз, когда люди увидели, как ИИ писал так, чтобы он чувствовал настоящийПолем

Эти модели не были широко доступны для общественности, и у них не было простого интерфейса чата. Но это были решающие вехи, каждый из которых продвигал понимание языка, контекста и семантики. Chatgpt построил на всем этом — на плечах десятилетий исследований.

Модели на основе трансформаторов произвели революцию в генерации текста

Настоящий прорыв в генеративном ИИ пришел с Модели на основе трансформаторовПолем Перед трансформаторами языковые модели в значительной степени полагались на RNNS (повторяющиеся нейронные сети) и LSTM (длинные краткосрочные сети памяти), которые могли понимать последовательности, но боролись с долгосрочным контекстом и параллельной обработкой. Введите архитектуру трансформатора — сначала представлена ​​в статье 2017 года «Внимание — это все, что вам нужно» Васвани и др. — И все изменилось.

Трансформеры используют механизм, называемый «Самосматритие»что позволяет модели взвесить важность каждого слова в предложении относительно любого другого слова. Это означает, что он может понять контекст гораздо более точно и в большем масштабе. Вместо последовательного чтения текста трансформеры анализируют все это сразу — более бывает, умнее, глубже.

Эта архитектура стала основой для таких моделей, как Bert, GPT, T5 и в конечном итоге CHATGPT. В то время как Берт фокусируется на понимании языка, GPT (Generative Pretending Transformer) специализируется на Производство это. Модели GPT являются однонаправленными и авторегрессивными — они предсказывают следующее слово в последовательности, основанной на всех предыдущих.

ЧИТАТЬ  Является ли покупка обратных ссылок хорошей идеей для успеха SEO?

GPT-2 запустил заголовки для его впечатляющей способности генерировать абзацы, но GPT-3 поднял вещи на следующий уровень. С 175 миллиардами параметров (по сути, обученными весами в ее нейронной сети), GPT-3 мог писать статьи, код, суммировать тексты и имитировать человеческий тон с странной точностью.

Трансформеры также позволили тонкой настройке моделей по конкретным задачам с небольшими наборами данных-ключевой причиной, по которой у нас теперь есть нишевые помощники по ИИ для юридического, медицинского или творческого письма. Они также сделали многоязычную поддержку, адаптацию доменов и переключение задач более гладкой.

Так что нет, Chatgpt не первый. Но он построен на революции трансформатора, что Сделан генеративным ИИ возможным в масштабеПолем Без трансформаторов мы все равно застряли в эпоху неуклюжего, звездного контекстного чат-ботов.

Также см.:

Точная настраиваем

То, что действительно отличает CHATGPT от более ранних моделей, — это просто размер его архитектуры или данных, на которые он обучен — так это тонко настроенный Для гладких, естественных разговоров. Хотя GPT-3 был уже мощным, он не был особенно удобен для пользователя из коробки. CHATGPT изменил это, внедрив слои обучения, что заставило его не чувствовать себя не похоже на машину и больше как полезный помощник.

Эта точная настройка включала метод под названием Подкрепление обучения от обратной связи человека (RLHF)Полем По сути, человеческие тренеры забили и оценивали различные ответы ИИ на одни и те же подсказки. Со временем Чатгпт узнал, как выглядел «хороший» ответ — очень хорошо, безопасно, информативно и разговоры. Этот процесс научил модель более тесно соответствовать ожиданиям пользователей, что улучшает взаимодействие.

Из-за этого CHATGPT может справиться с диалогом обратно и в возрасте, запомнить предыдущие сообщения (в течение сеанса) и отвечать на нюансы, такие как тон, эмоции и подразумеваемый контекст. Это не просто попугайные факты — это формирует ответы, основанные на том, как люди естественным образом общаются. Ранее LLM не могли сделать это хорошо. Они часто были роботизированными, резкими или чрезмерно техническими. Чатгпт, однако, может объяснить квантовую физику на простом английском языке или помочь вам написать стихотворение на день рождения для вашей бабушки.

ЧИТАТЬ  Социальные сети и обмен мгновенными сообщениями для общения с клиентами

Модель также научилась более точно следовать инструкциям. Когда вы говорите: «Суммируйте это», «Сделайте это смешным» или «напишите это на шекспировском английском», Chatgpt адаптируется в режиме реального времени. Этот уровень гибкости является результатом обоих настройка инструкции и разговорные данные, на которые он был обучен.

Но это не идеально. Иногда это галлюцинирует факты или дает чрезвычайно уверенные ответы на неопределенные темы. Все же это Человеческий тон и адаптивные ответы Вот почему это первый генеративный ИИ, который многие люди искренне любят использовать.

Размер модели-это еще не все-тоже качество значений

Когда люди слышат об искусственном интеллекте, особенно с большими языковыми моделями, часто сосредоточено на Размер модели— измеряется в миллиардах или даже триллионах параметров. В то время как размер действительно имеет значение, настоящая магия часто происходит от Качество данных обучения и как эти данные используются во время точной настройки. CHATGPT является прекрасным примером этого принципа в действии.

Возьмите GPT-3, например. С его 175 миллиардами параметров, это огромно. Но просто быть большим не гарантирует лучших результатов. Фактически, плохо курируемые или смещенные данные в масштабе могут фактически сделать модель хуже — более подверженной ошибкам, дезинформации или даже оскорбительным результатам. То, что Openai сделал по -другому с Chatgpt, было подчеркнуто Чистые, высококачественные, аннотируемые человеком данные это учит модели не только то, что сказать, но и как Сказать это ответственно.

CHATGPT был обучен обширному корпусу, которое включает в себя книги, статьи, веб -сайты, диалоги и учебный контент. Но речь идет не только о том, чтобы иметь много текста. OpenAI фильтруют данные, чтобы избежать вредных смещений, и обучает модель, чтобы узнать, когда сказать «я не знаю» или предлагает сбалансированные точки зрения. Это добавляет к надежности модели — чего -то в ранних LLM часто не хватает.

Что еще более важно, Chatgpt был обучен на образцах разговоров в реальном мире. Эти примеры помогают ему понять тонкости человеческого взаимодействия, таких как вежливость, юмор, сарказм и косвенные запросы. Многие более старые модели могли обрабатывать факты, но не эмоции или контекст. Chatgpt может забрать, когда вы смущены, взволнованы или просто шутили, и соответственно адаптировать его тон.

Так что да, модельная архитектура имеет значение. Но меньшая модель, обученная на хорошо обработанные, разнообразные и репрезентативные данные часто превзойдет раздутый, заполненный шумным или неактуальным содержанием. Именно этот вдумчивый баланс масштаба и качества делает Chatgpt таким скачком в генеративном ИИ.

Также см.:



Source link