Технологические компании переключают свое внимание с создания крупнейших языковых моделей (LLM) на создание моделей меньшего размера (SLM), которые могут соответствовать им или даже превосходить их.
Известно, что Llama 3 от Meta (400 миллиардов параметров), GPT-3.5 от OpenAI (175 миллиардов параметров) и GPT-4 (по оценкам, 1,8 триллиона параметров) являются более крупными моделями, в то время как семейство Microsoft Phi-3 имеет от 3,8 до 14 миллиардов параметров, а Apple «Всего» интеллект имеет около 3 миллиардов параметров.
Хотя модели с гораздо меньшим количеством параметров могут показаться шагом назад, привлекательность SLM понятна. Они потребляют меньше энергии, могут работать локально на таких устройствах, как смартфоны и ноутбуки, и хорошо подходят для небольших предприятий и лабораторий, которые не могут позволить себе дорогое оборудование.
Давид против Голиафа
Как IEEE-спектр сообщает: «Рост SLM происходит в то время, когда разрыв в производительности между LLM быстро сокращается, а технологические компании стремятся отойти от обычных законов масштабирования и изучить другие способы повышения производительности».
В недавнем Тестовый раунд Phi-3-mini, самая маленькая модель технологического гиганта с 3,8 миллиардами параметров, была разработана Microsoft и в некоторых областях могла конкурировать с Mixtral (8 x 7 миллиардов) и GPT-3,5, хотя она была достаточно маленькой, чтобы быть телефоном. подходить. Его успех был основан на наборе данных, использованном для обучения, который состоял из «тщательно отфильтрованных общедоступных веб-данных и синтетических данных».
Хотя SLM достигают таких же способностей к пониманию языка и рассуждению, что и гораздо более крупные модели, они по-прежнему ограничены своим размером для определенных задач и не могут хранить слишком много «фактических» знаний. Эту проблему можно решить, объединив SLM с онлайн-поисковой системой.
IEEE-спектрСравнивая SLM с изучением языка детьми, Шубхам Агарвал говорит: «К тому времени, когда детям исполняется 13 лет, они знакомятся с примерно 100 миллионами слов и могут говорить лучше, чем чат-боты, даже несмотря на то, что они могут получить доступ только к 0,01 проценту данных». Агарвал отмечает: «Никто не знает, что делает людей настолько более эффективными». Алекс Варштадтисследователь компьютерных наук из ETH Zurich, предполагает, что «обратное проектирование эффективного обучения, подобного человеческому, в небольших масштабах может привести к огромным улучшениям при масштабировании до уровня LLM».