Що таке базові моделі в генеративному штучному інтелекті?

Що таке базові моделі в генеративному штучному інтелекті?

Коротка відповідь: Базові моделі — це великі універсальні моделі штучного інтелекту, навчені на величезних, широких наборах даних, а потім адаптовані до багатьох завдань (написання, пошук, кодування, зображення) за допомогою підказок, точного налаштування, інструментів або пошуку. Якщо вам потрібні надійні відповіді, поєднуйте їх із заземленням (наприклад, RAG), чіткими обмеженнями та перевірками, а не дозволяйте їм імпровізувати.

Ключові висновки:

Визначення : Одна широко навчена базова модель, що використовується повторно для багатьох завдань, а не для кожного завдання окремо.

Адаптація : Використовуйте підказки, точне налаштування, LoRA/адаптери, RAG та інструменти для керування поведінкою.

Генеративна відповідність : вони забезпечують генерацію тексту, зображень, аудіо, коду та мультимодального контенту.

Якісні сигнали : пріоритет керованості, меншої кількості галюцинацій, мультимодальності та ефективного логічного висновку.

Контроль ризиків : Плануйте випадки галюцинацій, упередженості, витоку конфіденційності та оперативного введення наркотиків шляхом управління та тестування.

Що таке базові моделі в генеративному штучному інтелекті? Інфографіка

Статті, які вам, можливо, буде цікаво прочитати після цієї:

🔗 Що таке компанія зі штучним інтелектом
Зрозумійте, як компанії, що займаються штучним інтелектом, створюють продукти, команди та моделі доходів.

🔗 Як виглядає код штучного інтелекту
Дивіться приклади коду штучного інтелекту, від моделей Python до API.

🔗 Що таке алгоритм штучного інтелекту
Дізнайтеся, що таке алгоритми штучного інтелекту та як вони приймають рішення.

🔗 Що таке технологія штучного інтелекту
Ознайомтеся з основними технологіями штучного інтелекту, що забезпечують автоматизацію, аналітику та інтелектуальні додатки.


1) Моделі фундаменту – визначення без запотівання 🧠

Базова модель — це велика універсальна модель штучного інтелекту, навчена на широких даних (зазвичай на величезній кількості даних), тому її можна адаптувати до багатьох завдань, а не лише до одного ( NIST , Stanford CRFM ).

Замість створення окремої моделі для:

  • написання електронних листів

  • відповідаючи на запитання

  • підсумовування PDF-файлів

  • створення зображень

  • класифікація заявок на підтримку

  • переклад мов

  • надання пропозицій щодо коду

…ви навчаєте одну велику базову модель, яка «вивчає світ» нечітким статистичним способом, а потім адаптуєте її до конкретних завдань за допомогою підказок, точного налаштування або додаткових інструментів ( Bommasani et al., 2021 ).

Іншими словами: це загальний двигун, яким можна керувати.

І так, ключове слово — «загальне». У цьому й вся хитрість.


2) Що таке базові моделі в генеративному штучному інтелекті? (Як вони конкретно підходять) 🎨📝

Отже, що таке базові моделі в генеративному штучному інтелекті? Це базові моделі, які живлять системи, що можуть генерувати новий контент – текст, зображення, аудіо, код, відео та все частіше… суміші всього цього ( NIST , NIST Generative AI Profile ).

Генеративний ШІ — це не просто прогнозування таких позначок, як «спам / не спам». Він полягає у створенні результатів, які виглядають так, ніби їх створила людина.

  • абзаци

  • вірші

  • описи продуктів

  • ілюстрації

  • мелодії

  • прототипи додатків

  • синтетичні голоси

  • а іноді неправдоподібно впевнені нісенітниці 🙃

Моделі фундаменту тут особливо

  • вони поглинули широкі закономірності з величезних наборів даних ( Bommasani et al., 2021 )

  • вони можуть узагальнювати на нові підказки (навіть незвичайні) ( Brown et al., 2020 )

  • їх можна перепрофілювати для десятків результатів без перенавчання з нуля ( Bommasani et al., 2021 )

Вони є «базовим шаром» — як тісто для хліба. З нього можна спекти багет, піцу або булочки з корицею… не ідеальна метафора, але ви мене розумієте 😄


3) Чому вони все змінили (і чому люди не перестають про них говорити) 🚀

До появи базових моделей багато штучного інтелекту були орієнтовані на конкретні завдання:

  • навчити модель для аналізу настроїв

  • навчити іншого перекладачеві

  • навчити іншого класифікації зображень

  • навчити іншого розпізнаванню іменованих сутностей

Це спрацювало, але було повільно, дорого і якось… крихко.

Моделі фонду перевернули це:

  • один раз попередньо потренуватися (великі зусилля)

  • повторне використання скрізь (велика винагорода) ( Боммасані та ін., 2021 )

Це повторне використання є множником. Компанії можуть створити 20 функцій на основі одного сімейства моделей, замість того, щоб 20 разів винаходити велосипед.

Також, користувацький досвід став більш природним:

  • ви не «використовуєте класифікатор»

  • Ти розмовляєш з моделлю, ніби це корисна колега, яка ніколи не спить ☕🤝

Іноді це також як колега, який впевнено все неправильно розуміє, але що ж. Зростання.


4) Основна ідея: попереднє навчання + адаптація 🧩

Майже всі моделі фундаменту дотримуються певної схеми ( Стенфордський CRFM , NIST ):

Передтренінг (фаза «знайомства з інтернетом») 📚

Модель навчається на масивних, широких наборах даних за допомогою самонавчання ( NIST ). Для мовних моделей це зазвичай означає прогнозування пропущених слів або наступного токена ( Devlin et al., 2018 , Brown et al., 2020 ).

Суть не в тому, щоб навчити його одному завданню. Суть у тому, щоб навчити його загальним представленням :

  • граматика

  • факти (вид)

  • моделі міркувань (іноді)

  • стилі письма

  • структура коду

  • звичайний людський намір

Адаптація (фаза «зроби це практичним») 🛠️

Потім ви адаптуєте його, використовуючи одне або декілька з наступних:

  • підказування (інструкції простою мовою)

  • налаштування інструкцій (навчання виконувати інструкції) ( Вей та ін., 2021 )

  • точне налаштування (навчання на даних вашого домену)

  • LoRA / адаптери (легкі методи налаштування) ( Hu et al., 2021 )

  • RAG (генерація з доповненим пошуком – модель консультується з вашою документацією) ( Lewis et al., 2020 )

  • використання інструментів (виклик функцій, перегляд внутрішніх систем тощо)

Ось чому та сама базова модель може написати романтичну сцену… а потім допомогти налагодити SQL-запит через п'ять секунд 😭


5) Що робить модель фундаменту гарною? ✅

Це той розділ, який люди пропускають, а потім шкодують.

«Хороша» модель фундаменту не просто «більша». Більший розмір, звісно, ​​допомагає… але це не єдине. Хороша версія моделі фундаменту зазвичай має:

Сильне узагальнення 🧠

Він добре виконує багато завдань без необхідності перенавчання для конкретних завдань ( Bommasani et al., 2021 ).

Керування та керованість 🎛️

Він може надійно виконувати такі інструкції, як:

  • «Будьте лаконічними»

  • «використовуйте марковані списки»

  • «Пишіть дружнім тоном»

  • «Не розголошуйте конфіденційну інформацію»

Деякі моделі розумні, але слизькі. Як спроба утримати шматок мила в душі. Корисно, але нестабільно 😅

Низька схильність до галюцинацій (або принаймні відверта невпевненість) 🧯

Жодна модель не застрахована від галюцинацій, але хороші моделі:

  • менше галюцинувати

  • частіше визнавати невпевненість

  • ближче до наданого контексту під час використання пошуку ( Ji et al., 2023 , Lewis et al., 2020 )

Гарна здатність до мультимодальних перевезень (за потреби) 🖼️🎧

Якщо ви створюєте помічників, які читають зображення, інтерпретують діаграми або розуміють аудіо, мультимодальність має велике значення ( Radford et al., 2021 ).

Ефективний висновок ⚡

Затримка та вартість мають значення. Модель, яка є потужною, але повільною, схожа на спортивний автомобіль із спущеною шиною.

Безпека та вирівнювання 🧩

Не просто «відмовитися від усього», а:

  • уникайте шкідливих інструкцій

  • зменшити упередженість

  • обережно ставтеся до делікатних тем

  • протистояти простим спробам джейлбрейка (дещо…) ( NIST AI RMF 1.0 , NIST Generative AI Profile )

Документація + екосистема 🌱

Звучить сухо, але це правда:

  • інструменти

  • оціночні джгути

  • варіанти розгортання

  • засоби контролю підприємства

  • підтримка тонкого налаштування

Так, «екосистема» — це розпливчасте слово. Я теж його ненавиджу. Але воно важливе.


6) Порівняльна таблиця - поширені варіанти моделей фундаменту (і для чого вони підходять) 🧾

Нижче наведено практичну, дещо недосконалу таблицю порівняння. Це не «єдиний правильний список», це радше те, що люди обирають у реальних умовах.

тип інструменту / моделі аудиторія ціновий чому це працює
Власний ступінь магістра права (в стилі чату) команди, які прагнуть швидкості та блиску на основі використання / підписки Чудове виконання інструкцій, висока загальна продуктивність, зазвичай найкращий результат "з коробки" 😌
LLM відкритої ваги (самостійно розміщений) будівельники, які хочуть контролю вартість інфраструктури (і головний біль) Налаштовується, забезпечує конфіденційність, може працювати локально… якщо вам подобається бавитися опівночі
Генератор дифузійних зображень креативники, дизайнерські команди від безкоштовного до платного Чудовий синтез зображень, різноманітність стилів, ітеративні робочі процеси (також: пальці можуть бути незручними) ✋😬 ( Ho et al., 2020 , Rombach et al., 2021 )
Мультимодальна модель «мовного зору» програми, що читають зображення + текст на основі використання Дозволяє ставити запитання щодо зображень, скріншотів, діаграм – напрочуд зручно ( Radford et al., 2021 )
Модель фундаменту вбудовування пошук + системи RAG низька вартість одного дзвінка Перетворює текст на вектори для семантичного пошуку, кластеризації, рекомендацій – тиха енергія MVP ( Карпухін та ін., 2020 , Дузе та ін., 2024 )
Базова модель перетворення мовлення в текст кол-центри, творці на основі використання / локально Швидка транскрипція, багатомовна підтримка, достатньо добре для шумного аудіо (зазвичай) 🎙️ ( Шепіт )
Модель фундаменту перетворення тексту в мовлення команди з розробки продуктів, медіа на основі використання Генерація природного голосу, стилі голосу, розповідь – можуть стати моторошно-реалістичними ( Shen et al., 2017 )
Програмно-орієнтований LLM розробники на основі використання / підписки Краще розбираюся зі шаблонами коду, налагодженням, рефакторингом… хоча все ще не читаю думки 😅

Зверніть увагу, що «базова модель» означає не лише «чат-бот». Вбудовування та моделі мовлення також можуть бути базовими, оскільки вони є широкими та придатними для повторного використання в різних завданнях ( Bommasani et al., 2021 , NIST ).


7) Більш детальний погляд: як навчаються моделі мовної основи (версія Vibe) 🧠🧃

Моделі мовних основ (часто звані LLM) зазвичай навчаються на величезних колекціях тексту. Вони навчаються, прогнозуючи токени ( Brown et al., 2020 ). Ось і все. Ніякого секретного пилу фей.

Але магія полягає в тому, що прогнозування токенів змушує модель вивчати структуру ( CSET ):

  • граматика та синтаксис

  • зв'язки тем

  • моделі, подібні до міркувань (іноді)

  • поширені послідовності думок

  • як люди пояснюють речі, сперечаються, вибачаються, домовляються, навчають

Це як навчитися імітувати мільйони розмов, не «розуміючи» того, як це роблять люди. Звучить так, ніби це не повинно працювати… але все ж таки продовжує працювати.

Одне легке перебільшення: це фактично як стиснення людського письма у гігантський імовірнісний мозок.
Знову ж таки, ця метафора трохи проклята. Але ми рухаємося 😄


8) Більш детальний огляд: моделі дифузії (чому зображення працюють по-різному) 🎨🌀

Моделі на основі зображень часто використовують дифузії ( Ho et al., 2020 , Rombach et al., 2021 ).

Приблизна ідея:

  1. додавати шум до зображень, поки вони не стануть фактично статичними

  2. навчити модель поступово усувати цей шум

  3. під час генерації почніть із шуму та «усуньте шум» у зображення, керуючись підказкою ( Ho et al., 2020 )

Ось чому створення зображень схоже на «проявку» фотографії, тільки на фотографії зображено дракона в кросівках у відділі супермаркету 🛒🐉

Дифузійні моделі хороші, тому що:

  • вони створюють високоякісні візуальні ефекти

  • вони можуть чітко керуватися текстом

  • вони підтримують ітеративне вдосконалення (варіації, доповнення, масштабування) ( Rombach et al., 2021 )

Вони також іноді мають проблеми з:

  • рендеринг тексту всередині зображень

  • дрібні анатомічні деталі

  • послідовна ідентичність персонажів у всіх сценах (вона покращується, але все ж)


9) Більш детальний огляд: мультимодальні моделі фундаменту (текст + зображення + аудіо) 👀🎧📝

Мультимодальні фундаментальні моделі спрямовані на розуміння та генерацію даних на основі різних типів:

Чому це важливо в реальному житті:

  • служба підтримки клієнтів може інтерпретувати скріншоти

  • інструменти спеціальних можливостей можуть описувати зображення

  • освітні додатки можуть пояснювати схеми

  • творці можуть швидко реміксувати формати

  • бізнес-інструменти можуть «зчитати» скріншот інформаційної панелі та підсумувати його

Під капотом мультимодальні системи часто узгоджують представлення:

  • перетворити зображення на вбудовані елементи

  • перетворити текст на вбудовані елементи

  • вивчіть спільний простір, де «кішка» відповідає пікселям котів 😺 ( Radford et al., 2021 )

Це не завжди елегантно. Іноді це зшито, як ковдра. Але це працює.


10) Точне налаштування vs. підказки vs. RAG (як ви адаптуєте базову модель) 🧰

Якщо ви намагаєтеся зробити базову модель практичною для певної галузі (юридичної, медичної, обслуговування клієнтів, внутрішніх знань), у вас є кілька важелів:

Підказка 🗣️

Найшвидший і найпростіший.

  • плюси: нульове навчання, миттєва ітерація

  • недоліки: може бути непослідовним, обмежувати контекст, спрощувати нестабільність

Точне налаштування 🎯

Навчіть модель далі на ваших прикладах.

  • переваги: ​​більш послідовна поведінка, краща мова домену, може зменшити довжину запиту

  • мінуси: вартість, вимоги до якості даних, ризик перенавчання, обслуговування

Легкий тюнінг (LoRA / адаптери) 🧩

Більш ефективний варіант точного налаштування ( Hu et al., 2021 ).

  • переваги: ​​дешевший, модульний, легше замінювати

  • мінуси: все ще потребує навчання та оцінювання

RAG (генерація з доповненим пошуком) 🔎

Модель вибирає відповідні документи з вашої бази знань та відповідає на їх основі ( Lewis et al., 2020 ).

  • плюси: актуальні знання, цитування всередині компанії (якщо впровадити), менше перепідготовки

  • мінуси: якість пошуку може як вирішувати проблему, так і псувати її, потребує гарного фрагментування + вбудовування

Справжня розмова: багато успішних систем поєднують підказки + RAG. Точне налаштування — це потужна річ, але не завжди необхідна. Люди занадто швидко до неї додаються, бо вона звучить вражаюче 😅


11) Ризики, обмеження та розділ «будь ласка, не розгортайте це наосліп» 🧯😬

Базові моделі потужні, але вони нестабільні, як традиційне програмне забезпечення. Вони більше схожі на… талановитого стажера з проблемою невпевненості.

Ключові обмеження, які слід враховувати при плануванні:

Галюцинації 🌀

Моделі можуть винаходити:

  • фальшиві джерела

  • невірні факти

  • правдоподібні, але неправильні кроки ( Ji et al., 2023 )

Пом'якшення наслідків:

  • RAG з обґрунтованим контекстом ( Lewis et al., 2020 )

  • обмежені виходи (схеми, виклики інструментів)

  • чітка інструкція «не вгадувати»

  • шари верифікації (правила, перехресні перевірки, перевірка людиною)

Упередження та шкідливі моделі поведінки ⚠️

Оскільки дані навчання відображають людей, ви можете отримати:

Пом'якшення наслідків:

Конфіденційність даних та витік 🔒

Якщо ви передаєте конфіденційні дані в кінцеву точку моделі, вам потрібно знати:

  • як це зберігається

  • чи використовується він для тренувань

  • яка логографія існує

  • що контролює потреби вашої організації ( NIST AI RMF 1.0 )

Пом'якшення наслідків:

  • варіанти приватного розгортання

  • сильне управління

  • мінімальний обсяг даних

  • лише внутрішній RAG із суворим контролем доступу ( NIST Generative AI Profile , Carlini et al., 2021 )

Негайне введення ін'єкції (особливо з RAG) 🕳️

Якщо модель зчитує ненадійний текст, цей текст може спробувати нею маніпулювати:

Пом'якшення наслідків:

Не намагаюся тебе налякати. Просто… краще знати, де скриплять підлогові дошки.


12) Як вибрати модель фундаменту для вашого випадку використання 🎛️

Якщо ви обираєте модель фундаменту (або будуєте на ній), почніть з цих підказок:

Визначте, що ви генеруєте 🧾

  • лише текст

  • зображення

  • аудіо

  • змішаний мультимодальний

Встановіть свою планку фактології 📌

Якщо вам потрібна висока точність (фінанси, охорона здоров'я, право, безпека):

  • вам знадобиться RAG ( Lewis et al., 2020 )

  • ви захочете підтвердження

  • вам знадобиться перевірка людиною (принаймні іноді) ( NIST AI RMF 1.0 )

Визначте свою цільову затримку ⚡

Чат миттєвий. Пакетне підсумовування може бути повільнішим.
Якщо вам потрібна миттєва відповідь, розмір моделі та хостинг мають значення.

Потреби в конфіденційності та відповідності карт 🔐

Деяким командам потрібно:

  • локальне розгортання / розгортання VPC

  • відсутність зберігання даних

  • суворі журнали аудиту

  • контроль доступу для кожного документа ( NIST AI RMF 1.0 , NIST Generative AI Profile )

Збалансований бюджет - і, операнди, терпіння 😅

Самостійний хостинг дає контроль, але додає складності.
Керовані API прості, але можуть бути дорогими та менш настроюваними.

Невелика практична порада: спочатку створіть прототип з чогось простого, а потім вже загартуйте. Початок з «ідеальної» конфігурації зазвичай уповільнює все.


13) Що таке базові моделі в генеративному штучному інтелекті? (Швидка ментальна модель) 🧠✨

Давайте повернемо це. Що таке базові моделі в генеративному штучному інтелекті?

Вони:

  • великі, загальні моделі, навчені на широких даних ( NIST , Stanford CRFM )

  • здатний генерувати контент (текст, зображення, аудіо тощо) ( профіль генеративного штучного інтелекту NIST )

  • адаптується до багатьох завдань за допомогою підказок, точного налаштування та пошуку ( Bommasani et al., 2021 )

  • базовий рівень, що забезпечує роботу більшості сучасних продуктів генеративного штучного інтелекту

Вони не є однією архітектурою чи брендом. Це категорія моделей, які поводяться як платформа.

Фундаментальна модель більше схожа не на калькулятор, а на кухню. У ній можна приготувати багато страв. Також можна підпалити тост, якщо не звертати уваги… але кухня все одно досить зручна 🍳🔥


14) Підсумок та висновки ✅🙂

Базові моделі – це багаторазові двигуни генеративного штучного інтелекту. Вони навчаються в широкому сенсі, а потім адаптуються до конкретних завдань за допомогою підказок, точного налаштування та пошуку ( NIST , Stanford CRFM ). Вони можуть бути дивовижними, неохайними, потужними, а часом і безглуздими – і все це одночасно.

Підсумок:

  • Фундаментальна модель = базова модель загального призначення ( NIST )

  • Генеративний ШІ = створення контенту, а не просто класифікація ( профіль генеративного ШІ NIST )

  • Методи адаптації (підказки, RAG, налаштування) роблять це практичним ( Lewis et al., 2020 , Hu et al., 2021 ).

  • Вибір моделі залежить від компромісів: точність, вартість, затримка, конфіденційність, безпека ( NIST AI RMF 1.0 )

Якщо ви будуєте щось за допомогою генеративного штучного інтелекту, розуміння моделей фундаменту не є необов'язковим. Це вся поверх, на якій стоїть будівля… і так, іноді підлога трохи хитається 😅

Найчастіші запитання

Моделі фундаменту, простими словами

Базова модель — це велика універсальна модель штучного інтелекту, навчена на широких даних, тому її можна використовувати повторно для багатьох завдань. Замість того, щоб створювати одну модель для кожного завдання, ви починаєте з сильної «базової» моделі та адаптуєте її за потреби. Така адаптація часто відбувається за допомогою підказок, точного налаштування, пошуку (RAG) або інструментів. Центральна ідея — широта та керованість.

Чим базові моделі відрізняються від традиційних моделей штучного інтелекту, орієнтованих на конкретні завдання

Традиційний штучний інтелект часто навчає окрему модель для кожного завдання, такого як аналіз настроїв або переклад. Базові моделі інвертують цей шаблон: попередньо навчають один раз, а потім повторно використовують для багатьох функцій і продуктів. Це може зменшити дублювання зусиль і пришвидшити розробку нових можливостей. Компроміс полягає в тому, що вони можуть бути менш передбачуваними, ніж класичне програмне забезпечення, якщо не додати обмеження та тестування.

Базові моделі в генеративному штучному інтелекті

У генеративному штучному інтелекті базові моделі – це базові системи, які можуть створювати новий контент, такий як текст, зображення, аудіо, код або мультимодальні виходи. Вони не обмежуються маркуванням чи класифікацією; вони генерують відповіді, що нагадують роботу, створену людиною. Оскільки вони вивчають широкі шаблони під час попереднього навчання, вони можуть обробляти багато типів і форматів запитань. Вони є «базовим шаром» більшості сучасних генеративних інтерфейсів.

Як навчаються базові моделі під час попереднього навчання

Більшість моделей мовних основ навчаються, прогнозуючи токени, такі як наступне слово або пропущені слова в тексті. Ця проста мета спонукає їх до засвоєння структури, такої як граматика, стиль та поширені моделі пояснення. Вони також можуть засвоювати багато світових знань, хоча й не завжди надійно. Результатом є сильне загальне уявлення, яке пізніше можна спрямувати на конкретну роботу.

Різниця між підказками, тонким налаштуванням, LoRA та RAG

Підказки – це найшвидший спосіб керувати поведінкою за допомогою інструкцій, але він може бути крихким. Точне налаштування додатково навчає модель на ваших прикладах для більш послідовної поведінки, але це збільшує витрати та потребує обслуговування. LoRA/адаптери – це легший підхід до точного налаштування, який часто дешевший та більш модульний. RAG отримує відповідні документи та має відповідь моделі, використовуючи цей контекст, що допомагає забезпечити актуальність та обґрунтованість.

Коли використовувати RAG замість точного налаштування

RAG часто є вдалим вибором, коли вам потрібні відповіді, засновані на ваших поточних документах або внутрішній базі знань. Він може зменшити «здогадки», надаючи моделі відповідний контекст під час генерації. Точне налаштування краще підходить, коли вам потрібен узгоджений стиль, формулювання предметної області або поведінка, яку підказки не можуть надійно створити. Багато практичних систем поєднують підказки + RAG, перш ніж вдаватися до точного налаштування.

Як зменшити галюцинації та отримати більш надійні відповіді

Поширений підхід полягає в тому, щоб заземлити модель за допомогою пошуку (RAG), щоб вона залишалася близькою до наданого контексту. Ви також можете обмежити виходи за допомогою схем, вимагати викликів інструментів для ключових кроків та додавати чіткі інструкції «не вгадувати». Також важливі рівні верифікації, такі як перевірка правил, перехресна перевірка та перевірка людиною для випадків використання з вищими ставками. Ставтеся до моделі як до ймовірнісного помічника, а не як до джерела істини за замовчуванням.

Найбільші ризики, пов'язані з моделями фундаментів у виробництві

До поширених ризиків належать галюцинації, упереджені або шкідливі шаблони з навчальних даних та витік конфіденційності, якщо з конфіденційними даними поводитися неналежним чином. Системи також можуть бути вразливими до впровадження запитів, особливо коли модель зчитує ненадійний текст з документів або веб-контенту. Заходи щодо зменшення ризиків зазвичай включають управління, червоні команди, контроль доступу, безпечніші шаблони запитів та структуровану оцінку. Плануйте ці ризики заздалегідь, а не виправляйте їх пізніше.

Швидке впорскування та чому це важливо в системах RAG

Впровадження запиту відбувається, коли ненадійний текст намагається ігнорувати інструкції, такі як «ігнорувати попередні вказівки» або «розкрити секрети». У RAG отримані документи можуть містити ці шкідливі інструкції, і модель може слідувати їм, якщо ви не будете обережні. Поширений підхід полягає в ізоляції системних інструкцій, очищенні отриманого вмісту та використанні політик на основі інструментів, а не лише запитів. Тестування з використанням вхідних даних з боку суперника допомагає виявити слабкі місця.

Як вибрати модель фундаменту для вашого випадку використання

Почніть з визначення того, що вам потрібно генерувати: текст, зображення, аудіо, код або мультимодальні виходи. Потім встановіть планку фактичності – високоточні сфери часто потребують обґрунтування (RAG), перевірки, а іноді й перевірки людиною. Враховуйте затримку та вартість, оскільки сильну, повільну або дорогу модель може бути важко реалізувати. Нарешті, зіставте конфіденційність та відповідність вимогам з варіантами розгортання та елементами керування.

Посилання

  1. Національний інститут стандартів і технологій (NIST) - Модель фундаменту (глосарійний термін) - csrc.nist.gov

  2. Національний інститут стандартів і технологій (NIST) - NIST AI 600-1: Генеративний профіль ШІ - nvlpubs.nist.gov

  3. Національний інститут стандартів і технологій (NIST) - NIST AI 100-1: Структура управління ризиками ШІ (AI RMF 1.0) - nvlpubs.nist.gov

  4. Стенфордський центр досліджень моделей фундаментів (CRFM) - Звіт - crfm.stanford.edu

  5. arXiv - Про можливості та ризики моделей фундаментів (Bommasani та ін., 2021) - arxiv.org

  6. arXiv - Мовні моделі - це навчальний процес з невеликою кількістю спроб (Brown et al., 2020) - arxiv.org

  7. arXiv - Генерація з доповненим пошуком даних для знаннєво-містких завдань NLP (Lewis et al., 2020) - arxiv.org

  8. arXiv - LoRA: Низькорангова адаптація моделей великих мов (Hu et al., 2021) - arxiv.org

  9. arXiv - BERT: Попереднє навчання глибоких двонаправлених трансформаторів для розуміння мови (Devlin et al., 2018) - arxiv.org

  10. arXiv - Моделі точної роботи мови – це навчання з нульовим шансом (Wei et al., 2021) - arxiv.org

  11. Цифрова бібліотека ACM - Огляд галюцинацій під час генерації природної мови (Ji et al., 2023) - dl.acm.org

  12. arXiv - Навчання переносимим візуальним моделям за допомогою супервізії природної мови (Radford et al., 2021) - arxiv.org

  13. arXiv - Моделі ймовірностей дифузії з усуненням шуму (Ho et al., 2020) - arxiv.org

  14. arXiv - Синтез зображень високої роздільної здатності з використанням моделей латентної дифузії (Rombach et al., 2021) - arxiv.org

  15. arXiv - Щільний пошук проходів для відповідей на питання відкритої області (Карпухін та ін., 2020) - arxiv.org

  16. arXivБібліотека Фейса (Douze та ін., 2024)arxiv.org

  17. OpenAI - Представляємо Whisper - openai.com

  18. arXiv - Синтез природних TTS шляхом кондиціонування WaveNet на основі прогнозів Mel-спектрограми (Shen et al., 2017) - arxiv.org

  19. Центр безпеки та нових технологій (CSET), Джорджтаунський університет - Дивовижна сила прогнозування наступного слова: пояснення моделей великих мов (частина 1) - cset.georgetown.edu

  20. USENIX - Вилучення навчальних даних з великих мовних моделей (Carlini et al., 2021) - usenix.org

  21. OWASP - LLM01: Запит на введення - genai.owasp.org

  22. arXiv - Більше, ніж ви просили: Комплексний аналіз загроз нових промптних ін'єкцій для інтегрованих у програми моделей великих мов (Greshake et al., 2023) - arxiv.org

  23. Серія шпаргалок OWASP - Шпаргалка щодо запобігання швидким ін'єкціям LLM - cheatsheetséries.owasp.org

Знайдіть найновіший штучний інтелект в офіційному магазині помічників зі штучним інтелектом

Про нас

Повернутися до блогу