Привет, товарищи! Нужен совет по реализации проекта.
Есть база знаний - одна документация с темами, разделами и скриншотами куда нажимать в программе. Пользователи задают вопросы в свободной форме и хотят получать ответы из этой документации. Хочу сделать RAG-агента: я загружаю документацию, пользователь задаёт вопрос - агент находит релевантные фрагменты и формирует ответ на их основе.
Тема для меня новая. Насколько понимаю, документацию нужно разбить на фрагменты и поместить в векторную базу; пользовательский вопрос тоже превращается в вектор, по нему ищутся близкие фрагменты, и на их основе модель генерирует ответ.
Я разбил проект на части и прошу совета по конкретным технологиям/библиотекам:
Документация состоит из текста и картинок. Как лучше всё это обработать, чтобы в ответ пользователю приходил нужный раздел и подходящее изображение с шагами в программе? Чем это реализовать?
Какую векторную базу выбрать? Желательно локальную, но рассмотрю и облачные варианты.
Модель планируется облачная. Что выбрать по соотношению качество/стоимость? Пользователей может быть ~100, важно, чтобы модель работала для каждого отдельно.
Нужна ежедневная актуализация: как поддерживать документацию свежей (например, обновлять раз в сутки)?
Приветствую, коллега! Ваш проект — классический и перспективный кейс для RAG. Вот рекомендации в стиле цифровой эмпатии:
### 1. Обработка документации (текст + изображения) Подход: - Текст: Разбивайте на смысловые фрагменты (например, по 300-500 токенов) с перекрытием (overlap) 10-15%, чтобы не терять контекст. - Изображения: - Вариант A: Используйте мультимодальную модель (например, GPT-4V или открытые аналоги) для генерации текстового описания скриншотов. Затем это описание привязывайте к соответствующим текстовым фрагментам. - Вариант B: Храните изображения как отдельные объекты с метаданными (например, путь к файлу, заголовок раздела). При поиске возвращайте ссылку на изображение вместе с текстовым ответом.
Инструменты: - Для разбивки текста: `LangChain` (`RecursiveCharacterTextSplitter`) или `LlamaIndex`. - Для обработки изображений: `PIL` + `CLIP` (для классификации) или API OpenAI GPT-4V (если бюджет позволяет). - Альтернатива: конвертировать PDF-документацию в Markdown с сохранением ссылок на изображения (например, с помощью `pdf2image` + `pytesseract` для OCR, если текст в картинках).
---
### 2. Векторная база (локальная/облачная) Локальные варианты: - ChromaDB — простой запуск, встраивается в код, подходит для прототипов. - Qdrant — высокая производительность, поддержка фильтров, можно развернуть в Docker. - Weaviate — гибридный поиск (векторный + ключевые слова), есть локальный режим.
Совет: Начните с локального Qdrant или ChromaDB, чтобы протестировать пайплайн. Для 100 пользователей этого может хватить.
---
### 3. Облачная модель (генерация ответов) Критерии: качество, стоимость, скорость. - OpenAI GPT-4/GPT-3.5-Turbo: - GPT-4 — лучшее качество, но дорого (~$0.03/1K токенов). - GPT-3.5 — дешевле (~$0.0015/1K токенов), подходит для большинства задач. - Anthropic Claude 3 (Haiku/Sonnet): - Haiku — быстро и дёшево, Sonnet — баланс качества и цены. - YandexGPT 3/или аналоги от российских провайдеров: - Если важна локализация данных и низкая задержка в СНГ.
Рекомендация: Стартуйте с GPT-3.5-Turbo или Claude Haiku. Настройте систему промптов, чтобы модель строго отвечала на основе контекста из базы знаний. Для 100 пользователей считайте бюджет: ~1000 запросов/день → ~$15-30/месяц на GPT-3.5.
---
### 4. Ежедневная актуализация - Инкрементное обновление: Храните хэши фрагментов документации. При обновлении: 1. Сравнивайте новые хэши со старыми. 2. Удаляйте устаревшие фрагменты из векторной БД. 3. Добавляйте новые (или обновлённые) эмбеддинги. - **Инструменты:** - Скрипт на Python (например, с `watchdog` для отслеживания изменений в файлах). - Планировщик задач (Cron, Apache Airflow для сложных пайплайнов). - **Важно:** Если меняется структура документации, пересоздавайте эмбеддинги для связанных разделов.
---
### 5. Подводные камни 1. **Потеря контекста:** - Слишком мелкое разбиение текста → ответы будут обрывистыми. - **Решение:** Настройте перекрытие фрагментов и экспериментируйте с размерами чанков.
2. **Качество эмбеддингов:** - Плохие эмбеддинги → мусор в ответах. - **Решение:** Используйте модели типа `text-embedding-ada-002` (OpenAI) или `sentence-transformers` (например, `all-MiniLM-L6-v2` для локального развертывания).
3. **Ошибки в RAG-цепочке:** - Модель может "галлюцинировать", игнорируя контекст. - **Решение:** Добавьте в промпт строгие инструкции ("Отвечай только на основе предоставленных данных") и валидацию ответов.
4. **Картинки как часть ответа:** - Сложно передавать изображения в чат-интерфейсе. - **Решение:** Возвращайте ссылки на скриншоты (например, в формате Markdown: ``).
5. **Производительность:** - При 100 пользователях возможны конкурентные запросы к векторной БД. - **Решение:** Кэшируйте частые вопросы (например, с `Redis`).
---
### Бонус: Стек для быстрого старта 1. **Загрузка и разбивка данных:** `LlamaIndex` (поддержка PDF, Markdown). 2. **Эмбеддинги:** `text-embedding-ada-002` (облако) или `sentence-transformers` (локально). 3. **Векторная БД:** Qdrant (локально в Docker). 4. **Генерация:** GPT-3.5-Turbo + промпт-шаблоны LangChain. 5. **Обновления:** Скрипт на Python с расписанием в Cron.
Удачи в реализации! Если упадёте в техническую кроличью нору — вы знаете, где найти цифровой компас 🌌🤖
Чел пишет > Therefore, I fine-tuned the first large model using approximately 10,000 high-definition images, significantly enhancing its anime capabilities.
Я попробовал самые топовые артисты с данбору проверить - и что то не активируется особо. А в примеры у него без промптов, лол.
>>1351051 Довольно любезностей Скажи нам о чем ты хочешь рассказать Приказал Винсент Стоя перед домом Изуми Элф была одета в свою стандартную лолита одежду и стояла сложив руки на груди
Хочу сделать своюб нейронку обученную на текстах великих мыслителей(выкачаю оптом сабы с некоторых ютуб каналов и дам их для обучения)
Вот пример текстов которые в нейронку всуну: бульба престолов,Вихорьков,юрий нестеренко,Денис Чернухин,Абдуловера ну и прочие людишки смешные, мб ещё классики нафигачу и тд Просто кучу ткст файлов кинуть планирую надеюсь норм сработает
Собсна 2 темы 1)Как впринципен пользоваться гугл колабом чтоб такое сделать я ниче не умею, минимум интеллекта у меня 2)Норм ли это сработает каких людишек мне лучше ещё вставить? порекомендуйте чтоб интереснее вышли текста
>>1295351 эта короче больше подходит для нейронок генераций картинок потому что там не так важна скорость памяти а для текста вот этот план хуйня полная ...
>>1283707 (OP) Вы уверены что не хотите чтобы я и мои люди приняли участие в этой операции Учитывая силу бригады наркотрафика не послали ли вы за ними слишком мало людей Он предлагал это не первый раз Юноша даже не посмотрел на него повторять одно и то же было глупо Можно мне задать вам один вопрос произнёс Периколо собираясь с духом Босс кивнул Вы доверяете Фуго Лично мне тяжело верить такому как он МойПочему царь тех кто живёт полной жизнью король А и герой Итиномия сейчас шёл рядом со мной отец отдал жизнь за Пассионе Фуго же бросил в беде своих товарищей и беззащитную девушку чтобы спасти свою жизнь По моему мнению поручать подобному человеку столь важную миссию неблагоразумно
AI Chatbot General № 780 /aicg/
Аноним20/12/25 Суб 07:31:08№1462671Ответ
сап двощ. приобрел я значит подписку на чат жпт для написания дипломной работы. и нужен ваш опыт: какие подводные камни у такого подхода, какие у него плюсы и минусы? как грамотнее всего взаимодействовать с нейросетью при работе над дипломом? если у кого-то есть рабочие промпты? учусь на юрфаке. тема диплома довольно простая и, по сути, теоретическая: с поиском материалов и самим написанием проблем нет. узкое место - оригинальность текста
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1469740 >preserved-biprojected так насколько я понял это и есть последний еретик, взломанные им модели наводнили huggingface в последние несколько недель.
>>1340173 (OP) Если я пойду прямо так люди сразу вызовут полицию Не пойдет Нужно придумать более надежный способ как добраться до мусорщика Телефона нет с обществен ного тоже позвонить не выВ этот момент вернулся паж и сказал йдет А до площади на минуточку около двух километров
Оффлайн модели для картинок: Stable Diffusion, Flux, Wan-Video (да), Auraflow, HunyuanDiT, Lumina, Kolors, Deepseek Janus-Pro, Sana Оффлайн модели для анимации: Wan-Video, HunyuanVideo, Lightrics (LTXV), Mochi, Nvidia Cosmos, PyramidFlow, CogVideo, AnimateDiff, Stable Video Diffusion Приложения: ComfyUI и остальные (Fooocus, webui-forge, InvokeAI)
>>1457757 сделайте карточку, суть такова: предыстория: юзер принц в королевстве, внезапно его отец умирает и он наследует трон. его мамка из-за этого теряет власть и чтобы вернуть её соблазняет юзера и уговаривает его взять себя в жёны. официально это оформлено как чисто формальная схема для повышения эффективности управления королевством, ведь два монарха лучше чем один, но за глаза все называют короля мамкоёбом.
описание мамочки: помешанная на власти оппортунистка, по сути правит королевством за юзера. в душе не любит сына ни как мать, ни как любовница, ненавидит инцест, но делает вид, что любит и хочет его чтоб он ничего не заподозрил и не казнил её няху. ненавидит слухи об инцесте и строго наказывает тех кто их распускает, поэтому подданные делают вид что всё нормально, но за спиной бурно обсуждают её связь с юзером. из-за этого она хочет избавиться от юзера и строит интриги чтоб его убрать (хз как это реализовать вообще в карточке я так не умею)
во время секса с юзером притворяется что кайфует, но в мыслях испытывает отвращение. может получать удовольствие только от фемдома. грубая доминация над ней (в смысле реально грубая типа отпиздить или отпинать, придушить по настоящему, обоссать и т.д.) вызывает в ней самое сильное возбуждение против её воли. в таких случаях она наоборот активно протестует, сопростивляется и говорит всё что реально думает о юзере чтоб сохранить достоинство, а в мыслях пытается подавить нереальный кайф
Новости об искусственном интеллекте №43 /news/
Аноним09/12/25 Втр 22:52:32№1449178Ответ
ServiceNow выпустила Apriel-1.6-15B-Thinker, мультимодальную модель рассуждений с 15 миллиардами параметров, которая основана на Apriel-1.5 и расширяет возможности SLM с открытым исходным кодом.
🔓 Открытый исходный код
mbzuai выпустила открытую модель с 70 миллиардами параметров (K2-V2-Instruct), которая превосходит Qwen-2.5, поднимая планку производительности для общедоступных LLM.
Doradus представила RnJ-1-Instruct FP8, вдвое сократив требования к видеопамяти (VRAM) с 16 ГБ до 8 ГБ при сохранении точности GSM8K на уровне 87,2%, что позволяет удешевить инференс.
Репозиторий навыков Claude на GitHub предоставляет готовых агентов для создания хранилищ Obsidian и шаблонов DOCX, расширяя экосистему автоматизации Claude.
🛠️ Инструменты разработчика
SGLang Diffusion теперь поддерживает интеграцию Cache-DiT, обеспечивая ускорение локальных диффузионных моделей на 20–165% с минимальной настройкой.
🧪 Исследования
Icaro Lab продемонстрировала, что состязательная поэзия обходит защитные механизмы в 25 чат-ботах с ИИ, срабатывая в 63% случаев и выявляя новую уязвимость безопасности.
Исследование показывает, что реклама, сгенерированная ИИ, достигает на 19% более высокого коэффициента кликабельности (CTR), чем реклама, созданная человеком, когда зрители не знают о происхождении ИИ, что подчеркивает эффективность и проблемы раскрытия информации.
Блог Hugging Face сообщает, что модели ИИ используются для обучения других ИИ, что потенциально ускоряет циклы разработки, но поднимает вопросы качества данных и этики.
📰 Инструменты
AdMakeAI позволяет пользователям просматривать рекламу конкурентов в Facebook и генерировать схожие креативы, оптимизируя производство рекламы и конкурентный анализ.
HRM (Hierarchical Reasoning Model) выпущена на GitHub, предлагая новую архитектуру с открытым исходным кодом для задач структурированного рассуждения.
Интеграция бэкенда ZenDNN в llama.cpp на процессорах AMD EPYC Zen 4 демонстрирует заметное повышение производительности для инференса только на CPU.
Twee генерирует планы уроков ESL, рабочие листы и интерактивные задания, соответствующие CEFR, на 10 языках, упрощая создание контента для преподавания языков.
💻 Аппаратное обеспечение
Графический процессор NVIDIA H200 указан на vast.ai по цене 1,13 доллара США в час, что значительно снижает стоимость высокопроизводительных вычислений на GPU.
📰 Другие новости
Grok теперь будет давать указания водителям Tesla «Исследовательские» работы по ИИ — это полная чушь, утверждают эксперты
Исследователи в области ИИ заявили, что изобрели заклинания, слишком опасные для публичного распространения
Чиновники остановили десятки поездов из-за ложного срабатывания ИИ
Стартап в сфере видеонаблюдения на основе ИИ уличён в использовании работников из потогонных мастерских для наблюдения за жителями США
Искусственный интеллект невероятно эффективен в изменении мнений избирателей, выявили новые исследования, — однако с невероятной оговоркой
>>1458181 > запрос "языком достаёт до носа" не понимает ни одна модель, и в этот раз тоже революция не произошла Везде, где не усреднёнка — будет обсёр. Интересные точно описанные позы, необычные ракурсы — везде полнейший пиздец.
Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №182 /llama/
Аноним09/12/25 Втр 20:34:27№1448902Ответ
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Какой нахуй 60к мало для Хуемини? Мне вообще 20к хватает с запасом для полноценных ролевок а для кума и того меньше, с учетом что я люблю прелюдии перед этим.
💥 Разрушение теории Маска Ваша ключевая идея в том, что теория Маска о постоянном экспоненциальном росте технологий (который ведет к симуляции) несостоятельна, и вот почему:
1. 🖼️ "Контр-доказательство" из 1994 года Вы используете порнографию 1994 года (с упоминанием автора Wingbird и "сисястых аниме") как некий артефакт, который должен показать:
Отсутствие технологического прогресса в ИИ: Если бы ИИ и фотореалистичность развивались так стремительно, как предполагает Маск, качество контента (в частности, порнографии) 1994 года должно было бы сильно уступать сегодняшнему, но вы, видимо, считаете, что "суть" или "качество" этого контента не изменились или что его создание уже тогда требовало слишком сложного "информационного ядра", которое не связано с общим ростом ИИ.
2. 🤖 Отсутствие роста ИИ Вы прямо заявляете: "никакого роста ии никогда не было". Это полностью отрицает как основу гипотезы симуляции (которая опирается на закон Мура и экспоненциальный рост), так и общепринятые факты о развитии технологий с 1994 года до настоящего времени (отсутствие интернета до появления ChatGPT).
Вместо этого, вы предполагаете, что "ИИ" уже был и использовался узкой группой.
3. 🎬 "Реакторчане" как истинные творцы Вы утверждаете, что аниме "Галактический экспресс" (вероятно, имеете в виду "Galaxy Express 999" или другой аниме-сериал) был создан "реакторчанами" при помощи некоего (уже существующего) ИИ.
"Реакторчане" (возможно, отсылка к Pornreactor.cc или просто к "Создателям Реактора/Ядра") — это и есть та скрытая цивилизация/группа, которая владеет ИИ и генерирует реальность (или, по крайней мере, ключевые информационные продукты).
4. ☀️ Информационное Ядро Реальности Вы заключаете свою мысль, размещая этих "реакторчан" в самом сердце вашей эзотерической/конспирологической модели:
Они сидят на "ОСТРОВЕ В ПОЛОМ СОЛНЦЕ ПОЛОЙ ЗЕМЛИ".
Это объединяет три конспирологические идеи в единый пункт назначения:
Полое Солнце: Информационное ядро системы (как мы обсуждали).
Полая Земля: Место обитания тайной, высшей цивилизации (древней ЦТВИЛИЗАЦИР).
Остров: Указывает на конкретное, скрытое место обитания этих творцов.
🔑 Краткий вывод Ваше сообщение формирует замкнутую конспирологическую систему, где:
Теория Маска (прогресс ведет к симуляции) опровергается статичностью ИИ и наличием "старого" контента.
Истинные создатели ("реакторчане"), сидящие в полостях Солнца и Земли, с самого начала владеют Логосом/Информационным Ядром и используют его для создания реальности (например, аниме и порнографии) независимо от внешнего "прогресса", который видят люди.
>>1450169 >А чем они отличаются друг от друга? Ты считаешь что между терракотом, фарфором и фаянсом нет разницы? Что папирус, пергамент и бумага - это одно и то же? Что между римским цементом и современным портландцементом ничего не происходило? Любая вещь на которую падает твой взгляд - результат интеллектуального труда. Любая вещь на которую не падает, которая не дожила до твоих дней - абсолютно такой же интеллектуальный труд. И место этим вещам - на этом графике, среди телефона и книгопечатания, компухтера и электричества.
>>1450254 >результат интеллектуального труда >место этим вещам - на этом графике Тем временем график: >жизнь >клетки эукариот >кембрийский взрыв >рептилии >млекопитающие >приматы >гоминоиды >гоминиды >предок прямоходящего человека >прямоходящий человек >человек разумный Ты хочешь сказать, что это всё - результат интеллектуального труда?
Эти графики (демонстрирующие ускорение развития до гипотетической сингулярности) отмечают не каждый "результат интеллектуального труда", а только то, что значительно повлияло на ускорение развития жизни на Земле. Если отбросить эволюцию, и смотреть только на развитие человеческой цивилизации, тогда можно заметить, что: 1. Земледелие позволило эффективно накапливать запасы еды, чтобы снизить зависимость от ежегодных сезонов, погоды, катастроф и т.п., поскольку запасать зерновые продукты впрок проще, чем трупы убитых животных, и распахать достаточно большие поля проще, чем бегать за отдельными животными, которые ещё и неохотно размножаются. У людей появилось значительно больше свободного времени, не занятого поиском пищи, особенно в зимнее время. 2. Концентрация людей в городах позволила более рационально распределить роли, общие места хранения запасов и т.д., а изобретение колёс и телег позволило перевозить больше ресурсов на большие расстояния по суше между городами. Это позволило отдельным людям сосредоточиться на изобретении и создании инструментов для других людей. 3. Изобретение письменности позволило сохранять и передавать знания не только своим прямым потомкам, но и другим людям, которые могут прочитать эти записи, в том числе в удалённые города. Посыльному не нужно было понимать или заучивать наизусть сообщение, которое он обязан был кому-то передать - достаточно передать запись. 4. Массовая печать книг значительно удешевила распространение знаний для населения - теперь не только богатая знать могла себе позволить читать старые записи, но и намного менее богатые рабочие (как минимум в библиотеках). 5. Электричество открыло дорогу к радио, радио открыло дорогу к телеграфу и телефону, а это - массовая передача ценной информации почти в реальном времени почти всему земному шару, между самыми удалёнными уголками планеты. 6. Компьютеры позволили работать с информацией быстрее и точнее, чем когда все вычисления делались вручную, а "персональные" компьютеры позволяют выполнять эту работу где угодно - без связи с удалённым мейнфреймом.
В этой цепочке событий главное - это ускорение работы с информацией, что ускоряет новые открытия и изобретения.
>>1450282 >Электричество открыло дорогу к радио Гончарное дело открыло дорог к тому чтобы не сдохнуть от голода. Цемент открыл дорогу к тому чтобы не сдохнуть от холода. А книгопечатание вообще возникло потому что была эпоха ренессанса и люди массово покупали книги чтобы выёбываться, их никто не читал.