Можно ли научить человека пониманию ?
Создана: 17 Мая 2023 Срд 23:07:02.
Раздел: "Мнение оппозиции"
Сообщений в теме: 217, просмотров: 44222
-
Генсек НАТО заявил об уничтожении кораблей Черноморского флота России ракетами альянса
[внешняя ссылка] -
Мобильный оператор протестирует прямую спутниковую связь в Африке
Компания Omnispace планирует испытать свою группировку из более чем 600 спутников на низкой околоземной орбите для обеспечения связи в областях без покрытия сотовыми вышками. Компания сотрудничает с крупнейшим оператором наземной мобильной связи в Африке, MTN, чтобы подключить телефоны и устройства клиентов к их сети. Omnispace также заключает соглашения с другими телекоммуникационными компаниями в разных странах. Первоначальные услуги спутниковой связи планируется предоставить в 2026 году.
[внешняя ссылка] -
-
Векторизация текста для LLM
Что такое векторизация текста?
Векторизация текста – это процесс преобразования текста в числовые векторы. Это необходимо, потому что LLM (большие языковые модели) работают с числами, а не с текстом.
Существует несколько методов векторизации текста:
Bag-of-words (BOW): этот метод просто подсчитывает количество слов, встречающихся в тексте.
TF-IDF: этот метод учитывает не только количество слов, но и их частоту в тексте и во всем наборе данных.
Word2Vec: этот метод использует нейронную сеть для обучения векторов слов.
BERT: этот метод использует трансформерную архитектуру для обучения векторов слов.
Какой метод выбрать?
Выбор метода векторизации текста зависит от задачи.
BOW: простой и быстрый метод, но он не учитывает порядок слов и семантику.
TF-IDF: более точный метод, чем BOW, но он все еще не учитывает порядок слов.
Word2Vec: более точный метод, чем TF-IDF, который учитывает семантику слов.
BERT: самый точный метод из перечисленных, который учитывает порядок слов и семантику.
Ресурсы:
Scikit-LLM: полное руководство по Scikit-LLM: [неправильный URL удален]
Раскрывая секреты LLM: руководство по основным понятиям больших языковых моделей без хайпа: [неправильный URL удален]
Общаемся с базой знаний: как мы улучшили точность генеративных ответов LLM с помощью собственного RAG: [неправильный URL удален]
Пример:
Предположим, у нас есть два предложения:
"Я люблю яблоки."
"Я люблю бананы."
BOW:
"Я": 2
"люблю": 2
"яблоки": 1
"бананы": 1
TF-IDF:
"Я": 0.5
"люблю": 0.5
"яблоки": 1
"бананы": 1
Word2Vec:
"Я": [0.1, 0.2, 0.3]
"люблю": [0.4, 0.5, 0.6]
"яблоки": [0.7, 0.8, 0.9]
"бананы": [1.0, 1.1, 1.2]
BERT:
"Я": [0.1, 0.2, 0.3, 0.4]
"люблю": [0.5, 0.6, 0.7, 0.8]
"яблоки": [0.9, 1.0, 1.1, 1.2]
"бананы": [1.3, 1.4, 1.5, 1.6]
Как видите, векторы для разных предложений отличаются. LLM может использовать эти векторы, чтобы понять смысл предложений и выполнить различные задачи, такие как машинный перевод, summarization, и question answering. -
Copilot
Векторизация текста — это процесс преобразования слов или фраз в векторные представления. Это позволяет алгоритмам машинного обучения работать с текстовыми данными, представляя их в виде числовых векторов. Преимущество заключается в том, что векторы содержат семантическую информацию о словах и их взаимоотношениях 1.
Существует несколько методов векторизации текста:
TF-IDF (Term Frequency-Inverse Document Frequency): Этот метод учитывает частоту встречаемости слова в документе и обратную частоту встречаемости слова во всех документах. Он создает векторы, которые отражают важность слова в конкретном контексте 2.
Word Embeddings (векторные представления слов): Word embeddings — это векторное представление слова. Оно позволяет учесть семантическую близость слов и их смысловые отношения. Один из популярных методов — Word2Vec, который обучает векторы на больших текстовых корпусах 2.
Doc2Vec: Этот метод расширяет Word2Vec на уровень документов. Он создает векторы для целых документов, учитывая контекст и семантику 2.
FastText: Этот метод также использует Word2Vec, но учитывает подслова (subword information). Он может работать с неизвестными словами, разбивая их на подслова 2.
Выбор метода векторизации зависит от задачи и доступных данных. Например, для больших языковых моделей (LLM) таких, как GPT, Word2Vec или FastText могут быть хорошими вариантами для векторизации текста -
Великобритания рассчитывает снизить стоимость ИИ-инфраструктур в 1000 раз
Создание и эксплуатация систем искусственного интеллекта — дорогостоящий бизнес, требующий тысяч чипов. Лучшая модель для ИИ от Nvidia, H100, стоит до $40 тысяч за чип. Более старый графический процессор этой же компании, A100, стоит около $10 тысяч долларов. Его использовали для обучения популярных моделей, таких как GPT-4 от OpenAI.
Генеральный директор OpenAI Сэм Альтман заявил в прошлом году, что обучение GPT-4 обошлось его компании более чем в $100 миллионов, и что для создания модели потребовалось 25 тысяч чипов A100.
Кроме технологий, для ИИ нужны огромные природные ресурсы. Например, стандартный центр обработки данных может в день требовать до 1,1 миллиона литров воды — примерно столько же поглощают 100 тысяч домов.
[внешняя ссылка] -
NVIDIA представила самый мощный чип в мире — Blackwell B200, который откроет путь к гигантским нейросетям
Компания Nvidia в рамках конференции GTC 2024 представила ИИ-ускорители следующего поколения на графических процессорах с архитектурой Blackwell. По словам производителя, грядущие ИИ-ускорители позволят создавать ещё более крупные нейросети, в том числе работать с большими языковыми моделями (LLM) с триллионами параметров, и при этом будут до 25 раз энергоэффективнее и экономичнее в сравнении с Hopper.
[внешняя ссылка] -
-
Саудовская Аравия собирается стать крупнейшим инвестором в ИИ
Страна хочет учредить фонд в размере $40 миллиардов для инвестиций в самые перспективные проекты. Королевство даже привлекло для работы над ним известный венчурный фонд Andreessen Horowitz, который специализируется на вложениях в IT, а также других финансистов. По данным The New York Times (NYT), на сегодняшний день это крупнейший мировой фонд, ориентированный на ИИ.
Во всем мире корпоративные инвестиции в ИИ стремительно растут, но Саудовская Аравия играет по-крупному: вложение в $40 миллиардов сделает её глобальным лидером в этой области. Оно также поспособствует достижению главной цели королевства на ближайший десяток лет — дифференцировать свои бизнес-модели и увеличить геополитическое влияние. Туризм и нефтяная промышленность, благодаря которым страна получила свои богатства, больше не являются для неё приоритетными.
[внешняя ссылка] -