Можно ли научить человека пониманию ?

Создана: 17 Мая 2023 Срд 23:07:02.
Раздел: "Мнение оппозиции"
Сообщений в теме: 248, просмотров: 112695

На страницу: Назад 1, 2, 3 ... 8,

, 10 ... 15, 16, 17 Вперёд

karaganda

Сообщений: >10K

17 Мая 2023 Срд 23:07:02

#6137413

перенес тему

Ответить
karaganda

Сообщений: >10K

15 Марта 2024 Птн 9:14:08

#6157160

Генсек НАТО заявил об уничтожении кораблей Черноморского флота России ракетами альянса

[внешняя ссылка]

Ответить
karaganda

Сообщений: >10K

15 Марта 2024 Птн 9:26:50

#6157161

Мобильный оператор протестирует прямую спутниковую связь в Африке

Компания Omnispace планирует испытать свою группировку из более чем 600 спутников на низкой околоземной орбите для обеспечения связи в областях без покрытия сотовыми вышками. Компания сотрудничает с крупнейшим оператором наземной мобильной связи в Африке, MTN, чтобы подключить телефоны и устройства клиентов к их сети. Omnispace также заключает соглашения с другими телекоммуникационными компаниями в разных странах. Первоначальные услуги спутниковой связи планируется предоставить в 2026 году.

[внешняя ссылка]

Ответить
karaganda

Сообщений: >10K

15 Марта 2024 Птн 9:31:11

#6157162

SpaceX с третьей попытки успешно вывела на орбиту корабль Starship

[внешняя ссылка]

Ответить
karaganda

Сообщений: >10K

15 Марта 2024 Птн 23:18:57

#6157220

Ответить
karaganda

Сообщений: >10K

16 Марта 2024 Суб 8:46:52

#6157240

Ответить
karaganda

Сообщений: >10K

16 Марта 2024 Суб 21:49:00

#6157337

Векторизация текста для LLM

Что такое векторизация текста?

Векторизация текста – это процесс преобразования текста в числовые векторы. Это необходимо, потому что LLM (большие языковые модели) работают с числами, а не с текстом.

Существует несколько методов векторизации текста:

Bag-of-words (BOW): этот метод просто подсчитывает количество слов, встречающихся в тексте.
TF-IDF: этот метод учитывает не только количество слов, но и их частоту в тексте и во всем наборе данных.
Word2Vec: этот метод использует нейронную сеть для обучения векторов слов.
BERT: этот метод использует трансформерную архитектуру для обучения векторов слов.
Какой метод выбрать?

Выбор метода векторизации текста зависит от задачи.

BOW: простой и быстрый метод, но он не учитывает порядок слов и семантику.
TF-IDF: более точный метод, чем BOW, но он все еще не учитывает порядок слов.
Word2Vec: более точный метод, чем TF-IDF, который учитывает семантику слов.
BERT: самый точный метод из перечисленных, который учитывает порядок слов и семантику.
Ресурсы:

Scikit-LLM: полное руководство по Scikit-LLM: [неправильный URL удален]
Раскрывая секреты LLM: руководство по основным понятиям больших языковых моделей без хайпа: [неправильный URL удален]
Общаемся с базой знаний: как мы улучшили точность генеративных ответов LLM с помощью собственного RAG: [неправильный URL удален]
Пример:

Предположим, у нас есть два предложения:

"Я люблю яблоки."
"Я люблю бананы."
BOW:

"Я": 2
"люблю": 2
"яблоки": 1
"бананы": 1
TF-IDF:

"Я": 0.5
"люблю": 0.5
"яблоки": 1
"бананы": 1
Word2Vec:

"Я": [0.1, 0.2, 0.3]
"люблю": [0.4, 0.5, 0.6]
"яблоки": [0.7, 0.8, 0.9]
"бананы": [1.0, 1.1, 1.2]
BERT:

"Я": [0.1, 0.2, 0.3, 0.4]
"люблю": [0.5, 0.6, 0.7, 0.8]
"яблоки": [0.9, 1.0, 1.1, 1.2]
"бананы": [1.3, 1.4, 1.5, 1.6]
Как видите, векторы для разных предложений отличаются. LLM может использовать эти векторы, чтобы понять смысл предложений и выполнить различные задачи, такие как машинный перевод, summarization, и question answering.

Ответить
karaganda

Сообщений: >10K

16 Марта 2024 Суб 22:12:27

#6157338

Copilot

Векторизация текста — это процесс преобразования слов или фраз в векторные представления. Это позволяет алгоритмам машинного обучения работать с текстовыми данными, представляя их в виде числовых векторов. Преимущество заключается в том, что векторы содержат семантическую информацию о словах и их взаимоотношениях 1.
Существует несколько методов векторизации текста:
TF-IDF (Term Frequency-Inverse Document Frequency): Этот метод учитывает частоту встречаемости слова в документе и обратную частоту встречаемости слова во всех документах. Он создает векторы, которые отражают важность слова в конкретном контексте 2.
Word Embeddings (векторные представления слов): Word embeddings — это векторное представление слова. Оно позволяет учесть семантическую близость слов и их смысловые отношения. Один из популярных методов — Word2Vec, который обучает векторы на больших текстовых корпусах 2.
Doc2Vec: Этот метод расширяет Word2Vec на уровень документов. Он создает векторы для целых документов, учитывая контекст и семантику 2.
FastText: Этот метод также использует Word2Vec, но учитывает подслова (subword information). Он может работать с неизвестными словами, разбивая их на подслова 2.
Выбор метода векторизации зависит от задачи и доступных данных. Например, для больших языковых моделей (LLM) таких, как GPT, Word2Vec или FastText могут быть хорошими вариантами для векторизации текста

Ответить
karaganda

Сообщений: >10K

16 Марта 2024 Суб 23:46:00

#6157341

Ответить
karaganda

Сообщений: >10K

17 Марта 2024 Вск 19:59:19

#6157388

Ответить
karaganda

Сообщений: >10K

17 Марта 2024 Вск 21:12:22

#6157394

Ответить
karaganda

Сообщений: >10K

18 Марта 2024 Пон 21:52:32

#6157447

Великобритания рассчитывает снизить стоимость ИИ-инфраструктур в 1000 раз

Создание и эксплуатация систем искусственного интеллекта — дорогостоящий бизнес, требующий тысяч чипов. Лучшая модель для ИИ от Nvidia, H100, стоит до $40 тысяч за чип. Более старый графический процессор этой же компании, A100, стоит около $10 тысяч долларов. Его использовали для обучения популярных моделей, таких как GPT-4 от OpenAI.

Генеральный директор OpenAI Сэм Альтман заявил в прошлом году, что обучение GPT-4 обошлось его компании более чем в $100 миллионов, и что для создания модели потребовалось 25 тысяч чипов A100.

Кроме технологий, для ИИ нужны огромные природные ресурсы. Например, стандартный центр обработки данных может в день требовать до 1,1 миллиона литров воды — примерно столько же поглощают 100 тысяч домов.

[внешняя ссылка]

Ответить
karaganda

Сообщений: >10K

19 Марта 2024 Втр 9:31:31

#6157454

NVIDIA представила самый мощный чип в мире — Blackwell B200, который откроет путь к гигантским нейросетям

Компания Nvidia в рамках конференции GTC 2024 представила ИИ-ускорители следующего поколения на графических процессорах с архитектурой Blackwell. По словам производителя, грядущие ИИ-ускорители позволят создавать ещё более крупные нейросети, в том числе работать с большими языковыми моделями (LLM) с триллионами параметров, и при этом будут до 25 раз энергоэффективнее и экономичнее в сравнении с Hopper.

[внешняя ссылка]

Ответить
karaganda

Сообщений: >10K

20 Марта 2024 Срд 13:15:48

#6157571

Apple договаривается с Google об использовании ИИ Gemini в новых iPhone

[внешняя ссылка]

Ответить
karaganda

Сообщений: >10K

21 Марта 2024 Чтв 10:22:05

#6157629

Саудовская Аравия собирается стать крупнейшим инвестором в ИИ

Страна хочет учредить фонд в размере $40 миллиардов для инвестиций в самые перспективные проекты. Королевство даже привлекло для работы над ним известный венчурный фонд Andreessen Horowitz, который специализируется на вложениях в IT, а также других финансистов. По данным The New York Times (NYT), на сегодняшний день это крупнейший мировой фонд, ориентированный на ИИ.

Во всем мире корпоративные инвестиции в ИИ стремительно растут, но Саудовская Аравия играет по-крупному: вложение в $40 миллиардов сделает её глобальным лидером в этой области. Оно также поспособствует достижению главной цели королевства на ближайший десяток лет — дифференцировать свои бизнес-модели и увеличить геополитическое влияние. Туризм и нефтяная промышленность, благодаря которым страна получила свои богатства, больше не являются для неё приоритетными.

[внешняя ссылка]

Ответить
karaganda

Сообщений: >10K

21 Марта 2024 Чтв 17:44:34

#6157666

Первый пациент, вжививший чип Neuralink, теперь по 8 часов играет в «Цивилизацию»

[внешняя ссылка]

Ответить