• Stars
    star
    344
  • Rank 123,066 (Top 3 %)
  • Language
    Python
  • Created over 1 year ago
  • Updated about 1 month ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

언어모델을 학습하기 위한 공개 한국어 instruction dataset들을 모아두었습니다.

open-korean-instructions

Open Korean Instructions는 언어모델을 학습하기 위한 공개 한국어 instruction dataset들을 모아둔 저장소입니다.
이 외에도 번역하거나 GPT를 이용해서 생성한 다양한 데이터들이 존재합니다. 혹시 새로운 데이터가 있다면 PR로 알려주세요.

공개 데이터를 포멧을 통일하고 병합한 데이터

이름 # 데이터
open-korean-instructions 376K KoAlpaca v1.0과 v1.1, ShareGPT DeepL 번역, OIG-smallchip2-ko, KorQuAD-chat
AULM-0809 171K KoAlpaca v1.1, ShareGPT-74k-ko의 코드제거 버전, KorQuAD-chat, evolve-instruct, KoInstruct-QA, ko-lima-vicuna-kullm-v2의 GPT4ALL, Dolly 데이터

공개 데이터를 이용해서 직접 학습한 모델 모음

이름 크기 데이터
heegyu/gorani-v0 355M open-korean-instructions
heegyu/polyglot-ko-1.3b-chat 1.3B AULM-0809
heegyu/polyglot-ko-3.8b-chat 3.8B AULM-0809
heegyu/KoLIMA-5.8b 5.8B changpt/ko-lima-vicuna
heegyu/polyglot-ko-5.8b-chat 5.8B AULM-0809
heegyu/llama-2-ko-7b-chat 7B AULM-0809
iknow-lab/AULM-12.8b-v0 12.8B AULM-0809

355M 모델 Gradio Demo

공개된 데이터 정리

이름 # 타입 내용
KoAlpaca v1.0 52K 싱글턴 Alpaca instruction 번역 후 output을 ChatGPT로 생성
KoAlpaca v1.1 21K 싱글턴 지식인 질문 수집 후 ChatGPT로 대답 생성
ShareGPT DeepL 번역 620K(싱글턴)
84K(멀티턴)
멀티턴, 싱글턴 ShareGPT 데이터를 DeepL로 번역
ShareGPT-74k-ko 74k, 55k(코드제거) 멀티턴 ShareGPT 90k의 cleaned 버전을 구글 번역기를 이용하여 번역
KoChatGPT 실습 13K 싱글턴, 멀티턴, RM 한국어 질문 데이터셋에서 질문 수집 후 ChatGPT로 대답 생성
OIG-small-chip2-ko 210K 싱글턴 LAION AI의 OIG-smallchip-2 영어 데이터 Google Translate으로 번역
Korquad-Chat 9.6K 멀티턴, 지식기반 KorQuAD v1 데이터의 context(뉴스, 위키백과의 문단)을 주고, 관련 내용의 대화를 ChatGPT로 생성
AIRC-KETI/kowow ? 멀티턴, 지식기반 WoW(Wizard Of Wikipedia) - 지식기반 대화 데이터를 번역한 데이터
CounselGPT 싱글턴(13k)
멀티턴(8.7k)
멀티턴, 싱글턴 GPT로 생성한 상담 데이터
Evolve-instruct 37k 싱글턴 WizardLM에서 사용된 evol-instruct를 이용하여 instruction을 증강한 후 GP로 답변 생성한 데이터
KULLM v2 153k 싱글턴 GPT4ALL, Dolly, Vicuna(ShareGPT) 데이터를 DeepL로 번역
nlpai-lab/openassistant-guanaco-ko 9.85k 멀티턴 Korean translation of Guanaco via the DeepL API
psymon/namuwiki_alpaca_dataset 79K 싱글턴 나무위키 덤프 파일을 Stanford Alpaca 학습에 맞게 수정한 데이터셋
changpt/ko-lima-vicuna 1k 싱글턴, 멀티턴(극히 일부) GPT4 API를 사용하여 lima_vicuna_format 데이터를 한국어로 재생성한 데이터셋
taeshahn/ko-lima 1k 싱글턴, 멀티턴(극히 일부) LIMA: Less Is More for Alignment (Zhou et al., 2023)의 학습 데이터를 한국어로 번역한 데이터셋
Ko-StrategyQA 2.2k(질문), 9k (문서) Multi-hop QA, 예/아니오 단답형 이 데이터셋은 StrategyQA의 한국어 버전입니다. 기존 데이터셋의 모든 질문과 단락들을 DeepL을 사용하여 번역.
HAERAE-HUB/KoInstruct-Base 52k 싱글턴 Alpaca 데이터 번역인 듯 함.
HAERAE-HUB/KoInstruct-QA 50.3k 싱글턴 원본 데이터가 뭔지 모르겠음. 위 데이터중에 중복이 있을 수도 있음.
kyujinpy/KOpen-platypus 24.9k 싱글턴 garage-bAInd/Open-Platypus 데이터 번역
ziozzang/EverythingLM-data-V2-Ko 1k 싱글턴 EverythingLM-data-V2를 DeepL로 번역
human-rights-corpus/HRC/ 1.5k 싱글턴 대화형 생성 모델을 위한 인권코퍼스 구축 - 대한민국 국가인권위원회의 결정례와 상담사례 참조, 문체 변경과 질의 응답으로 변경하기 위해서 전후 맥락을 고려한 예시문을 만들고 GPT-3.5-turbo 을 이용하여 원샷 학습후 문답 생성
kyujinpy/OpenOrca-KO 21.6k 싱글턴 OpenOrca dataset 중 약 2만개를 sampling하여 번역한 데이터셋
kyujinpy/KoCoT_2000 2.16k 싱글턴 Using DeepL dataset, translation about kaist-CoT.
RLHF-Korean-Friendly-LLM 2.4K(SFT), 3.8K(RM), 3.6K(RLHF) 싱글턴 다양한 데이터를 수집하여 RLHF를 위한 천개 단위의 데이터셋 구축
jojo0217/korean_rlhf_dataset 107k 싱글턴 성균관대학교 산학협력프로젝트 과정에서 한국어 llm 모델 SFT 학습을 위해 구축한 데이터셋 입니다.
maywell/ko_hh-rlhf-20k_filtered 20k 멀티턴, RM hh-rlhf 데이터셋 중 20k를 synatra-translation 모델로 번역
squarelike/OpenOrca-gugugo-ko 640k + (번역중) 싱글턴 Gugugo-koen-7B-V1.1을 이용하여 OpenOrca데이터셋을 번역 중
maywell/ko_Ultrafeedback_binarized 62k (RM) 싱글턴 Synatra-7B-Translation 모델을 통해 Ultrafeedback_binarized를 번역하고 정제한 데이터셋입니다.
MrBananaHuman/kor_ethical_question_answer 29.1k 싱글턴 RLHF 학습을 위한 AI 윤리적/비윤리적 질의-답변 데이터셋
HumanF-MarkrAI/WIKI_QA_Near_dedup 138k 싱글턴 maywell(Jeonghwan Park)께서 만드신 maywell/wikidata_QA 에서 deduplication한 QA 데이터

평가용 데이터셋

이름 # 타입 내용
HAETAE-project/HAE-RAE-BENCH 1.5k ? HAE-RAE Bench는 언어 모델의 한국어 능력(어휘, 역사, 상식, 독해)을 평가하기 위해 제작된 벤치마크 데이터셋입니다.
HAERAE-HUB/CSAT-QA 0.9k 싱글턴, 객관식 국어 수능문제

그 외 instruction은 아니지만..

데이터 생성 코드

일부 데이터는 번역되거나 ChatGPT를 통해 생성했습니다.
src/에 있는 코드를 이용하여 데이터를 생성할 수 있습니다.

Translate API를 이용하여 번역

python translate.py --max-items 10000 --batch-size 8 oig-smallchip2 ../data/oig-smallchip2.jsonl

# google은 비싸요 ㅠ. 기본 chatgpt
python translate.py --max-items 10000 --batch-size 8 --translator google oig-smallchip2 ../data/oig-smallchip2.jsonl

ChatGPT로 지식기반대화 생성

python generate_kg_dialogue.py --max-items 10000 --batch-size 1 --num_process 4 korquad-v1 ../data/korquad-chat.jsonl

주의사항

  • 서로를 A씨, B씨로 호칭합니다. 추후 전처리가 필요합니다.
  • 할루시네이션이 있을 수 있습니다. 최대한 없애고자 주어진 정보 내에서만 대화하도록 프롬프트를 구성했습니다.

More Repositories

1

symspellpy-ko

symspellpy를 한글 특성에 맞춰서 수정한 라이브러리. 음소분해를 이용해 더 정확한 오타교정을 해준다.
Python
40
star
2

language-model

한국어 언어 모델 학습을 위한 프로젝트(Flax, Pytorch with Huggingface Accelerate)
Jupyter Notebook
30
star
3

ko-rm-judge

Reward Model을 이용하여 언어모델의 답변을 평가하기
Python
27
star
4

torch-xla-SPMD

Pytorch/XLA SPMD Test code in Google TPU
Python
19
star
5

korouge

Google 공식 Rouge Implementation을 한국어에서 사용할 수 있도록 처리
Python
12
star
6

CurseFilter

Detect & Filter korean curse text using huggingface transformer, KcBERT, Transformer-Interpret
Jupyter Notebook
8
star
7

tuna

Python
5
star
8

open-domain-dialog

한국어 Open Domain 챗봇 개발을 위한 Pytorch Lightning 기반 코드
Jupyter Notebook
5
star
9

Unipen

C++ Game Framework / Tutorial
C++
3
star
10

FLEX

FLEX: Expert-level False-Less EXecution Metric for Reliable Text-to-SQL Benchmark
Python
2
star
11

GTA

Code for paper "GTA: Gated Toxicity Avoidance for LM Performance Preservation" accepted to Findings of EMNLP 2023
Jupyter Notebook
2
star
12

HeegyuPT

HeegyuPT는 대학원생의 연구를 도와주기 위한 디스코드 봇입니다. 웹 페이지와 PDF 문서를 요약하는 기능을 제공합니다. 디스코드에서 주요 뉴스를 요약하거나 학술 논문의 내용을 파악하고 전달하는데 도움이 됩니다.
Python
1
star
13

disaster-reponse

This project is building a model to predict the disaster situations from text.
Jupyter Notebook
1
star
14

AI_MaskDetector_Kitty

Mask Detector는 사진과 영상에서 마스크를 착용하지 않은 사람을 찾아 표시해주는 파이썬 어플리케이션 및 API를 제공합니다.
Python
1
star
15

airbnb-seattle-open-dataset-analysis

By analyzing AirBnB Seattle Open Data, We can provide valuable informations to hosts and customer.
Jupyter Notebook
1
star
16

WearableSample

안드로이드 Wear 샘플 앱입니다.
Java
1
star
17

lm-preference-human-eval

Python
1
star
18

Buttinsky-Sejong

2015 STAC 출품작. 한글 맞춤법 검사를 해주는 키보드입니다.
Java
1
star