λ³Έ νλ‘μ νΈλ μΌμμνμμ μ΄λ£¨μ΄μ§λ λνλ₯Ό λ°νμΌλ‘ ν΅μ¬ λ΄μ©μ μμ½νλ AI λͺ¨λΈμ κ°λ°νλ κ²μ λͺ©νλ‘ ν©λλ€. νμ, μ§μ₯, μ¬ν, μ¬κ°, μΌν λ± λ€μν μ£Όμ μ λνλ¬Έμ μμ½νμ¬, ν΅ν λΉμλ νμλ‘ μμ½ λ±μ μ€μ μλΉμ€μ νμ©ν μ μλ λͺ¨λΈμ ꡬμΆν©λλ€.
κΈ°κ°: 2025λ 3μ 12μΌ ~ 2025λ 3μ 24μΌ
μΈμ: μ΄ 5λͺ
AutoTokenizer
κΈ°λ° μ μ²λ¦¬ ꡬ쑰λ₯Ό μ€κ³νμμΌλ©°, νμ΅ λ° μΆλ‘ μ νμν μ€μ κ°μ YAML
κΈ°λ°μΌλ‘ λΆλ¦¬νμ¬ μ μ§λ³΄μμ±μ λμμ΅λλ€.
KoBART
μΈμλ GPT-4o, Solar-Pro λ± μ΅μ μΈμ΄ λͺ¨λΈμ ν¨κ» μ€ννμ¬ λ€μν μμ½ λ°©μμ ν¨κ³Όλ₯Ό λΉκ΅ λΆμνμμ΅λλ€.
- λ¬Έμ λ°°κ²½: KoBART λͺ¨λΈμ μ λ ₯ μ΅λ κΈΈμ΄ μ ν(512 ν ν°)μ μ΄κ³Όνλ λνλ¬Έμ΄ μ‘΄μ¬νμ¬ νμ΅ μ μ€λ₯κ° λ°μνμ΅λλ€. νΉν νκ· 20ν΄, μ΅λ 60ν΄μΌλ‘ ꡬμ±λ λνμμ κΈ΄ λ°νκ° λ§μ token overflowκ° μμ£Ό λ°μνμ΅λλ€.
- ν΄κ²° λ°©λ²: tokenizer μ€μ μ `truncation=True` μ΅μ μ λͺ μνκ³ , `encoder_max_len` κ°μ μ μ ν μ‘°μ νμ¬ λͺ¨λΈμ΄ μμ© κ°λ₯ν λ²μ λ΄μμ μ λ ₯μ μλ₯΄λ λ°©μμΌλ‘ ν΄κ²°νμ΅λλ€. λ€λ§ μ΄λ‘ μΈν΄ μ€μν λ°ν μΌλΆκ° μ릴 κ°λ₯μ±μ κ³ λ €νμ¬, dialogue length λΆν¬λ₯Ό κΈ°λ°μΌλ‘ μ΅μ μ max lengthλ₯Ό νμνμ΅λλ€.
- λ¬Έμ λ°°κ²½: λͺ¨λΈμ μ±λ₯μ΄ μ’μμ‘λμ§λ₯Ό νλ¨νκΈ° μν κΈ°μ€μ΄ λͺ ννμ§ μμμ΅λλ€. Rouge μ μλ νμ€ μ§νμ΄μ§λ§, μ λ΅ μμ½μ΄ λ¨μΌ λ¬Έμ₯μΌλ‘ μ 곡λμ΄ μκ³ μμ± κ°λ₯ν μμ½μ ννμ΄ λ€μν μν©μμ μ΄ μ μλ§μΌλ‘ μ±λ₯μ λ¨μ νκΈ° μ΄λ €μ μ΅λλ€.
- ν΄κ²° λ°©λ²: Rouge-1, Rouge-2, Rouge-L λ± λ€μμ μ§νλ₯Ό ν¨κ» μ¬μ©νκ³ , μ λ νκ° μΈμλ μ§μ μμ½λ¬Έμ νμΈνλ©° μ μ±μ μΌλ‘ λΉκ΅νλ κ³Όμ μ λ³ννμ΅λλ€. νμ΅μ© λ°μ΄ν°κ° μ‘΄μ¬νμ§ μλ ν μ€νΈ νκ²½μ΄μκΈ° λλ¬Έμ wandb λ± μ€ν κ΄λ¦¬ λꡬλ₯Ό μ¬μ©ν μλ μμμΌλ©°, λμ λ€μν μΆλ ₯ μμλ₯Ό μμ§νκ³ μ§μ λΉκ΅Β·λΆμνμ¬ λͺ¨λΈ μ±λ₯μ νκ°νμ΅λλ€.
μμ½ λͺ¨λΈμ μ±λ₯μ μ μ²λ¦¬, ꡬ쑰, νμ΅ μ λ΅, μ€ν μ€κ³κ° μ’ ν©μ μΌλ‘ μμ©νλ€λ κ²μ λ°°μ μ΅λλ€. λ€μν 쑰건μμμ μ€νκ³Ό κ·Έ κ²°κ³Όλ₯Ό μΆμ Β·κ΄λ¦¬νλ κ²½νμ ν΅ν΄ μ€λ¬΄μμλ μ¬ν κ°λ₯ν νμ΄νλΌμΈμ μ€μμ±μ 체κ°νμ΅λλ€.
λν, LLMμ μ±λ₯μ΄ μ€μ λ‘ ν₯μλμλμ§λ₯Ό μ λμ μΌλ‘ νκ°νκΈ°κ° μ½μ§ μλ€λ μ λ κΉ¨λ¬μμ΅λλ€. Rougeμ κ°μ μ§νλ μ λ΅κ³Όμ μ μ¬λλ₯Ό μμΉννμ§λ§, μμ½μ΄λΌλ μμ μ νΉμ±μ λ€μν μ λ΅μ΄ κ°λ₯νκΈ° λλ¬Έμ νκ° μ§νλ‘μμ νκ³κ° μ‘΄μ¬ν©λλ€. κ²°κ³Όμ μΌλ‘ λͺ¨λΈ κ°μ μ΄ μλ―Έ μλμ§ νλ¨νκΈ° μν΄μ μ λμ μ§ν μΈμλ μ¬λ μ€μ¬μ μ μ±μ νλ¨κ³Ό μμ λΉκ΅κ° ν¨κ» μ΄λ£¨μ΄μ ΈμΌ ν¨μ λκΌμ΅λλ€.
μ΄ κ³Όμ μμ Huggingface νλ«νΌμ΄ λ§€μ° μ μ©νλ€λ κ²λ μκ² λμμ΅λλ€. Huggingfaceλ λ€μν μ¬μ νμ΅ λͺ¨λΈμ μ 곡ν λΏλ§ μλλΌ, Tokenizer, Trainer, Metrics λ±μ λͺ¨λνλ λꡬλ₯Ό μ 곡νμ¬ μ€νκ³Ό μ¬νμ±μ λμ¬μ€λλ€. νΉν `transformers` λΌμ΄λΈλ¬λ¦¬λ PyTorch λ° TensorFlow κΈ°λ° λͺ¨λΈμ μμ½κ² λΆλ¬μ€κ³ fine-tuning ν μ μλλ‘ λμμ€, NLP μ°κ΅¬μ μ€λ¬΄ λͺ¨λμμ μ€μν μν μ νλ€λ κ²μ μ€κ°νμ΅λλ€.