Karaoke Gen Progress Presentation

2,015 views
1,933 views

Published on

0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,015
On SlideShare
0
From Embeds
0
Number of Embeds
299
Actions
Shares
0
Downloads
0
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

Karaoke Gen Progress Presentation

  1. 1. Automatic Generation of Karaoke-Game Stages from Audio Files ณัฐวุฒิ กุลนิรันดร ภาควิชาวิศวกรรมคอมพิวเตอร์ จุฬาลงกรณ์มหาวิทยาลัย 11/10/2008
  2. 2. สมาชิก <ul><li>นิสิต </li></ul><ul><ul><li>ณัฐวุฒิ กุลนิรันดร รหัสประจำตัวนิสิต 4831213321 </li></ul></ul><ul><li>อาจารย์ที่ปรึกษา </li></ul><ul><ul><li>ศ . ดร . บุญเสริม กิจศิริกุล </li></ul></ul>11/10/2008
  3. 3. เกี่ยวกับโครงงาน <ul><li>เกมคาราโอเกะในปัจจุบันไม่สามารถเลือกเพลงที่อยากร้องมาร้องตามใจชอบได้ </li></ul><ul><li>โครงงานนี้สร้างด่านจากเพลงในรูปแบบ MP3 ใดๆที่ผู้ใช้เลือก </li></ul>11/10/2008
  4. 4. นิยาม “ ด่าน ” <ul><li>ชื่อไฟล์เสียงที่ใช้คู่กับด่านนั้น </li></ul><ul><li>ลำดับของ ( โน้ต , เวลาเริ่มต้น , เวลาหยุด ) </li></ul><ul><ul><li>ไม่มีข้อมูลตัวใดอยู่ในช่วงเวลาที่ซ้อนทับกัน </li></ul></ul><ul><ul><li>บางช่วงเวลาอาจไม่มีข้อมูลใดๆ </li></ul></ul><ul><ul><li>เสียงร้องต่าง Octave แต่เป็นโน้ตตัวเดียวกัน ถือว่าได้คะแนน </li></ul></ul>11/10/2008
  5. 5. ความก้าวหน้าในการดำเนินการวิจัย <ul><li>ศึกษาเรื่องการประมวลผลสัญญาณเสียง (100%) </li></ul><ul><ul><li>การอ่านตัวอย่างสุ่มจากไฟล์เสียง (100%) </li></ul></ul><ul><ul><li>การทำการแปลงฟูเรียร์แบบเร็วบนชุดข้อมูล (100%) </li></ul></ul><ul><li>ศึกษางานวิจัยที่เกี่ยวกับการแยกเสียงคนร้องออกจากเพลง (60%) </li></ul><ul><li>ศึกษางานวิจัยที่เกี่ยวกับการแบ่งส่วนและแบ่งนับโน้ต (50%) </li></ul><ul><li>พัฒนาโปรแกรมก่อกำเนิดด่านจากไฟล์เสียง (0%) </li></ul><ul><li>พัฒนาหรือดัดแปลงโปรแกรมสำหรับทดสอบด่าน (0%) </li></ul><ul><li>ทดสอบการทำงานของโปรแกรม (0%) </li></ul><ul><li>จัดทำเอกสารประกอบ (0%) </li></ul>11/10/2008
  6. 6. การอ่านตัวอย่างสุ่ม ( Samples) จากไฟล์เสียงในรูปแบบ MP3 <ul><li>อ่านจาก MP3 โดยตรงทำได้ยาก </li></ul><ul><li>แปลงเป็น WAV ก่อนแล้วใช้ชุดเครื่องมือสำหรับอ่าน WAV ในการจัดการ </li></ul><ul><li>ใช้ชุดเครื่องมือ LAME และ libsndfile </li></ul>11/10/2008
  7. 7. การทำการแปลงฟูเรียร์แบบเร็วสำหรับชุดข้อมูลที่อ่านได้ <ul><li>ทำการแปลงฟูเรียร์แบบเร็วโดยใช้ชุดเครื่องมือ FFTW </li></ul><ul><li>ความถี่ที่ได้จากสัญญาณเสียงที่บันทึกเข้ามามีหลายฮาร์โมนิค </li></ul>11/10/2008
  8. 8. การทำการแปลงฟูเรียร์แบบเร็วสำหรับชุดข้อมูลที่อ่านได้ ( ต่อ ) <ul><li>หาค่าความถี่มูลฐานโดยการทำ Harmonic Product Spectrum </li></ul>11/10/2008
  9. 9. ศึกษางานวิจัยที่เกี่ยวข้องกับการแยกเสียงคนร้องออกจากเพลง <ul><li>หัวข้อที่เกี่ยวข้อง </li></ul><ul><ul><li>Vocal Pitch Detection/Tracking in Polyphonic Audio </li></ul></ul><ul><ul><li>Predominant F0 </li></ul></ul><ul><li>Masataka Goto: A Predominant-F0 Estimation Method for Polyphonic Musical Audio Signals </li></ul><ul><ul><li>การกรองสัญญาณในช่วงความถี่ต่ำและสูงเพื่อแยกส่วนที่เป็น Bass และ Melody </li></ul></ul><ul><ul><li>เสียงคนร้องจะเป็นความถี่มูลฐานที่เด่นที่สุดในช่วงเวลาส่วนใหญ่ </li></ul></ul><ul><ul><li>มีการหา Probability Density Function ของความถี่ที่จะเป็น F0 </li></ul></ul><ul><ul><li>ใช้สถาปัตยกรรมแบบ Multiple-Agent ในการติดตามความถี่แต่ละความถี่ </li></ul></ul>11/10/2008
  10. 10. ศึกษางานวิจัยที่เกี่ยวข้องกับการแยกเสียงคนร้องออกจากเพลง ( ต่อ ) <ul><li>PreFEst Algorithm </li></ul>11/10/2008
  11. 11. ศึกษางานวิจัยที่เกี่ยวข้องกับการแบ่งส่วนและแบ่งนับโน้ต <ul><li>X. Shao, C. Xu, and M. S. Kankanhali: Predominant Vocal Pitch Detection in Polyphonic Music </li></ul><ul><ul><li>ใช้ Smoother Function แบบมัธยฐาน 5 จุด </li></ul></ul><ul><ul><li>เลือกยอดเพียง 10 ยอดแรกออกมาจากสเปรกตรัม </li></ul></ul><ul><ul><li>ค่าระดับเสียงที่ได้ของเฟรมหนึ่งๆไม่ควรแตกต่างจากเฟรมก่อนหน้ามากจนเกินไป </li></ul></ul>11/10/2008
  12. 12. ขั้นตอนวิธีการทำ HPS (Harmonic Product Spectrum) <ul><li>ใช้ Sliding Window ขนาด 10000 ตัวอย่างสุ่ม </li></ul><ul><ul><li>Sliding Window ขนาดใหญ่ -> ความละเอียดสูง , ประมวลผลช้า </li></ul></ul><ul><li>ทำ Harmonic Product Spectrum โดยการหาค่า |f(x)|.|f(2x)|.|f(3x)| </li></ul><ul><ul><li>เมื่อ f(x) แทนตัวอย่างสุ่มตัวที่ x </li></ul></ul><ul><li>หาตำแหน่ง x ในผลลัพธ์ที่มีค่าแอมพลิจูดสูงที่สุด </li></ul><ul><ul><li>ตั้งสมมติฐานว่ามียอดเดียว </li></ul></ul>11/10/2008
  13. 13. ผลการวิจัย – การทำ HPS บนเสียงเปียโน <ul><li>เสียงโน้ตตัว G จากเปียโนที่ 394.1 Hz </li></ul>11/10/2008
  14. 14. ผลการวิจัย – การทำ HPS บนเสียงเพลงในท้องตลาด <ul><li>เพลง “ หยุด ” ของวง “ Groove Riders” ช่วง 30 – 37 วินาที </li></ul>11/10/2008
  15. 15. สรุปผลการวิจัย <ul><li>เพียงแค่การแปลงฟูเรียร์และการใช้ Harmonic Product Spectrum ไม่เพียงพอจะใช้บอกระดับเสียงร้องเพื่อการก่อกำเนิดด่านได้ </li></ul><ul><li>จำเป็นต้องใช้วิธีอื่นๆเช่นอัลกอริทึม PreFEst ช่วย </li></ul>11/10/2008
  16. 16. อุปสรรคและปัญหา <ul><li>การพัฒนาโปรแกรมด้วยภาษา C++ และ C# </li></ul><ul><ul><li>C# ทำงานระดับต่ำไม่ได้และช้า </li></ul></ul><ul><ul><li>C++ ไม่มีชุดเครื่องมือ / คำสั่งพื้นฐานสำหรับทำงานหลายๆอย่าง ใช้งานยาก </li></ul></ul><ul><li>ความรู้ด้านการประมวลผลสัญญาณดิจิตอล </li></ul><ul><ul><li>ไม่รู้จักเทคนิคหลายอย่างที่ถูกอ้างถึงในงานวิจัย ใช้เวลาศึกษานาน </li></ul></ul><ul><li>การบริหารเวลา </li></ul>11/10/2008
  17. 17. รายการอ้างอิง <ul><li>[1] Harmonix Music Systems. (2007) Rock Band. [Online]. http://www.rockband.com </li></ul><ul><li>[2] Harmonix Music Systems. (2004) Xbox.com. [Online]. http://www.xbox.com/en-US/games/k/karaokerevolution/ </li></ul><ul><li>[3] Sony Computer Entertainment. (2003) SingStar. [Online]. http://www.us.playstation.com/singstar/ </li></ul><ul><li>[4] Underbit. MAD: MPEG Audio Decoder. [Online]. http://www.underbit.com/products/mad/ </li></ul><ul><li>[5] GNU Operating System. GNU Operating System. [Online]. http://www.gnu.org/licenses/gpl-2.0.html </li></ul><ul><li>[6] craig@ccrma.stanford.edu. WAVE PCM soundfile format . [Online]. http://ccrma.stanford.edu/courses/422/projects/WaveFormat/ </li></ul><ul><li>[7] LAME MP3 Encoder. LAME MP3 Encoder. [Online]. http://lame.sourceforge.net/ </li></ul><ul><li>[8] E. d. C. Lopo. libsndfile. [Online]. http://www.mega-nerd.com/libsndfile/#History </li></ul><ul><li>[9] M. Frigo and S. G. Johnson. FFTW. </li></ul><ul><li>[10] M. Goto, &quot;A Real-time Music Scene Description System: Predominant-F0 Estimation for Detecting Melody and Bass Lines in Real-world Audio Signals,&quot; Speech Communication (ISCA Journal), Vol.43, No.4, pp. 311-329, 2004. </li></ul><ul><li>[11] X. Shao, C. Xu, and M. S. Kankanhali, &quot;Predominant Vocal Pitch Detection in Polyphonic Music,&quot; in IEEE International Conference on Multimedia and Expo, 2006. </li></ul><ul><li>[12] P. Boersma and D. Weenink. Praat: doing phonetics by computer. </li></ul><ul><li>[13] T. W. &. C. Kelley. (1986 - 1993, 1998, 2004 ) gnuplot. [Online]. http://www.gnuplot.info/docs/gnuplot.html </li></ul>11/10/2008

×